Centro de Información

UTF-8

El formato UTF-8 es el formato de codificación más común para los caracteres Unicode. Un carácter codificado en UTF-8 requiere variable de 1 a 4 bytes. UTF-8 está optimizado para el almacenamiento de caracteres ASCII. En el rango ASCII con valores de 0 a 127 en la codificación UTF-8, solo se utiliza un byte por carácter, el valor de este byte es el mismo valor que en la codificación ASCII. Por lo tanto, la codificación UTF-8 es especialmente adecuada para textos que constan principalmente de caracteres ASCII o ANSI y contienen solo algunos otros caracteres, como es el caso, por ejemplo, en inglés o en textos de la mayoría de los idiomas europeos.

Mientras que los primeros 128 caracteres (ASCII) necesitan un byte para la codificación, los siguientes 1920 caracteres necesitan dos bytes. Estos caracteres son caracteres latinos con marcas diacríticas como las diéresis alemanas (Ä, Ö ..), o letras griegas y cirílicas. Se utilizan cuatro bytes solo para caracteres raramente utilizados, como caracteres inusuales chinos, japoneses y coreanos.

La codificación UTF-8 es cada vez más importante en Internet, porque el Internet Engineering Task Force requiere que todos los nuevos protocolos de Internet sean compatibles con UTF-8 y UTF-8 se usa cada vez más para mostrar caracteres especiales en páginas web en lugar de nombres entidades (named characters) u otros piensan.

Una desventaja de UTF-8 es el tamaño más grande cuando se utilizan muchos de los caracteres no preferidos, que son caracteres que requieren 3 o 4 bytes. En tales casos, otras codificaciones serían más eficientes en el espacio.

Marca de Orden de Bytes

La marca de orden de bytes (Byte Order Mark, BOM) de UTF-8 es la secuencia de bytes EF BB BF, que puede aparecer como los caracteres  si el programa no puede tratar con UTF-8. El problema del orden de bytes no surge en la codificación UTF-8, pero es mejor usar una BOM, para caracterizar qué codificación se usa. Sin embargo, una clara distinción no es 100% clara, ya que, por supuesto, en el formato ANSI también se permiten cadenas como  que podrían suceder en teoría al menos al principio de un archivo.