Centro de Información

UTF-16

El formato de codificación UTF-16 es el más antiguo de todos los formatos de codificación Unicode y está optimizado para los caracteres más utilizados del Plano Multilingüe Básico (Basic Multilingual Plane, BMP). Los caracteres Unicode cuyo código está en el rango U+0000 a U+FFFF están en el Plano Multilingüe Básico. Estos son escritos latinos y otros escritos europeos y sus símbolos, escrituras africanas y asiáticas. Los caracteres en este rango se asignan directamente a los dos bytes (16 bits) de una unidad de código UTF-16.

Por lo tanto, la codificación UTF-16 es más adecuada para los caracteres de esta área, incluso si requiere el doble de espacio de memoria en comparación con las codificaciones UTF-8 y ANSI para los textos que consisten en caracteres ASCII o ANSI, porque para los caracteres ASCII solo un byte (en lugar de dos bytes) se utiliza para almacenar caracteres ASCII en las codificaciones UTF-8 y ANSI.

Uso

UTF-16 Little Endian se utiliza como representación interna de cadenas en Windows 2000 / XP / 2003 / Vista / 7 / 10 / 11 (y en las otras versiones de Windows intermedias), y es lo que se entiende en el editor de Windows con la codificación "Unicode". También otros sistemas operativos como macOS o Symbian usan UTF-16 como codificación estándar.

Marca de Orden de Bytes

Tanto Big Endian como Little Endian se pueden utilizar para guardar texto en formato UTF-16. La diferencia es si las unidades de bytes deben escribirse de izquierda a derecha o de derecha a izquierda. En consecuencia, la marca de orden de bytes (BOM) para UTF-16 Big Endian es FE FF y para UTF-16 Little Endian FF FE.

Si observa un archivo codificado en UTF-16 en un editor que no puede interpretar correctamente la marca de orden de bytes y el formato y, por lo tanto, interpreta el archivo como un archivo codificado en Latin-1, los caracteres "þÿ" se muestran para UTF16-BE y para UTF16- LE se muestran los caracteres "ÿþ".