Centro de Información

UTF-16

El formato de codificación UTF-16 es el más antiguo de todos los formatos de codificación Unicode y está optimizado para los caracteres más utilizados del Plano Multilingüe Básico (Basic Multilingual Plane, BMP). Los caracteres Unicode cuyo código está en el rango U+0000 a U+FFFF están en el Plano Multilingüe Básico. Estos son escritos latinos y otros escritos europeos y sus símbolos, escrituras africanas y asiáticas. Los caracteres en este rango se asignan directamente a los dos bytes (16 bits) de una unidad de código UTF-16.

Por lo tanto, la codificación UTF-16 es más adecuada para los caracteres de esta área, incluso si requiere el doble de espacio de memoria en comparación con las codificaciones UTF-8 y ANSI para los textos que consisten en caracteres ASCII o ANSI, porque para los caracteres ASCII solo un byte (en lugar de dos bytes) se utiliza para almacenar caracteres ASCII en las codificaciones UTF-8 y ANSI.

UTF-16 Little Endian se utiliza como representación interna de cadenas en Windows 2000 / XP / 2003 / Vista / 7 / 10 (y en las otras versiones de Windows intermedias), y es lo que se entiende en el editor de Windows con la codificación "Unicode". También otros sistemas operativos como macOS o Symbian usan UTF-16 como codificación estándar.

Tanto Big Endian como Little Endian se pueden usar para guardar textos codificados en UTF-16. La marca de orden de bytes (Byte Order Mark, BOM) para UTF-16 Big Endian es FE FF y FF FE para UTF-16 Little Endian. Ver Endianness y Byte Order Mark para más información.