Centro de Información

UTF-32

En la codificación UTF-32 de Unicode, cada carácter está codificado con cuatro bytes (32 bits). El resultado es un requisito de memoria mayor en comparación con todas las demás codificaciones, ya que todas las demás codificaciones utilizan longitudes de bytes variables para un carácter. Sin embargo, esto también tiene la ventaja de que los archivos o flujos codificados en UTF-32 son más fáciles de manejar y procesar, ya que cada byte tiene exactamente su lugar y no puede haber longitudes variables.

Una ventaja de esta codificación es que se puede acceder fácilmente a un carácter específico en la memoria y no es un problema determinar rápidamente et simplemente la longitud de un texto, ya que solo tiene que dividir el número de bytes utilizados por cuatro para obtener el número de caracteres.

Una desventaja decisiva es la mayor necesidad de memoria. En comparación con los textos que consisten en letras latinas, que se almacenan en UTF-7, UTF-8ANSI, el requisito de memoria de la codificación UTF-32 es cuatro veces mayor. Incluso en el caso de que esté utilizando otros caracteres como las letras cirílicas o griegas, UTF-32 necesita mucha más memoria, porque en todas las demás codificaciones, los caracteres menos usados ​​y los caracteres inusuales se codifican con cuatro bytes.

UTF-32 puede almacenarse como Big Endian y Little Endian. La marca de orden de bytes (byte order mark) para un almacenamiento como Big Endian es 00 00 FE FF, como Little Endian FF FE 00 00, en consecuencia. Ver Endianness y Byte Oder Mark para más información.