Unicode UTF-7

UTF-7

UTF-7 es una codificación que utiliza solo caracteres el rango ASCII para codificar caracteres Unicode. Esta codificación tiene la ventaja de que incluso en entornos o sistemas operativos que solo comprenden ASCII de 7 bits, los caracteres Unicode se pueden representar y transferir.

Por ejemplo, algunos protocolos de Internet, como SMTP para correo electrónico, solo permiten los 128 caracteres ASCII y todos los demás bytes mayores no están permitidos. Todas las demás codificaciones UTF utilizan al menos 8 bits, por lo que no pueden utilizarse para tales fines.

Los caracteres A a Z, a a z, 0 a 9 y los caracteres especiales ' ( ) , . / : - ? permanecen en la codificación como están. Por lo tanto, los textos que están compuestos predominantemente de caracteres ASCII siguen siendo en gran medida legibles. Los caracteres ASCII ! " # $ % & * ; < = > @ [ ] ^ _ ` { | } pueden permanecer como están, pero deben codificarse, ya que pueden no ser comprendidos por todos los programas y protocolos. Todos los demás caracteres están codificados y también se convierten a caracteres ASCII. El signo + marca el comienzo de dicha codificación, el - (o cualquier otro carácter que no pueda aparecer en la codificación) marca el final.

La palabra alemana para "queso", "Käse", por ejemplo, se codificaría como K+AOQ-se. Los caracteres ASCII K, s y e permanecen iguales, mientras que "ä" se convierte a AOQ (otros caracteres ASCII). El comienzo y el final de esta secuencia están marcados con - y +.

Uso

Aunque UTF-7 tiene una gran eficiencia de codificación, no podría prevalecer debido a que la decodificación y la codificación son relativamente difíciles, la mayoría de los programas pueden entender las codificaciones como UTF-8 y casi siempre la limitación de 7 bits no importa mucho.

Marca de Orden de Bytes

La marca de orden de bytes (Byte Order Mark, BOM) de los archivos codificados en UTF-7 consta de la secuencia de bytes 2B 2F 76 seguida de uno de los bytes 38, 39, 3A o 3B. Esta especialidad, que se diferencia de todas las demás codificaciones, se debe al hecho de que los 2 últimos bits de la representación UTF-7 codificada de U+FEFF pertenecen al byte siguiente. Esto nos da 4 bytes posibles diferentes en la cuarta posición, la quinta variante se usa si no hay ningún carácter después de la marca de orden de bytes.

En un editor de texto que no comprende la codificación UTF-7, los primeros 3 bytes de la firma se muestran como "+/v". Dependiendo de la variación, el cuarto carácter puede ser 8, 9, : o ;.