Centro de Información

UTF-7

UTF-7 es una codificación que utiliza solo caracteres el rango ASCII para codificar caracteres Unicode. Esta codificación tiene la ventaja de que incluso en entornos o sistemas operativos que solo comprenden ASCII de 7 bits, los caracteres Unicode se pueden representar y transferir.

Por ejemplo, algunos protocolos de Internet, como SMTP para correo electrónico, solo permiten los 128 caracteres ASCII y todos los demás bytes mayores no están permitidos. Todas las demás codificaciones UTF utilizan al menos 8 bits, por lo que no pueden utilizarse para tales fines.

Los caracteres A a Z, a a z, 0 a 9 y los caracteres especiales ' ( ) , . / : - ? permanecen en la codificación como están. Por lo tanto, los textos que están compuestos predominantemente de caracteres ASCII siguen siendo en gran medida legibles. Los caracteres ASCII ! " # $ % & * ; < = > @ [ ] ^ _ ` { | } pueden permanecer como están, pero deben codificarse, ya que pueden no ser comprendidos por todos los programas y protocolos. Todos los demás caracteres están codificados y también se convierten a caracteres ASCII. El signo + marca el comienzo de dicha codificación, el - (o cualquier otro carácter que no pueda aparecer en la codificación) marca el final.

La palabra alemana para "queso", "Käse", por ejemplo, se codificaría como K+AOQ-se. Los caracteres ASCII K, s y e permanecen iguales, mientras que "ä" se convierte a AOQ (otros caracteres ASCII). El comienzo y el final de esta secuencia están marcados con - y +.

Aunque UTF-7 tiene una gran eficiencia de codificación, no podría prevalecer debido a que la decodificación y la codificación son relativamente difíciles, la mayoría de los programas pueden entender las codificaciones como UTF-8 y casi siempre la limitación de 7 bits no importa mucho.