¿Qué es el código ASCII?

Imagen: ASCII – Autor: Seobility – Licencia: CC BY-SA 4.0

ASCII son las siglas de “American Standard Code for Information Interchange“, lo que traducido al español significa “Código Estándar Americano para el Intercambio de Información”. Básicamente ASCII es un conjunto de caracteres alfanuméricos y signos que estandarizan el proceso de intercambio de información.

Por lo tanto, la codificación de caracteres también llamadas páginas de código, define cómo se codifican en bytes los caracteres de un texto y los códigos de control para la transferencia de datos.

Asimismo, el código ASCII es uno de los conjuntos de caracteres estándares más importantes, junto a los Unicodes ISO-8859-1 y Windows 1252. De hecho, fue el estándar dominante en todas las páginas web durante mucho tiempo, hasta que fue sustituido por el Unicode UTF-8, el cual apareció en 2007.

Aunque ya obsoleto de forma generalizada, el código ASCII se mantiene vigente en distintas áreas de la informática.

Historia

El código ASCII data su origen a principios del siglo anterior, en la época del telégrafo, el código Morse y el código Murray de 5 bits. Este último fue desarrollado por el inventor neozelandés Donald Murray entre 1901 y 1932.

La primera versión del código ASCII fue publicada en 1963 por la ASA (Asociación Estándar Americana), precursora del actual Instituto Americano de Estándares Nacionales (ANSI). Pero no fue sino hasta 1968 que se reveló la versión estandarizada de dicho sistema de codificación que se mantiene hasta la actualidad.

Conjunto de caracteres ASCII de 7 bits

El código ASCII original utiliza solo 7 bits, a diferencia de los 8 comúnmente empleados, y puede codificar un máximo de 128 caracteres distintos. Dicho conjunto contiene las letras mayúsculas y minúsculas del alfabeto inglés, los signos de puntuación de mayor uso, los símbolos matemáticos y también 33 códigos de control para la transferencia de datos y formato de texto.

Los grupos de códigos están distribuidos de la siguiente forma:

0-32 y 127: transferencia de datos, así como los espacios, tabulaciones y saltos de líneas.
48-57: dígitos.
65-90: letras mayúsculas.
97-122: letras minúsculas.
33- 7, 58-64, 91-96 y 123-126: signos de puntuación, símbolos matemáticos y otros caracteres especiales.

Para mantener la estandarización del código, los caracteres especiales y la diéresis o los corchetes, no se incluyen dentro del código ASCII de 7 bits. Por lo cual, este sistema de codificación se utiliza en una limitada cantidad de idiomas. Por ejemplo, la letra ñ y el signo empleado para abrir una interrogación en español (¿), no están dentro de este código.

Puede parecer una selección de caracteres arbitraria y caótica, pero lo cierto es que es el resultado de una minuciosa planificación. Por ejemplo, las letras que se colocan en mayúsculas o minúsculas únicamente difieren en un bit.

Asimismo, el conjunto ASCII también se caracteriza por ubicar los números, espacios y otros símbolos delante de las letras para simplificar la organización. Además, los símbolos que no son alfanuméricos están ubicados en posiciones similares a las usadas en las antiguas máquinas de escribir.

Conjuntos de caracteres extendidos: ISO-8859

Dado que el código ASCII contiene exclusivamente los caracteres del alfabeto inglés, se han desarrollado algunas extensiones específicas para cada región.

En este contexto, el conjunto de caracteres Windows 1252 y el ISO-8859-1 han ganado importancia por ser extensiones de 8 bits y contener mayor cantidad de caracteres especiales que son requeridos en otros idiomas y dialectos. Sobre la base del desarrollo histórico, ambos son referidos como el conjunto de caracteres ANSI, aunque sin fundamento porque el código ANSI jamás fue estandarizado.

De este modo, el conjunto ISO-8859 ha desarrollado una colección de caracteres distintos que encaja a la perfección con los diferentes lenguajes y regiones. Por ejemplo, el ISO-8859-7 contiene el alfabeto latín y el griego; el ISO 8859-4 cubre los caracteres de los lenguajes escandinavos y bálticos; el ISO-8859-1 contiene los alfabetos europeos occidentales y se considera casi idéntico al Windows 1252.

Dicho esto, tanto el Windows 1252 como el ISO 8859-1 coinciden durante los primeros 128 caracteres con los del ASCII y desde la posición 128 continúan los caracteres específicos de cada código. Mientras que los números del 128 al 159 no están definidos en el estándar ISO-8859, pero desde el número 160 se encuentran todos los caracteres de los diferentes idiomas y regiones.

EL ASCII, el Unicode y el UTF-8

A pesar de que los estándares ISO 8859 cubren una amplia gama de idiomas, no todos están incluidos, siendo además confuso navegar entre tantos conjuntos de datos que no son compatibles entre sí.

Por este motivo, desde 1968 se empezó a planificar cómo mantener la uniformidad de los Unicodes y, en 1991, se reveló su primera versión. Desde entonces, los Unicodes muestran más de un millón de caracteres y han reemplazado a muchos otros sistemas previamente usados.

Así es como surge el Unicode UTF-8, el cual codifica el formato de texto que predomina actualmente en la web. Es compatible con el ASCII ya que coinciden los primeros 128 caracteres de ambos códigos.

Estructura del ASCII y las tablas ISO

Con frecuencia se utilizan listas o tablas para exponer el conjunto de caracteres o signos, a fin de que aquellos y sus correspondientes valores numéricos sean fáciles de encontrar. Estas listas especifican los caracteres y sus valores decimales, hexadecimales, octales y/o binarios.

Muchas de las tablas son hexadecimales y separan los códigos dentro del primer o segundo byte. Por ejemplo, la H mayúscula se encuentra en la 4ta hilera de la 8va columna, por lo que resulta en una notación hexadecimal de 0x48.

En este sentido, el retorno de carro (CR) tiene el código 0x0D, lo que significa que se encuentra en la línea 0 y la columna D. 0x es un prefijo común dentro de la notación decimal.

Tabla ASCII

A continuación, se puede observar la tabla ASCII con los códigos de notación decimal, hexadecimal y octal:

char.	decimal	hexadecimal.	octal
NUL	0	0x00	000
SOH	1	0x01	001
STX	2	0x02	002
ETX	3	0x03	003
EOT	4	0x04	004
ENQ	5	0x05	005
ACK	6	0x06	006
BEL	7	0x07	007
BS	8	0x08	010
HT	9	0x09	011
LF	10	0x0A	012
VT	11	0x0B	013
FF	12	0x0C	014
CR	13	0x0D	015
SO	14	0x0E	016
SI	15	0x0F	017
DLE	16	0x10	020
DC1	17	0x11	021
DC2	18	0x12	022
DC3	19	0x13	023
DC4	20	0x14	024
NAK	21	0x15	025
SYN	22	0x16	026
ETB	23	0x17	027
CAN	24	0x18	030
EM	25	0x19	031
SUB	26	0x1A	032
ESC	27	0x1B	033
FS	28	0x1C	034
GS	29	0x1D	035
RS	30	0x1E	036
US	31	0x1F	037

char.	decimal	hexadecimal.	octal
SP	32	0x20	040
!	33	0x21	041
»	34	0x22	042
#	35	0x23	043
$	36	0x24	044
%	37	0x25	045
&	38	0x26	046
‘	39	0x27	047
(	40	0x28	050
)	41	0x29	051
*	42	0x2A	052
+	43	0x2B	053
,	44	0x2C	054
–	45	0x2D	055
.	46	0x2E	056
/	47	0x2F	057
0	48	0x30	060
1	49	0x31	061
2	50	0x32	062
3	51	0x33	063
4	52	0x34	064
5	53	0x35	065
6	54	0x36	066
7	55	0x37	067
8	56	0x38	070
9	57	0x39	071
:	58	0x3A	072
;	59	0x3B	073
<	60	0x3C	074
=	61	0x3D	075
>	62	0x3E	076
?	63	0x3F	077

char.	decimal	hexadecimal.	octal
@	64	0x40	100
A	65	0x41	101
B	66	0x42	102
C	67	0x43	103
D	68	0x44	104
E	69	0x45	105
F	70	0x46	106
G	71	0x47	107
H	72	0x48	110
I	73	0x49	111
J	74	0x4A	112
K	75	0x4B	113
L	76	0x4C	114
M	77	0x4D	115
N	78	0x4E	116
O	79	0x4F	117
P	80	0x50	120
Q	81	0x51	121
R	82	0x52	122
S	83	0x53	123
T	84	0x54	124
U	85	0x55	125
V	86	0x56	126
W	87	0x57	127
X	88	0x58	130
Y	89	0x59	131
Z	90	0x5A	132
[	91	0x5B	133
/	92	0x5C	134
]	93	0x5D	135
^	94	0x5E	136
_	95	0x5F	137

char.	decimal	hexadecimal.	octal
`	96	0x60	140
a	97	0x61	141
b	98	0x62	142
c	99	0x63	143
d	100	0x64	144
e	101	0x65	145
f	102	0x66	146
g	103	0x67	147
h	104	0x68	150
i	105	0x69	151
j	106	0x6A	152
k	107	0x6B	153
l	108	0x6C	154
m	109	0x6D	155
n	110	0x6E	156
o	111	0x6F	157
p	112	0x70	160
q	113	0x71	161
r	114	0x72	162
s	115	0x73	163
t	116	0x74	164
u	117	0x75	165
v	118	0x76	166
w	119	0x77	167
x	120	0x78	170
y	121	0x79	171
z	122	0x7A	172
{	123	0x7B	173
	124	0x7C	174
}	125	0x7D	175
~	126	0x7E	176
Borrar	127	0x7F	177

Los códigos ASCII, Unicodes y el SEO

Tal como y como se ha mencionado, los estándares ASCII e ISO-8859 fueron los conjuntos de caracteres predominantes por un largo periodo de tiempo, pero en la actualidad se consideran obsoletos.

La organización de estandarización oficial W3C (o Consorcio World Wide Web) recomienda el empleo exclusivo del grupo de caracteres UTF-8 para la codificación en todos los sitios web. Cabe destacar que el objetivo de la W3C es contribuir a uniformar las especificaciones técnicas de la web y no ejerce control alguno sobre el uso de los sistemas de codificación en ella empleados.

Por otra parte, la utilización de los Unicodes es recomendado dentro de los contenidos, y en las meta descripciones. El empleo de algunos símbolos especiales, si bien no presenta relevancia alguna en el posicionamiento de los buscadores, pueden incrementar la tasa de clics de una página web.

Se ha descubierto que símbolos como abrazos, corazones y estrellas incluidos en los Unicodes, desencadenan reacciones inconscientes favorables en las lectoras o lectores. Por ejemplo, los símbolos de verificación o los corazones generan aprobación, mientras que los teléfonos y los sobres son reconocidos como métodos de contacto.

Screenshot mostrando una meta descripción y un meta título que incluye caracteres especiales en google.com.

Sin embargo, en las palabras clave relevantes para el SEO se recomienda cautela en el empleo de caracteres especiales. Se admite el uso de letras especiales, diéresis o acentos, pero los caracteres como símbolos de separación, emojis o pictogramas puedan causar que una keyword sea irreconocible.