ASCII-Code

Inhaltsverzeichnis

1 Definition
2 Geschichte
3 Der 7-Bit-ASCII-Zeichensatz
4 Erweiterte Zeichensätze: ISO-8859
5 ASCII, Unicode und UTF-8
6 Aufbau der ASCII- und ISO-Tabellen
7 ASCII-Code, Unicode und SEO
8 Ähnliche Artikel

Definition

ASCII steht für "American Standard Code for Information Interchange" und bezeichnet einen Zeichensatz-Standard für Textdaten und den Informationsaustausch. Zeichensatzkodierungen (auch Codepages genannt) definieren, wie Buchstaben und sonstige Textzeichen sowie Steuercodes für den Datentransfer in Bits und Bytes zu codieren sind.

Der ASCII-Code ist neben Unicode, ISO-8859-1 und Windows-1252 einer der wichtigsten Zeichensatz-Standards. Der Code war für eine lange Zeit der dominierende Standard für Webseiten, bis er 2007 von der Unicode-Codierung UTF-8 überholt wurde. Dennoch ist er auch heute noch relevant, da es immer noch Bereiche gibt, in denen nur Zeichen erlaubt sind, die der ASCII-Code enthält.

Geschichte

Der ASCII Code blickt auf eine lange Geschichte zurück. Seine Anfänge liegen in der Telegrafie und dem Morse-Code sowie dem 5-Bit-Murray-Code, den der neuseeländische Erfinder Donald Murray zwischen 1901 und 1932 entwickelte. Die erste Version des ASCII Codes wurde 1963 von der ASA, der American Standards Association, herausgebracht. Die ASA war ein Vorläufer des American National Standards Institute (ANSI), dem US-amerikanischen Gegenstück zum Deutschen Institut für Normung (DIN). 1968 erschien die bis heute gültige Fassung des Zeichensatzes.

Der 7-Bit-ASCII-Zeichensatz

Historisch bedingt nutzt der originale ASCII Code nur sieben Bits eines üblichen 8-Bit-Bytes und kann maximal 128 verschiedene Zeichen codieren. Der Code enthält die Klein- und Großbuchstaben des englischen Alphabets, die wichtigsten Satzzeichen, mathematische Symbole sowie 33 Steuercodes für Datentransfer und Textformatierung.

Im Detail sind folgende Zeichengruppen enthalten:

0 - 32 und 127: Steuercodes für die Datenübertragung sowie Leerzeichen, Tabulatoren und Zeilenumbrüche
48 - 57: Ziffern
65 - 90: Großbuchstaben
97 - 122: Kleinbuchstaben
33 - 47, 58 - 64, 91 - 96 und 123 - 126: Satzzeichen, mathematische Symbole, Klammern und sonstige Schriftzeichen.

Landesspezifische Sonderzeichen wie Umlaute und Accents sind im ASCII Code nicht enthalten.

Obwohl die Anordnung chaotisch und willkürlich erscheinen mag, resultiert sie aus gründlicher Planung und Überlegung. Die Buchstaben sind so positioniert, dass sich die Groß- und Kleinschreibung nur durch ein einziges Bit unterscheidet. Ziffern, Leerzeichen und einige andere Symbole befinden sich absichtlich vor den Buchstaben, um Sortierungen zu vereinfachen. Des Weiteren liegen viele nicht alphanumerische Symbole auf Positionen, die der Anordnung auf Schreibmaschinen ähnelt.

Erweiterte Zeichensätze: ISO-8859

Da der eigentliche ASCII Code nur das englische Alphabet beinhaltet, haben sich viele regionenspezifische Erweiterungen entwickelt. Besondere Bedeutung bekamen die Zeichensätze Windows-1252 und ISO-8859-1. Beide sind 8-Bit-Erweiterungen des ursprünglichen Standards und enthalten viele regionale Sonderzeichen. Aufgrund historischer Entwicklungen werden beide Standards oft als ANSI-Zeichensätze bezeichnet. Streng genommen ist dies jedoch nicht korrekt, da das ANSI diese Zeichensätze nie offiziell normiert hat.

Da auch mit 8 Bits nur 256 Zeichen zur Verfügung stehen und somit nicht alle Sprachen abgedeckt werden können, wurde mit ISO-8859 eine Sammlung verschiedener Zeichensätze für unterschiedliche Sprachen und Regionen entwickelt. Beispielsweise enthält ISO-8859-7 das lateinische und griechische Alphabet, während ISO-8859-4 die Sonderzeichen der skandinavischen und baltischen Sprachen abdeckt. ISO-8859-1 beinhaltet die westeuropäischen Alphabete und ist fast deckungsgleich mit Windows-1252.

Sowohl bei Windows-1252 als auch bei ISO-8859-1 sind die ersten 128 Zeichen identisch zum ASCII Code. Ab Position 128 folgen die Codepage-spezifischen Sonderzeichen, wobei die Nummern 128 bis 159 im ISO-8859-Standard undefiniert sind. Beginnend mit Nummer 160 sind dann die Sonderzeichen der unterschiedlichen Sprachen und Regionen enthalten.

ASCII, Unicode und UTF-8

Wenngleich die ISO-8859-Standards viele Sprachen abdecken, sind lange nicht alle Sprachen enthalten. Zudem führten die unterschiedlichen Zeichensätze zu einem beträchtlichen Durcheinander, da sie nicht miteinander kompatibel sind. Bereits 1988 entstanden deshalb die ersten Pläne für einen einheitlichen Unicode-Zeichensatz, dessen erste Version 1991 heraus kam.

Unicode ermöglicht die Darstellung von über einer Million Zeichen und löst nach und nach alle anderen Zeichensätze ab. Besonders wichtig ist das Unicode-Format UTF-8, welches mittlerweile das vorherrschende Textformat im World Wide Web ist. UTF-8 hat den großen Vorteil, dass es ASCII-kompatibel ist, da die ersten 128 Zeichen identisch sind.

Aufbau der ASCII- und ISO-Tabellen

Für die Darstellung der Zeichensätze kommen üblicherweise Listen oder Tabellen zum Einsatz, um die Zeichen und ihre numerischen Werte leicht auffindbar zu machen. Diese Listen geben die jeweiligen Zeichen samt ihrer dezimalen, hexadezimalen, oktalen und/oder binären Werte an.

Viele Tabellen sind hexadezimal aufgebaut und trennen die Codes in das erste und das zweite Halbbyte. Beispielsweise findet sich das große H in der ASCII-Tabelle in der 4. Zeile der 8. Spalte, woraus sich die hexadezimale Notation 0x48 ergibt. Der Wagenrücklauf CR hat den Code 0x0D, da er in Zeile 0 und Spalte D liegt. 0x ist dabei ein übliches Präfix, um auf die hexadezimale Schreibweise hinzuweisen.

Im Folgenden ist die ASCII-Tabelle mit Codes in dezimaler, hexadezimaler und oktaler Schreibweise zu sehen:

Zeichen	dezimal	hexadez.	oktal
NUL	0	0x00	000
SOH	1	0x01	001
STX	2	0x02	002
ETX	3	0x03	003
EOT	4	0x04	004
ENQ	5	0x05	005
ACK	6	0x06	006
BEL	7	0x07	007
BS	8	0x08	010
HT	9	0x09	011
LF	10	0x0A	012
VT	11	0x0B	013
FF	12	0x0C	014
CR	13	0x0D	015
SO	14	0x0E	016
SI	15	0x0F	017
DLE	16	0x10	020
DC1	17	0x11	021
DC2	18	0x12	022
DC3	19	0x13	023
DC4	20	0x14	024
NAK	21	0x15	025
SYN	22	0x16	026
ETB	23	0x17	027
CAN	24	0x18	030
EM	25	0x19	031
SUB	26	0x1A	032
ESC	27	0x1B	033
FS	28	0x1C	034
GS	29	0x1D	035
RS	30	0x1E	036
US	31	0x1F	037

Zeichen	dezimal	hexadez.	oktal
SP	32	0x20	040
!	33	0x21	041
"	34	0x22	042
#	35	0x23	043
$	36	0x24	044
%	37	0x25	045
&	38	0x26	046
'	39	0x27	047
(	40	0x28	050
)	41	0x29	051
*	42	0x2A	052
+	43	0x2B	053
,	44	0x2C	054
-	45	0x2D	055
.	46	0x2E	056
/	47	0x2F	057
0	48	0x30	060
1	49	0x31	061
2	50	0x32	062
3	51	0x33	063
4	52	0x34	064
5	53	0x35	065
6	54	0x36	066
7	55	0x37	067
8	56	0x38	070
9	57	0x39	071
:	58	0x3A	072
;	59	0x3B	073
<	60	0x3C	074
=	61	0x3D	075
>	62	0x3E	076
?	63	0x3F	077

Zeichen	dezimal	hexadez.	oktal
@	64	0x40	100
A	65	0x41	101
B	66	0x42	102
C	67	0x43	103
D	68	0x44	104
E	69	0x45	105
F	70	0x46	106
G	71	0x47	107
H	72	0x48	110
I	73	0x49	111
J	74	0x4A	112
K	75	0x4B	113
L	76	0x4C	114
M	77	0x4D	115
N	78	0x4E	116
O	79	0x4F	117
P	80	0x50	120
Q	81	0x51	121
R	82	0x52	122
S	83	0x53	123
T	84	0x54	124
U	85	0x55	125
V	86	0x56	126
W	87	0x57	127
X	88	0x58	130
Y	89	0x59	131
Z	90	0x5A	132
[	91	0x5B	133
/	92	0x5C	134
]	93	0x5D	135
^	94	0x5E	136
_	95	0x5F	137

Zeichen	dezimal	hexadez.	oktal
`	96	0x60	140
a	97	0x61	141
b	98	0x62	142
c	99	0x63	143
d	100	0x64	144
e	101	0x65	145
f	102	0x66	146
g	103	0x67	147
h	104	0x68	150
i	105	0x69	151
j	106	0x6A	152
k	107	0x6B	153
l	108	0x6C	154
m	109	0x6D	155
n	110	0x6E	156
o	111	0x6F	157
p	112	0x70	160
q	113	0x71	161
r	114	0x72	162
s	115	0x73	163
t	116	0x74	164
u	117	0x75	165
v	118	0x76	166
w	119	0x77	167
x	120	0x78	170
y	121	0x79	171
z	122	0x7A	172
{	123	0x7B	173
	124	0x7C	174
}	125	0x7D	175
~	126	0x7E	176
_DEL	127	0x7F	177

ASCII-Code, Unicode und SEO

Obwohl ASCII und ISO-8859 lange Zeit die vorherrschenden Textzeichen-Standards waren, gelten sie heute im Web als veraltet. Die offizielle Standardisierungs-Organisation W3C (World Wide Web Consortium) empfiehlt die ausschließliche Verwendung von UTF-8 als Zeichensatz-Codierung für alle Webseiten.

Außer in den eigentlichen Webseiten-Texten lässt sich Unicode ebenfalls nutzbringend in den Meta Descriptions einsetzen. Mithilfe von Unicode-Zeichen wie Häkchen, Herzen, Sternen, Briefumschlägen oder Währungssymbolen können hier beim Leser unbewusste Impulse ausgelöst werden. Beispielsweise erzeugen Häkchen und Herzen Zustimmung, während Briefumschläge und Telefonsymbole zur Kontaktaufnahme animieren. Das hat zwar keinen direkten Einfluss auf das Suchmaschinenranking, erhöht jedoch die Klickrate und führt zu mehr Besuchern und Kunden.

In SEO-relevanten Keywords und Keyword-Phrasen ist hingegen etwas Zurückhaltung angeraten. Landesspezifische Buchstaben wie Umlaute und Accents stellen kein Problem dar. Ungewöhnliche Sonderzeichen, Trennsymbole, Emoticons und Piktogramme können die Keyword-Erkennung jedoch unmöglich machen.