ASCII-Code: Unterschied zwischen den Versionen

Version vom 7. Mai 2018, 11:52 Uhr

Inhaltsverzeichnis

1 Definition
2 Geschichte
3 Der 7-Bit-ASCII-Zeichensatz
4 Erweiterte Zeichensätze: ISO-8859
5 ASCII, Unicode und UTF-8
6 Aufbau der ASCII- und ISO-Tabellen
7 ASCII-Code, Unicode und SEO

Definition

ASCII steht für "American Standard Code for Information Interchange" und bezeichnet einen Zeichensatz-Standard für Textdaten und den Informationsaustausch. Zeichensatzkodierungen (auch Codepages genannt) definieren, wie Buchstaben und sonstige Textzeichen sowie Steuercodes für den Datentransfer in Bits und Bytes zu codieren sind.

Der ASCII-Code ist neben Unicode, ISO-8859-1 und Windows-1252 einer der wichtigsten Zeichensatz-Standards. Der Code war für eine lange Zeit der dominierende Standard für Webseiten, bis er 2007 von der Unicode-Codierung UTF-8 überholt wurde. Dennoch ist er auch heute noch relevant, da es immer noch Bereiche gibt, in denen nur Zeichen erlaubt sind, die der ASCII-Code enthält.

Geschichte

Der ASCII Code blickt auf eine lange Geschichte zurück. Seine Anfänge liegen in der Telegrafie und dem Morse-Code sowie dem 5-Bit-Murray-Code, den der neuseeländische Erfinder Donald Murray zwischen 1901 und 1932 entwickelte. Die erste Version des ASCII Codes wurde 1963 von der ASA, der American Standards Association, herausgebracht. Die ASA war ein Vorläufer des American National Standards Institute (ANSI), dem US-amerikanischen Gegenstück zum Deutschen Institut für Normung (DIN). 1968 erschien die bis heute gültige Fassung des Zeichensatzes.

Der 7-Bit-ASCII-Zeichensatz

Historisch bedingt nutzt der originale ASCII Code nur sieben Bits eines üblichen 8-Bit-Bytes und kann maximal 128 verschiedene Zeichen codieren. Der Code enthält die Klein- und Großbuchstaben des englischen Alphabets, die wichtigsten Satzzeichen, mathematische Symbole sowie 33 Steuercodes für Datentransfer und Textformatierung.

Im Detail sind folgende Zeichengruppen enthalten:

0 - 32 und 127: Steuercodes für die Datenübertragung sowie Leerzeichen, Tabulatoren und Zeilenumbrüche
48 - 57: Ziffern
65 - 90: Großbuchstaben
97 - 122: Kleinbuchstaben
33 - 47, 58 - 64, 91 - 96 und 123 - 126: Satzzeichen, mathematische Symbole, Klammern und sonstige Schriftzeichen.

Landesspezifische Sonderzeichen wie Umlaute und Accents sind im ASCII Code nicht enthalten.

Obwohl die Anordnung chaotisch und willkürlich erscheinen mag, resultiert sie aus gründlicher Planung und Überlegung. Die Buchstaben sind so positioniert, dass sich die Groß- und Kleinschreibung nur durch ein einziges Bit unterscheidet. Ziffern, Leerzeichen und einige andere Symbole befinden sich absichtlich vor den Buchstaben, um Sortierungen zu vereinfachen. Des Weiteren liegen viele nicht alphanumerische Symbole auf Positionen, die der Anordnung auf Schreibmaschinen ähnelt.

Erweiterte Zeichensätze: ISO-8859

Da der eigentliche ASCII Code nur das englische Alphabet beinhaltet, haben sich viele regionenspezifische Erweiterungen entwickelt. Besondere Bedeutung bekamen die Zeichensätze Windows-1252 und ISO-8859-1. Beide sind 8-Bit-Erweiterungen des ursprünglichen Standards und enthalten viele regionale Sonderzeichen. Aufgrund historischer Entwicklungen werden beide Standards oft als ANSI-Zeichensätze bezeichnet. Streng genommen ist dies jedoch nicht korrekt, da das ANSI diese Zeichensätze nie offiziell normiert hat.

Da auch mit 8 Bits nur 256 Zeichen zur Verfügung stehen und somit nicht alle Sprachen abgedeckt werden können, wurde mit ISO-8859 eine Sammlung verschiedener Zeichensätze für unterschiedliche Sprachen und Regionen entwickelt. Beispielsweise enthält ISO-8859-7 das lateinische und griechische Alphabet, während ISO-8859-4 die Sonderzeichen der skandinavischen und baltischen Sprachen abdeckt. ISO-8859-1 beinhaltet die westeuropäischen Alphabete und ist fast deckungsgleich mit Windows-1252.

Sowohl bei Windows-1252 als auch bei ISO-8859-1 sind die ersten 128 Zeichen identisch zum ASCII Code. Ab Position 128 folgen die Codepage-spezifischen Sonderzeichen, wobei die Nummern 128 bis 159 im ISO-8859-Standard undefiniert sind. Beginnend mit Nummer 160 sind dann die Sonderzeichen der unterschiedlichen Sprachen und Regionen enthalten.

ASCII, Unicode und UTF-8

Wenngleich die ISO-8859-Standards viele Sprachen abdecken, sind lange nicht alle Sprachen enthalten. Zudem führten die unterschiedlichen Zeichensätze zu einem beträchtlichen Durcheinander, da sie nicht miteinander kompatibel sind. Bereits 1988 entstanden deshalb die ersten Pläne für einen einheitlichen Unicode-Zeichensatz, dessen erste Version 1991 heraus kam.

Unicode ermöglicht die Darstellung von über einer Million Zeichen und löst nach und nach alle anderen Zeichensätze ab. Besonders wichtig ist das Unicode-Format UTF-8, welches mittlerweile das vorherrschende Textformat im World Wide Web ist. UTF-8 hat den großen Vorteil, dass es ASCII-kompatibel ist, da die ersten 128 Zeichen identisch sind.

Aufbau der ASCII- und ISO-Tabellen

Für die Darstellung der Zeichensätze kommen üblicherweise Listen oder Tabellen zum Einsatz, um die Zeichen und ihre numerischen Werte leicht auffindbar zu machen. Diese Listen geben die jeweiligen Zeichen samt ihrer dezimalen, hexadezimalen, oktalen und/oder binären Werte an.

Viele Tabellen sind hexadezimal aufgebaut und trennen die Codes in das erste und das zweite Halbbyte. Beispielsweise findet sich das große H in der ASCII-Tabelle in der 4. Zeile der 8. Spalte, woraus sich die hexadezimale Notation 0x48 ergibt. Der Wagenrücklauf CR hat den Code 0x0D, da er in Zeile 0 und Spalte D liegt. 0x ist dabei ein übliches Präfix, um auf die hexadezimale Schreibweise hinzuweisen.

Im Folgenden sind einige weitere Beispiele aus dem ASCII Code in dezimaler, hexadezimaler und oktaler Schreibweise zu sehen:

Zeichen	dezimal	hexadezimal	oktal
!	33	0x21	041
1	49	0x31	061
A	65	0x41	101
a	65	0x41	101

Die vollständigen Tabellen sind unter anderem bei Wikipedia einsehbar:

https://de.wikipedia.org/wiki/Ascii#ASCII-Tabelle

https://de.wikipedia.org/wiki/ISO-8859

ASCII-Code, Unicode und SEO

Obwohl ASCII und ISO-8859 lange Zeit die vorherrschenden Textzeichen-Standards waren, gelten sie heute im Web als veraltet. Die offizielle Standardisierungs-Organisation W3C (World Wide Web Consortium) empfiehlt die ausschließliche Verwendung von UTF-8 als Zeichensatz-Codierung für alle Webseiten.

Außer in den eigentlichen Webseiten-Texten lässt sich Unicode ebenfalls nutzbringend in den Meta Descriptions einsetzen. Mithilfe von Unicode-Zeichen wie Häkchen, Herzen, Sternen, Briefumschlägen oder Währungssymbolen können hier beim Leser unbewusste Impulse ausgelöst werden. Beispielsweise erzeugen Häkchen und Herzen Zustimmung, während Briefumschläge und Telefonsymbole zur Kontaktaufnahme animieren. Das hat zwar keinen direkten Einfluss auf das Suchmaschinenranking, erhöht jedoch die Klickrate und führt zu mehr Besuchern und Kunden.

In SEO-relevanten Keywords und Keyword-Phrasen ist hingegen etwas Zurückhaltung angeraten. Landesspezifische Buchstaben wie Umlaute und Accents stellen kein Problem dar. Ungewöhnliche Sonderzeichen, Trennsymbole, Emoticons und Piktogramme können die Keyword-Erkennung jedoch unmöglich machen.

@@ Zeile 1: / Zeile 1: @@
 == Definition ==
-ASCII steht für "American Standard Code for Information Interchange" und bezeichnet einen Zeichensatz-Standard für Textdaten und den Informationsaustausch. Zeichensatzkodierungen (auch Codepages genannt) definieren, wie Buchstaben und sonstige Textzeichen sowie Steuercodes für den Datentransfer in Bits und Bytes zu codieren sind.
+ASCII steht für "American Standard Code for Information Interchange" und bezeichnet einen Zeichensatz-Standard für Textdaten und den Informationsaustausch. [[Zeichensatzkodierung]]en (auch Codepages genannt) definieren, wie Buchstaben und sonstige Textzeichen sowie Steuercodes für den Datentransfer in Bits und Bytes zu codieren sind.
 Der ASCII-Code ist neben Unicode, ISO-8859-1 und Windows-1252 einer der wichtigsten Zeichensatz-Standards. Der Code war für eine lange Zeit der dominierende Standard für Webseiten, bis er 2007 von der Unicode-Codierung UTF-8 überholt wurde. Dennoch ist er auch heute noch relevant, da es immer noch Bereiche gibt, in denen nur Zeichen erlaubt sind, die der ASCII-Code enthält.
@@ Zeile 21: / Zeile 21: @@
 * 33 - 47, 58 - 64, 91 - 96 und 123 - 126: Satzzeichen, mathematische Symbole, Klammern und sonstige Schriftzeichen.
-Landesspezifische Sonderzeichen wie Umlaute und Accents sind im ASCII Code nicht enthalten.
+Landesspezifische [[HTML Sonderzeichen|Sonderzeichen]] wie Umlaute und Accents sind im ASCII Code nicht enthalten.
 Obwohl die Anordnung chaotisch und willkürlich erscheinen mag, resultiert sie aus gründlicher Planung und Überlegung. Die Buchstaben sind so positioniert, dass sich die Groß- und Kleinschreibung nur durch ein einziges Bit unterscheidet. Ziffern, Leerzeichen und einige andere Symbole befinden sich absichtlich vor den Buchstaben, um Sortierungen zu vereinfachen. Des Weiteren liegen viele nicht alphanumerische Symbole auf Positionen, die der Anordnung auf Schreibmaschinen ähnelt.
@@ Zeile 71: / Zeile 71: @@
 Obwohl ASCII und ISO-8859 lange Zeit die vorherrschenden Textzeichen-Standards waren, gelten sie heute im Web als veraltet. Die offizielle Standardisierungs-Organisation W3C (World Wide Web Consortium) empfiehlt die ausschließliche Verwendung von UTF-8 als Zeichensatz-Codierung für alle Webseiten.
-Außer in den eigentlichen Webseiten-Texten lässt sich Unicode ebenfalls nutzbringend in den Meta Descriptions einsetzen. Mithilfe von Unicode-Zeichen wie Häkchen, Herzen, Sternen, Briefumschlägen oder Währungssymbolen können hier beim Leser unbewusste Impulse ausgelöst werden. Beispielsweise erzeugen Häkchen und Herzen Zustimmung, während Briefumschläge und Telefonsymbole zur Kontaktaufnahme animieren. Das hat zwar keinen direkten Einfluss auf das Suchmaschinenranking, erhöht jedoch die Klickrate und führt zu mehr Besuchern und Kunden.
+Außer in den eigentlichen Webseiten-Texten lässt sich Unicode ebenfalls nutzbringend in den [[Meta-Description|Meta Descriptions]] einsetzen. Mithilfe von Unicode-Zeichen wie Häkchen, Herzen, Sternen, Briefumschlägen oder Währungssymbolen können hier beim Leser unbewusste Impulse ausgelöst werden. Beispielsweise erzeugen Häkchen und Herzen Zustimmung, während Briefumschläge und Telefonsymbole zur Kontaktaufnahme animieren. Das hat zwar keinen direkten Einfluss auf das Suchmaschinenranking, erhöht jedoch die [[Click-Through-Rate (CTR)|Klickrate]] und führt zu mehr Besuchern und Kunden.
 In SEO-relevanten Keywords und Keyword-Phrasen ist hingegen etwas Zurückhaltung angeraten. Landesspezifische Buchstaben wie Umlaute und Accents stellen kein Problem dar. Ungewöhnliche Sonderzeichen, Trennsymbole, Emoticons und Piktogramme können die Keyword-Erkennung jedoch unmöglich machen.
 [[Kategorie:Web Entwicklung]]