Eine ausführliche Beschreibung der verschiedenen Arten von Zeichenkodierungen
Die Codierung bestimmt, wie Zeichen und Symbole in digitale Bitfolgen umgewandelt werden. Dies ist entscheidend für die korrekte Verarbeitung, Speicherung und Darstellung von Text in allen Computersystemen.
ASCII und EBCDIC
ASCII (American Standard Code for Information Interchange)
- ANSI-Standard zur Zeichenkodierung seit den 1960er Jahren
- 7-Bit-Codierung (Standard: 128 Zeichen, Wertebereich von 0 bis 127)
- Erweiterbar auf 8 Bit (256 mögliche Zeichen, inklusive regionaler Erweiterungen)
- Umfasst Groß- und Kleinbuchstaben (A–Z, a–z), Ziffern (0–9), Steuerzeichen (z.B. Zeilenumbruch, Wagenrücklauf) sowie Satzzeichen und spezielle Symbole
- Häufigste Grundlage für textbasierte Dateiformate und einfache Datenaustauschprozesse
Beispiel:
- Buchstabe
A: Dezimal65, Hexadezimal41 - Zeichen
$: Dezimal36, Hexadezimal24
EBCDIC (Extended Binary Coded Decimal Interchange Code)
- Von IBM entwickelte Codierung für Großrechner ab den 1960er Jahren
- 8-Bit-Codierung, bietet 256 Zeichen
- Andere Zeichenanordnung als ASCII, speziell optimiert für IBM-Systeme
- Verwendet hauptsächlich in Großrechnerumgebungen und älteren Computersystemen
Beispiel:
- Buchstabe
A: Dezimal193, HexadezimalC1 - Zeichen
$: Dezimal91, Hexadezimal5B
Unicode
Unicode ist eine internationale Standardisierung, die nahezu alle Schriftzeichen der Welt in einem einheitlichen System zusammenfasst.
UTF-8 (Unicode Transformation Format - 8 Bit)
- Entwickelt für die Kompatibilität mit ASCII, heute am weitesten verbreitet
- Variable Codierungslänge (1 bis 4 Bytes je nach Zeichen)
- Ermöglicht effizienten Speicherplatzgebrauch, besonders bei westlichen Schriften
- Standardcodierung im Internet, bei Datenbanken und Webapplikationen
Beispiel:
- Buchstabe
A: Hexadezimal41 - Zeichen
$: Hexadezimal24 - Emoji
😊:F0 9F 98 8A
UTF-16
- Codierung mit 2 oder 4 Bytes pro Zeichen
- Ursprünglich als 16-Bit Codierung gedacht, erweitert auf maximal 4 Bytes für seltenere Zeichen
- Häufig verwendet in Betriebssystemen (z.B. Windows, Java)
Beispiel:
- Buchstabe
A:0041 - Emoji
😊:D83D DE0A
UTF-32
- Festgelegte Codierungslänge von 4 Bytes pro Zeichen
- Ermöglicht einfache Berechnung und schnelle Verarbeitung, benötigt aber mehr Speicherplatz
- Weniger verbreitet aufgrund höherer Speichernutzung, findet Einsatz bei spezialisierten Anwendungen
Beispiel:
- Buchstabe
A:00000041 - Emoji
😊:0001F60A
Anzahl darstellbarer Zeichen
- ASCII: Standardversion 128 Zeichen, erweiterbar auf 256 Zeichen
- EBCDIC: Fixierte 256 Zeichen
- Unicode (UTF-8, UTF-16, UTF-32): Insgesamt ca. 1.112.064 mögliche Codepunkte (Codepunktbereich U+0000 bis U+10FFFF, abzüglich reservierter Bereiche für Surrogate)
Vorteile von Unicode
- Vollständige Abdeckung aller weltweit genutzten Schriftzeichen
- Vereinheitlichte und konsistente Darstellung unabhängig von Betriebssystemen und Plattformen
- Einfache Internationalisierung und Lokalisierung von Softwarelösungen
Vergleichstabelle der Kodierungen
| Zeichen | Beschreibung | ASCII (Dezimal) | EBCDIC (Dezimal) | UTF-8 (Hex) | UTF-16 (Hex) | UTF-32 (Hex) |
|---|---|---|---|---|---|---|
A | Großbuchstabe A | 65 | 193 | 41 | 0041 | 00000041 |
$ | Dollarzeichen | 36 | 91 | 24 | 0024 | 00000024 |
€ | Euro-Zeichen | - | - | E2 82 AC | 20AC | 000020AC |
😊 | Lächelndes Gesicht (Emoji) | - | - | F0 9F 98 8A | D83D DE0A | 0001F60A |
Unicode bietet somit eine enorme Vielfalt und Flexibilität bei der Darstellung verschiedener Schriftzeichen, Sonderzeichen und Emojis und ist heute der Standard für multilinguale digitale Kommunikation.