Eine ausführliche Beschreibung der verschiedenen Arten von Zeichenkodierungen

Die Codierung bestimmt, wie Zeichen und Symbole in digitale Bitfolgen umgewandelt werden. Dies ist entscheidend für die korrekte Verarbeitung, Speicherung und Darstellung von Text in allen Computersystemen.

ASCII und EBCDIC

ASCII (American Standard Code for Information Interchange)

ANSI-Standard zur Zeichenkodierung seit den 1960er Jahren
7-Bit-Codierung (Standard: 128 Zeichen, Wertebereich von 0 bis 127)
Erweiterbar auf 8 Bit (256 mögliche Zeichen, inklusive regionaler Erweiterungen)
Umfasst Groß- und Kleinbuchstaben (A–Z, a–z), Ziffern (0–9), Steuerzeichen (z.B. Zeilenumbruch, Wagenrücklauf) sowie Satzzeichen und spezielle Symbole
Häufigste Grundlage für textbasierte Dateiformate und einfache Datenaustauschprozesse

Beispiel:

Buchstabe A: Dezimal 65, Hexadezimal 41
Zeichen $: Dezimal 36, Hexadezimal 24

EBCDIC (Extended Binary Coded Decimal Interchange Code)

Von IBM entwickelte Codierung für Großrechner ab den 1960er Jahren
8-Bit-Codierung, bietet 256 Zeichen
Andere Zeichenanordnung als ASCII, speziell optimiert für IBM-Systeme
Verwendet hauptsächlich in Großrechnerumgebungen und älteren Computersystemen

Beispiel:

Buchstabe A: Dezimal 193, Hexadezimal C1
Zeichen $: Dezimal 91, Hexadezimal 5B

Unicode

Unicode ist eine internationale Standardisierung, die nahezu alle Schriftzeichen der Welt in einem einheitlichen System zusammenfasst.

UTF-8 (Unicode Transformation Format - 8 Bit)

Entwickelt für die Kompatibilität mit ASCII, heute am weitesten verbreitet
Variable Codierungslänge (1 bis 4 Bytes je nach Zeichen)
Ermöglicht effizienten Speicherplatzgebrauch, besonders bei westlichen Schriften
Standardcodierung im Internet, bei Datenbanken und Webapplikationen

Beispiel:

Buchstabe A: Hexadezimal 41
Zeichen $: Hexadezimal 24
Emoji 😊: F0 9F 98 8A

UTF-16

Codierung mit 2 oder 4 Bytes pro Zeichen
Ursprünglich als 16-Bit Codierung gedacht, erweitert auf maximal 4 Bytes für seltenere Zeichen
Häufig verwendet in Betriebssystemen (z.B. Windows, Java)

Beispiel:

Buchstabe A: 0041
Emoji 😊: D83D DE0A

UTF-32

Festgelegte Codierungslänge von 4 Bytes pro Zeichen
Ermöglicht einfache Berechnung und schnelle Verarbeitung, benötigt aber mehr Speicherplatz
Weniger verbreitet aufgrund höherer Speichernutzung, findet Einsatz bei spezialisierten Anwendungen

Beispiel:

Buchstabe A: 00000041
Emoji 😊: 0001F60A

Anzahl darstellbarer Zeichen

ASCII: Standardversion 128 Zeichen, erweiterbar auf 256 Zeichen
EBCDIC: Fixierte 256 Zeichen
Unicode (UTF-8, UTF-16, UTF-32): Insgesamt ca. 1.112.064 mögliche Codepunkte (Codepunktbereich U+0000 bis U+10FFFF, abzüglich reservierter Bereiche für Surrogate)

Vorteile von Unicode

Vollständige Abdeckung aller weltweit genutzten Schriftzeichen
Vereinheitlichte und konsistente Darstellung unabhängig von Betriebssystemen und Plattformen
Einfache Internationalisierung und Lokalisierung von Softwarelösungen

Vergleichstabelle der Kodierungen

Zeichen	Beschreibung	ASCII (Dezimal)	EBCDIC (Dezimal)	UTF-8 (Hex)	UTF-16 (Hex)	UTF-32 (Hex)
`A`	Großbuchstabe A	65	193	`41`	`0041`	`00000041`
`$`	Dollarzeichen	36	91	`24`	`0024`	`00000024`
`€`	Euro-Zeichen	-	-	`E2 82 AC`	`20AC`	`000020AC`
`😊`	Lächelndes Gesicht (Emoji)	-	-	`F0 9F 98 8A`	`D83D DE0A`	`0001F60A`

Unicode bietet somit eine enorme Vielfalt und Flexibilität bei der Darstellung verschiedener Schriftzeichen, Sonderzeichen und Emojis und ist heute der Standard für multilinguale digitale Kommunikation.

AVSW-Overview

💭 Jeremys Brain

Explorer

ascii-ebcdic-unicode

Explorer

Eine ausführliche Beschreibung der verschiedenen Arten von Zeichenkodierungen

ASCII und EBCDIC

ASCII (American Standard Code for Information Interchange)

EBCDIC (Extended Binary Coded Decimal Interchange Code)

Unicode

UTF-8 (Unicode Transformation Format - 8 Bit)

UTF-16

UTF-32

Anzahl darstellbarer Zeichen

Vorteile von Unicode

Vergleichstabelle der Kodierungen

Table of Contents

Graph View