In dieser praktischen Übung speichern Sie auf Ihrem Computer eine Textdatei und überprüfst anschliessend, ob die in der Datei gespeicherten Bits tatsächlich der Unicode/UTF-8-Codierung des Texts entsprechen.
Der Editor ist eine App, in welcher man Textdateien erstellen und bearbeiten kann. Das kann man auch mit Word, dies ist jedoch umständlicher. Word-Dateien sind keine reinen Textdateien, sie enthalten auch andere Daten wie Formatierungen und Bilder.
- Windows
- Windows 10
- macOS
Starten Sie die Editor-App, indem Sie im Startmenü nach «editor» suchen:
Starten Sie die Editor-App, indem Sie im Startmenü nach «editor» suchen:
Um in macOS Textdateien erstellen und bearbeiten zu können, installieren Sie am besten die App CotEditor aus dem App Store:
Geben Sie einen kurzen Text ein. Dieser sollte nicht nur ASCII-Zeichen enthalten, sondern auch ein Umlaut wie «ä» und Emojis.
- Windows
- macOS
Emojis können unter Windows mit dem Tastenkürzel + . eingefügt werden.
Emojis können unter Mac OS X mit dem Tastenkürzel Ctrl + Cmd +Leertaste eingefügt werden.
Alternativ findet man unter 👉 Emojipedia viele weitere Emojis.
- Windows
- macOS
Speichern Sie die Textdatei unter dem Namen Unicode-Test.txt indem Sie
- Windows
- macOS
die Tastenkombination Ctrl+s drücken oder
den Menüpunkt
Datei > Speichern
auswählen.
die Tastenkombination Cmd+s drücken oder
den Menüpunkt
Datei > Sichern …
auswählen.
Mit dem Online-Tool HexEd.it können Sie eine beliebige Datei Byte für Byte betrachten:
Klicken Sie auf Datei öffnen und wählen Sie die vorhin gespeicherte Textdatei aus. Nun sehen Sie die einzelnen Bytes, welche die Datei enthält, beispielsweise:
54 73 63 68 C3 BC 73 73 20 F0 9F 98 80 21
Die Bytes werden wie in der Informatik üblich als Hexadezimalzahlen angegeben. Wenn man über die einzelnen Bytes navigiert (mit den Pfeiltasten), sieht man auf der linken Seite die entsprechende Binärcodierung. Alternativ finden Sie hier auch einen Umrechner zwischen Binär-, Dezimal- und Hexadezimalzahlen.
⭐️ Hexadezimal Zahlen
Anstatt Zahlen im Dezimalsystem oder Binärsystem zu schreiben, kann auch das Hexadezimalsystem mit 16
eindeutigen Zeichen verwendet werden. Dabei werden die zehn Zahlenziffern mit den ersten 6 Buchstaben des Alphabets ergänzt:
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | A | B | C | D | E | F | |
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | |
0000 | 0001 | 0010 | 0011 | 0100 | 0101 | 0110 | 0111 | 1000 | 1001 | 1010 | 1011 | 1100 | 1101 | 1110 | 1111 |
Jede Stelle in einer Hexadezimal-Zahl entspricht hier einer 16er Potenz:
Anwendungsbereich
Das praktische bei Hexadezimalzahlen: 4 bits
können mit nur einer Hexadezimalzahl geschrieben werden, was deutlich übersichtlicher wird:
Ein Byte (8 bits) werden dann konventionell als zwei Hexadezimal Zahlen geschrieben:
1101 1001 = D9
F5 = 1111 1001
Dec - Bin - Hex
Text: Hex - Bin
Hexadezimal
Binär
In der binären Darstellung sehen Sie sofort die Zeichen, welche mehrere Bytes benötigen. Sie beginnen mit einer 1. So ist 11000011 10111100
die Codierung des Buchstabens «ü».
Nun können Sie mit folgenden Hilfsmitteln überprüfen, ob die Bytes tatsächlich der Unicode/UTF-8-Codierung Ihres Textes entsprechen:
👉 ASCII-Tabelle für Bytes, die mit einer
0
starten👉 Unicode-Tabelle für zusammengesetzte Zeichen mit mehreren Bytes
Halten Sie die Hexadezimalzeichen Ihres Textes fest.
Wo ist das erste Emoji? Überprüfen Sie, ob Sie den Dezimalwert des Emojis entziffern und auf 👉 https://unicode-table.com/de/ finden
Hinweis
Im vorliegenden Beispiel sieht das so aus:
Byte(s) | Zeichen |
---|---|
54 | T |
73 | s |
63 | c |
68 | h |
C3 BC | ü |
73 | s |
73 | s |
20 | ␣ |
F0 9F 98 80 | 😀 |
21 | ! |
Betrachten Sie andere Dateien in HexEd.it und achten Sie auf folgendes:
Finden Sie in anderen Dateien auch Unicode-codierten Text?
Erkennen Sie ein Muster bei den ersten paar Bytes von Dateien des gleichen Typs?
7. Textcodierung