Webseiten mit UTF-8-Kodierung
UTF-8 ist die Lösung der Zukunft
Mittlerweile entscheiden sich viele Entwickler von Webseiten für eine zeichensatz-unabhängige Lösung. Dabei ist es erlaubt, im Editor beliebige Zeichen aus dem gesamten Zeichenvorrat des Unicode-Systems direkt einzugeben. Voraussetzung ist allerdings, dass der Editor und gegebenenfalls auch die verwendete Betriebssystemumgebung das Unicode-System intern und auf Schriftebene unterstützen.
Wenn Sie diese moderne Universallösung bei Ihren Webseiten verwenden möchten, gehen Sie wie folgt vor:
- Verwenden Sie einen Text- oder HTML-Editor, der Ihnen beim Speichern explizit die Option anbietet, Dateien im Kodierungsformat UTF-8 zu speichern.
- Notieren Sie in allen HTML-Dokumenten folgende Angabe:
Nun können Sie mitten im Text Zeichen aller Art eintippen und beliebig mischen. Um jedoch etwa arabische oder japanische Schriftzeichen verwenden zu können, muss auf dem System eine Schriftart vorhanden und im Texteditor eingestellt sein, die das Unicode-System zu größeren Teilen oder vollständig abdeckt und solche Schriftzeichen abbilden kann.
UTF steht übrigens für USC Transformation Formats ("USC-Umwandlungsformate") und USC wiederum für Universal Character Set ("universeller Zeichensatz"). Das Prinzip besteht darin, dass alle Zeichen, die zum klassischen ASCII-Zeichensatz gehören, mit einem Byte Breite abgespeichert werden, während alle übrigen Zeichen intern mit zwei oder mehr Bytes abgespeichert werden. Ein ausgeklügelter Algorithmus sorgt dafür, dass die Bytefolgen beim Lesen solcher Dateien wieder korrekt in Zeichenwerte umgesetzt werden. Gerade diese Tatsache ist jedoch auch dafür verantwortlich, dass falsch interpretierte UTF-8-Dateien zu sehr hässlichen Darstellungen führen können.
Das ist auch dann der Fall, wenn Sie im
<meta>
-Tag UTF-8 angeben, die Datei aber gar nicht als UTF-8 abspeichern.