Unicode

Wie erzeugt man Unicode-Zeichen?

Wie bereits beschrieben, gibt es viele Einsatzmöglichkeiten für Unicode. Ich gehe hier davon aus, dass du Unicode auf deiner Homepage verwenden willst. Wenn du meinen HTML-Kurs gelesen hast, weißt du aus dem Kapitel über Sonderzeichen, dass man unter anderem das Ampersand (&) nicht ohne weiteres in HTML verwenden kann. Ich habe dort geschrieben, dass es eine besondere Funktion hat. Es leitet nämlich ein maskiertes Zeichen ein. Beendet wird das maskierte Zeichen mit einem Semikolon (;).

Beispiel 1

So sieht der Quellcode aus:

So sieht's im Browser aus:


Wie du sehen kannst, erscheint im Browser nicht das selbe, wie im Quellcode steht. Was genau bei dir im Browser erscheint, hängt von deinem Browser ab, denn das Zeichen mit der Nummer 1 ist kein darstellbares Zeichen. Es kann von keinem Browser dargestellt werden und daher stellt der Browser ein "Lego" dar.

Alle Zeichen, die darstellbar sind, haben eine Nummer, aber nicht allen Nummern sind darstellbare Zeichen zugeordnet. Die Zeichen sind normalerweise in zusammengehörenden Blöcken geordnet. Diese Blöcke sind unterschiedlich groß. Ob die darstellbaren Zeichen auch auf deinem PC dargestellt werden können hängt davon ab, ob der entsprechende Zeichensatz installiert ist und ob die Schriftart installiert ist, in der das Zeichen enthalten ist. In den Tabellen auf den folgenden Seiten siehst du alle darstellbaren Zeichen.

Beispiel 2

So sieht der Quellcode aus:
¢ ® ¿ ♥
So sieht's im Browser aus:
¢ ® ¿ ♥

Hier sind 4 Unicodezeichen, durch Leerzeichen voneinander getrennt, dargestellt. Ich hoffe du kannst sie alle 4 sehen.

Diese 4 Zeichen wurden mit dezimalen Zahlen maskiert. Dezimale Zahlen sind Zahlen, die im Dezimalsystem dargestellt sind. Das Dezimalsystem ist das Zahlensystem, das wir normalerweise benutzen. Darin gibt es 10 verschiedene Ziffern von 0 bis 9. Man zählt also 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11 usw. Um ein Zeichen mit einer dezimalen Zahl zu maskieren (dezimal zu maskieren, numerisch maskieren) schreibt man also &#dezimale Nummer;.

Man kann die Zeichen aber auch mit hexadezimalen Zahlen maskieren.

Beispiel 3

So sieht der Quellcode aus:
¢ ® ¿ ♥
So sieht's im Browser aus:
¢ ® ¿ ♥

Das sind also die gleichen Zeichen, maskiert mit hexadezimalen Zahlen. Hexadezimale Zahlen sind Zahlen aus dem Hexadezimalsystem. In diesem Zahlensystem gibt es 16 Ziffern. Man zählt 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, A, B, C, D, E, F, 10, 11 usw. Es ist natürlich immer wichtig, dass man die hexadezimalen Zahlen nicht für dezimale Zahlen halten kann. Besondes wenn in der Zahl keine Ziffern vorkommen die größer sind als 9, besteht diese Gefahr. Die hexadezimale Zahl "11" entspricht der dezimalen Zahl "17"! Deshalb stellt man vor die hexadezimale Zahl immer ein "x".

Leider ist es nicht einfach sich die vielen Nummern zu merken, die den ganzen Zeichen zugeordnet sind. Deshalb hat man für die wichtigsten Zeichen eine weitere Möglichkeit geschaffen. Man kann die Zeichen benennen, d.h. mit Namen maskieren. Dabei muss man sich natürlich genau an die festgelegten Namen halten. Die Namen entsprechen meist entweder der englichen Bezeichnung der Zeichen oder sind Abkürzungen davon.

Beispiel 4

So sieht der Quellcode aus:
¢ ® ¿ ♥
So sieht's im Browser aus:
¢ ® ¿ ♥

Wie du sehen kannst, entfallen beim benannten Maskieren die Nummernzeichen (#).

Auf den folgenden Seiten zeige ich die darstellbaren Zeichen mit ihren entsprechenden Maskierungen. Jedes Zeichen wird in einer eigenen Zeile dargestellt. In dieser Zeile siehst du der Reihe nach das Zeichen in der Schriftart Times New Roman, dann in der Schriftart Georgia, in der Schriftart Arial, in der Schriftart Courier New, in der Schriftart Courier, in der Schriftart Verdana, in der Schriftart Arial Unicode MS, dann der Quellcode des Zeichens wenn das Zeichen dezimal maskiert ist, dann der Quellcode bei hexadezimaler Maskierung, dann die benannte Maskierung, dann eine Beschreibung des Zeichens. Die verschiedenen Schriftarten kannst du natürlich nur sehen, wenn diese Schriftarten bei dir installert sind.

Die meisten Unicodezeichen sind nur in der Schiftart Arial Unicode MS enthalten. Deshalb lasse ich bei den Seiten, die nur solche Zeichen enthalten, die anderen Schriftarten weg. Genau so ist es mit den Codes zum benannten Maskieren. Bei vielen Zeichen gibt es diese Möglichkeit nicht. Wenn die ganze Seite nur solche Zeichen enthält, lasse ich die Spalte weg. Wo die Tabelle dadurch schmal genug wird, stelle ist dann 2 oder 3 Zeichen pro Zeile vor. In einigen Fällen sind Zeichen auch nur in abweichenden Schriftarten enthalten. In diesen Fällen gibt es eine zusätzliche Spalte mit dieser Schriftart.

Hier geht es zu den Codetabellen.


Um einen Link zu setzen, der direkt auf diese Seite führt, verwende folgende Url: