Unicode

Raven280438

Hi,

soweit kein Problem.

In UTF-32 steht dann in jedem 32-Bit-Wort ein Unicode code point.

d.h. 4 Byte = 1 Codepoint?

Aus den 4 Bytes kann ich dann einfach nen Integer machen?

Gruß

dot

Raven280438 schrieb:

In UTF-32 steht dann in jedem 32-Bit-Wort ein Unicode code point.

d.h. 4 Byte = 1 Codepoint?

Zumindest im Moment: ja

Raven280438 schrieb:

Aus den 4 Bytes kann ich dann einfach nen Integer machen?

Musst natürlich auf die Endianess aufpassen, aber rein prinzipiell: ja

Die Frage ist: Was hilft dir der Codepoint?

Schwarzefee

Hi,

wird bei einem Font (in meinem Fall erstellt mit BMFont) eine Glyphe nicht über den Codepoint identifiziert?

Gruß

dot

Schwarzefee schrieb:

wird bei einem Font (in meinem Fall erstellt mit BMFont) eine Glyphe nicht über den Codepoint identifiziert?

Im Allgemeinen nicht, zumindest nicht im Kontext von Unicode; da muss man unterscheiden zwischen Code Units, Code Points, abstract Characters, Grapheme Clusters usw. das ist alles nicht so einfach, wie man vielleicht meinen würde. Zusammenfassung: UTF-32 bringt vielleicht eine 1:1 Entsprechung von Code Units zu Code Points (und selbst da wäre ich vorsichtig; früher dachte man auch mal, 7 Bit wären genug; dann dachte man, 8 Bit wären genug; dann dachte man, 16 Bit wären genug...), aber selbst das erlaubt keine fixed-width Behandlung eines String auf Ebene der Einheiten, die ein Mensch als "Zeichen" wahrnehmen würde. Es ist insofern also völlig egal, welches Encoding man jetzt verwendet, denn "Zeichen" haben am Ende nirgendwo fixe Länge...auch nicht in UTF-32...

one code point of view will never reveal the entire grapheme.

Caligulaminus