UTF-8



  • Hallo Leute,

    ich habe hier ein Gerät, das gibt die Daten UTF-8 kodiert aus. Muss ich irgendwas beim Programmieren damit beachten? Gibt es da besondere Datentypen oder muss ich ich da global neudenken, weil eventuell eine Mischung von ASCII und UTF-8 in einem Programm nicht möglich ist?

    Danke schonmal.

    Günther



  • hi,
    dieses utf-8 ist komprimierter unicode, allerdings steckt der ascii-zeichensatz unverändert da drin. wenn du also nur zeichen unterhalb von 0x80 hast, dann sind beide formen identisch...



  • net schrieb:

    hi,
    dieses utf-8 ist komprimierter unicode, allerdings steckt der ascii-zeichensatz unverändert da drin. wenn du also nur zeichen unterhalb von 0x80 hast, dann sind beide formen identisch...

    Hm, das kann ich so nicht sagen. Wie muss ich denn damit umgehen, wenn es über die normalen ASCII-Sachen hinausgeht?

    Man muss doch eigentlich auch doppelt soviele Daten übertragen, oder liege ich da völlig falsch. Unicode basiert doch darauf, dass für jedes Zeichen 2 Byte benutzt werden, um alle Zeichen der Welt unterzubringen.

    Günther



  • Hi,

    siehe http://de.wikipedia.org/wiki/Utf8

    cu, Bernd



  • bst2 schrieb:

    siehe http://de.wikipedia.org/wiki/Utf8

    wiki schrieb:

    Unicode-Zeichen mit den Werten aus dem Bereich von 0 bis 127 (0 bis 7F hexadezimal) werden in der UTF-8-Kodierung als ein Byte mit dem gleichen Wert wiedergegeben. Insofern sind alle Daten, für die ausschließlich echte ASCII-Zeichen verwendet werden, in beiden Darstellungen identisch.

    na, ist doch das selbe was ich geschrieben hab 😉



  • Guenther schrieb:

    Man muss doch eigentlich auch doppelt soviele Daten übertragen, oder liege ich da völlig falsch. Unicode basiert doch darauf, dass für jedes Zeichen 2 Byte benutzt werden, um alle Zeichen der Welt unterzubringen.

    Weit verbreitetes Missverstaendnis. Was Du meinst ist UTF16 (und auch da stimmts nur, solange man nur Zeichen der "Basic Plane" verwendet). UTF16 ist aber nur eine moegliche Kodierung von Unicode, UTF8 eben eine andere.


Anmelden zum Antworten