UTF8-String parsen
-
ich möchte einen UTF8-String - mit vollem Umfang (also z.B. auch "Supplementary Characters" http://www.i18nguy.com/unicode/supplementary-test.html) nach vorkommen von '.' durchsuchen
Folgende Einschränkung:
-Stream-Parsing d.h. ich habe eine trivial-Statemachine die immer wieder Happen von dem gesamten UTF8-String vorgeworfen bekommt
-wenn möglich keine externe Library oder eine die Stream-Parsing kann und möglichst Zero-Copy ist - oder wenigstens keinen Heap benötigt
mit meinem jetzigen Parser laufe ich einfach nur durch und schaue ob das Zeichen uint8 '.' vorkommt und gebe dann den Offset aus
kann ich mit dieser Vorgehensweise Problem bekommen wenn irgendein Multibyte Zeichen auch den uint8_t Wert von '.' enthält?
brauche ich einen richtige UTF8 Verarbeitung um das sauber zu lösen?Freu mich über Ideen, Tipps oder Links zu dem Thema
-
auf der Wikipedia-Seite hatte ich das gelesen
http://de.wikipedia.org/wiki/UTF-8
7-Bit-ASCII ist gleichzeitig UTF-8 und hochgradig kompatibel zu bisherigen 8-Bit-Zeichensätzen
Folge-Bytes sind niemals 7-Bit-ASCII-Zeichen (ermöglicht Verarbeitung und Parsen mit üblichen 7-Bit-Zeichenkonstanten)
und meine Trenner sind definitiv immer 7-Bit-ASCII
könnte das also doch schmerzfrei gehen?
-
ja, geht