Umsteigen von ISO 8859-1 auf UTF8
-
Hallo,
folgendes Problem:
es gibt ein System (in C) dass recht groß und nicht besonders übersichtlich ist. Es verarbeitet Textdateien (in ISO 8859-1), speichert einiges in einer DB (Informix). Jetzt muß man auf UTF8 umsteigen.
Den Eingangs-/Ausgangstext umkodieren ist nicht das Thema (mit Standartfunktionen WCharToMultibyte() und MultibyteToWChar()).
Ich weiss aber leider nicht, welche Überraschungen auf mich noch zukommen könnten. Es wurden zum größten Teil die einfachsten Stringbearbeitung-Funktionen benutzt.Gibt es Punkten, dass man berücksichtigen soll? Wie kann man strings kopieren/Substring suchen/etc, wenn sie in UTF8 sind?
Vielen Dank im voraus
-
Als Einführung zuerst mal:
http://www.c-plusplus.net/forum/viewtopic-var-t-is-161855.htmlUnd wie mit allen MBCS gibt es das Problem, dass "1 Glyph" != "1 Zeichen", geschweige denn "1 Byte" ist.
-
osa schrieb:
Wie kann man strings kopieren/Substring suchen/etc, wenn sie in UTF8 sind?
Zumindest in dem Punkt kann ich Dich beruhigen. UTF8 ist so gemacht, dass zumindest die beiden Sachen genau wie vorher funktionieren. Interessant wird es, wie schon gesagt, bei der Darstellung und der Berechnung der Laenge.
-
Info hat mir sehr geholfen.
Danke vielmals!