Handhabung - Kodierung ISO 8859-1, UTF-8 - Standardcontrols
-
Hallo zusammen,
in einer Anwendung durchsuche ich lokal gespeicherte html-Quelltexte mittels Suchbegriff. Der Suchbegriff wurde zuvor in Standardcontrols z.B. TEdit eingegeben.
In den html-Dateien wird nach Verweiszielen in href-Tags gesucht und bei Übereinstimmung mit dem Suchbegriff der zugehörige Verweistext zurückgegeben.
Verweisziel und Verweistext sollen anschließend in ein Datenbank (sqlite) geschrieben werden, aus der sie wiederum per Suchbegriff abfragbar sein sollen.Programmiertechnisch ist soweit alles klar. Nicht klar ist jedoch, wie ich die unterschiedlichen Kodierungen (ISO 8859-1, UTF-8) sinnvoll handhabe. Zu diesem Punkt habe ich mehr Fragen als Antworten:
Gibt es Standardfunktionen zur Umwandlung von ISO 8859-1 in UTF-8?
Kann ich mit den C++Builder-Standardcontrols UTF-8 handhaben? Wenn nicht, wie umarbeite ich dieses Problem am sinnvollsten?In der Borland-Hilfe finde ich haufenweise Ergebnisse zu UTF-8, jedoch vorwiegend Methodenbeschreibungen, wo finde ich konzeptionelles (warum, wieso, weshalb)?
Gruß
Leo
-
Leo Freitag schrieb:
Gibt es Standardfunktionen zur Umwandlung von ISO 8859-1 in UTF-8?
Ja. Welche C++Builder-Version hast du denn?
Leo Freitag schrieb:
Kann ich mit den C++Builder-Standardcontrols UTF-8 handhaben?
C++Builder 2009 und später unterstützt Unicode, die Versionen davor tun es nicht.
-
audacia schrieb:
Welche C++Builder-Version hast du denn?
Ich benutze Version 6.0.
Gibt es einen empfehlenswerten Workaround?
Gruß
Leo
-
Hallo,
Da gibt es z.Bsp. AnsiToUtf8 u.a. Schau mal in die Hilfe dazu.
-
Hallo Braunstein,
dass es diverse Methoden zu UTF-8 gibt, weiß ich und hatte ich bereits erwähnt. Was mir fehlt, ist der etwas 'größere Blick' auf dieses Thema.
Wenn Text in der Kodierung ISO 8859-1 oder UTF-8 vorliegt, ich diese aber nicht mit den Standardcontrols (Builder 6.0) darstellen kann, was dann?
Bedeutet das, dass ich den im TEdit eingetragenen Suchbegriff 'Gruß' anschließend in 'Gruß' wandeln muss, um nach 'ß' suchen zu können?
Und wie z.B. muss ich Text, der UTF-8 kodiert in einer Datenbank steht, behandeln, damit ich ihn in Standardcontrols handhaben kann?
Gruß
Leo
-
Leo Freitag schrieb:
Wenn Text in der Kodierung ISO 8859-1 oder UTF-8 vorliegt, ich diese aber nicht mit den Standardcontrols (Builder 6.0) darstellen kann, was dann?
Du kannst alles darstellen, was in der aktuellen Codepage verfügbar ist. Wenn das nicht reicht und du grundsätzlich alles darstellen willst, wirst du upgraden müssen.
-
Oder du verwendest statt der Standardcontrols eben solche die Unicode beherrschen.
z.Bsp. die
http://www.tmssoftware.com/site/tmsuni.asp