C++ Community

minhen

&#38, ist eine numerische Referenz auf das &-Zeichen. Da & jedoch im XML-Standard definiert ist, kann man das natürlich auch ohne Probleme verwenden. Wer XML versteht, der versteht auch &. Und, siehe Mr Evil, & ist im Gegensatz zur numerischen Referenz bereits auf den ersten Blick klar.

rüdiger

&#38 ist vor allem abhängig vom Encoding. Daher lieber & benutzen! (gilt auch für die anderen Entities &quot, &lt, &gt)

minhen

rüdiger schrieb:

&#38 ist vor allem abhängig vom Encoding.

Nein. Eine solche Referenz hängt selbstverständlich nicht vom Encoding der Datei ab! Das würde doch andernfalls das gesamte Konzept völlig ad absurdum führen. Denn schließlich will man damit ja gerade Zeichen einbetten können, die nicht im Zeichensatz der Datei vorkommen. Die Zeichencodes werden immer als Unicode-Zeichen, genauer UCS, interpretiert. Völlig unabhängig von irgendwelchen Encodings drumherum. Insofern ist es völlig egal ob man &#38 oder &amp schreibt. Der einzige Unterschied ist wirklich nur der, dass man sich als Mensch mit &amp schlicht einfacher tut. Das ist aber dafür ein guter Unterschied.

thordk

rüdiger schrieb:

&#38 ist vor allem abhängig vom Encoding. Daher lieber & benutzen! (gilt auch für die anderen Entities &quot, &lt, &gt)

die ascii entitäten sind in allen encodings gleich, deshalb spielts für die 5 keine rolle, welche variante man verwendet. allerdings sollte man wenn möglich auf ' verzichten, da IE basierte reader das seltsamerweise nicht erkennen.

IcemanX

besten DANK an alle!

Könnte man nicht alternativ das Dokument UTF-8 kodiert abspeichern und hätte dann keine Probleme mit Sonderzeichen?

rüdiger

@minhen
hmm, dachte das sei um Zeichen des aktuellen Encodings einzuführen.

nevermore_ schrieb:

Könnte man nicht alternativ das Dokument UTF-8 kodiert abspeichern und hätte dann keine Probleme mit Sonderzeichen?

Nein, die Zeichen werden ja nicht kodiert, weil sie im Encoding nicht vorkommen, sondern weil man sonst Text nicht von Elementen trennen könnte.

rüdiger schrieb:

Nein, die Zeichen werden ja nicht kodiert, weil sie im Encoding nicht vorkommen, sondern weil man sonst Text nicht von Elementen trennen könnte.

Mit welchem Element wäre ein "Ä" zu verwechseln, so dass es gerechtfertigt ist, es als Ä zu schreiben?

rüdiger

árn[y]ék schrieb:

rüdiger schrieb:

Nein, die Zeichen werden ja nicht kodiert, weil sie im Encoding nicht vorkommen, sondern weil man sonst Text nicht von Elementen trennen könnte.

Mit welchem Element wäre ein "Ä" zu verwechseln, so dass es gerechtfertigt ist, es als Ä zu schreiben?

Wer spricht von Ä?

Es ging um Zeichensätze und darum, dass in den Raum gestellt worden war, dass man die Entität benutze, um Zeichen desselben Datensatzes darzustellen, damit diese nicht mit "Elementen" verwechselt würden. Falls sich das ausschließlich auf die mehrdeutigen Elemente wie & oder < oder > bezog, hast du selbstverständlich recht.

rüdiger

Ä gibt es in XML nicht. Dieses Entity ist einfach in der HTML DTD spezifiziert. Also nicht generell anwendbar.

minhen

rüdiger schrieb:

@minhen
hmm, dachte das sei um Zeichen des aktuellen Encodings einzuführen.

Könnte man nicht den Zeichensatz verwenden, den die Datei verwendet, wäre etwas merkwürdig. Wie gesagt, das würde die numerischen Referenzen ad absurdum führen.
Die Spezifikation sagt dazu: A character reference refers to a specific character in the ISO/IEC 10646 character set
Und das bedeutet eben http://en.wikipedia.org/wiki/Universal_Character_Set völlig unabhängig von irgendwelchen Encodings.

rüdiger schrieb:

Ä gibt es in XML nicht. Dieses Entity ist einfach in der HTML DTD spezifiziert. Also nicht generell anwendbar.

Ist mir klar, genau darauf wollte ich ja hinaus
Also sorry, habe dich falsch verstanden ... Und nicht ganz zu ende gedacht