Hypercell ein ] Hypercell aus ] Zeige Navigation ] Verstecke Navigation ]
c++.net  
   

Die mobilen Seiten von c++.net:
https://m.c-plusplus.net

  
C++ Forum :: Java ::  Reguläre Ausdrücke - HTML - zu TXT     Zeige alle Beiträge auf einer Seite Auf Beitrag antworten
Autor Nachricht
Dexter1997
Mitglied

Benutzerprofil
Anmeldungsdatum: 09.01.2016
Beiträge: 120
Beitrag Dexter1997 Mitglied 18:29:17 10.01.2018   Titel:   Reguläre Ausdrücke - HTML - zu TXT            Zitieren

Hallo Freunde, ich versuche gerade, alle Tags eines Wikipediaeintrags zu entfernen, sodass eine einfache Textdatei übrigbleibt. Ich habe hierzu eine HTML-Datei von Wikipedia heruntergeladen und durch mein Programm gejagt.
Doch die Tags werden nicht ordnungsgemäß entfernt. Stattdessen kommt da nur Unsinn bei raus. Wo liegt mein Denkfefhler?

Java:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
import java.util.Scanner;
import java.io.File;

import java.io.BufferedWriter;

import java.io.FileWriter;

import java.io.PrintWriter;

import java.io.IOException;

import java.nio.file.Path;

import java.nio.file.Files;

import java.nio.file.Paths;

 
public class Reg {
    public static void main(String[] args)  throws Exception {
        File file = new File("test.html");
        Path path = Paths.get(args[0]);
        byte[] raw = Files.readAllBytes(path);
        String text = new String(raw, "UTF8");
        text = text.replaceAll("<script.*>.*</script>", "");
        text = text.replaceAll("<.*>", "");
        text = text.replaceAll("</.*>", "");
        PrintWriter output = new PrintWriter("test.txt");
        output.print(text);
    }
}
Th69
Mitglied

Benutzerprofil
Anmeldungsdatum: 25.03.2008
Beiträge: 4945
Beitrag Th69 Mitglied 12:17:19 11.01.2018   Titel:              Zitieren

Wahrscheinlich wegen ".*" - lies dir mal What is the difference between .*? and .* regular expressions? durch.
MFK
Mitglied

Benutzerprofil
Anmeldungsdatum: 02.11.2002
Beiträge: 5982
Beitrag MFK Mitglied 08:44:19 12.01.2018   Titel:              Zitieren

HTML kann man nicht mit regulären Ausdrücken parsen.

https://stackoverflow.com ....... ined-tags/1732454#1732454

_________________
"Funktioniert nicht" ist keine ausreichende Fehlerbeschreibung.
fdsfsfsdf
Unregistrierter




Beitrag fdsfsfsdf Unregistrierter 13:24:55 12.01.2018   Titel:              Zitieren

MFK schrieb:
HTML kann man nicht mit regulären Ausdrücken parsen.

https://stackoverflow.com ....... ined-tags/1732454#1732454


klarerweise kann man das nicht mit regulären Ausdrücken, stehen Regex und HTML ja auf einer anderen Chomsky "Stufe". Reguläre Ausdrücke sind endliche Automaten, und diesen fehlt ganz einfach das Gedächtnis, um hierarchische Strukturen zu erfassen (z.B. wie "tief" bin ich im HTML Baum jetzt schon nach unten gegangen).

Trotzdem sehe ich kein Problem, reguläre Muster innerhalb von HTML zu suchen, und dazu gehören öffnende und schließende Tags mit irgendwelchen Zeichen dazwischen. Ich bin zwar nicht in der Lage, die hierarchische HTML Struktur mit Regex zu erfassen, jedoch kann man zusammengehörende Tags finden und diese dann manipulieren.
Feierabend
Unregistrierter




Beitrag Feierabend Unregistrierter 16:45:38 22.01.2018   Titel:              Zitieren

Zitat:
zusammengehörende Tags finden und diese dann manipulieren.


Wie soll das gehen ohne Tag Tief und "gedächtnis"!?
SeppJ
Global Moderator

Benutzerprofil
Anmeldungsdatum: 10.06.2008
Beiträge: 28583
Beitrag SeppJ Global Moderator 18:25:48 22.01.2018   Titel:              Zitieren

fdsfsfsdf schrieb:

Trotzdem sehe ich kein Problem, reguläre Muster innerhalb von HTML zu suchen, und dazu gehören öffnende und schließende Tags mit irgendwelchen Zeichen dazwischen. Ich bin zwar nicht in der Lage, die hierarchische HTML Struktur mit Regex zu erfassen, jedoch kann man zusammengehörende Tags finden und diese dann manipulieren.
Dann gib doch mal einen Ausdruck an, der alle Überschriften aus einem Dokument ermittelt. Sollte doch ganz einfach sein.
HTML:
1
2
3
4
5
6
7
8
9
10
11
12
13
<!DOCTYPE html>
<html>
<body>
<textarea>
<!DOCTYPE html>
<html>
<body>
<h1>Fake oder echt?</h1>
</body>
</html>
</textarea>
</body>
</html>

_________________
Korrekte Rechtschreibung und Grammatik sind das sprachliche Äquivalent zu einer Dusche und gepflegter Kleidung.
C++ Forum :: Java ::  Reguläre Ausdrücke - HTML - zu TXT   Auf Beitrag antworten

Zeige alle Beiträge auf einer Seite




Nächstes Thema anzeigen
Vorheriges Thema anzeigen
Sie können Beiträge in dieses Forum schreiben.
Sie können auf Beiträge in diesem Forum antworten.
Sie können Ihre Beiträge in diesem Forum nicht bearbeiten.
Sie können Ihre Beiträge in diesem Forum nicht löschen.
Sie können an Umfragen in diesem Forum nicht mitmachen.

Powered by phpBB © 2001, 2002 phpBB Group :: FI Theme

c++.net ist Teilnehmer des Partnerprogramms von Amazon Europe S.à.r.l. und Partner des Werbeprogramms, das zur Bereitstellung eines Mediums für Websites konzipiert wurde, mittels dessen durch die Platzierung von Werbeanzeigen und Links zu amazon.de Werbekostenerstattung verdient werden kann.

Die Vervielfältigung der auf den Seiten www.c-plusplus.de, www.c-plusplus.info und www.c-plusplus.net enthaltenen Informationen ohne eine schriftliche Genehmigung des Seitenbetreibers ist untersagt (vgl. §4 Urheberrechtsgesetz). Die Nutzung und Änderung der vorgestellten Strukturen und Verfahren in privaten und kommerziellen Softwareanwendungen ist ausdrücklich erlaubt, soweit keine Rechte Dritter verletzt werden. Der Seitenbetreiber übernimmt keine Gewähr für die Funktion einzelner Beiträge oder Programmfragmente, insbesondere übernimmt er keine Haftung für eventuelle aus dem Gebrauch entstehenden Folgeschäden.