Hypercell ein ] Hypercell aus ] Zeige Navigation ] Verstecke Navigation ]
c++.net  
   

Die mobilen Seiten von c++.net:
https://m.c-plusplus.net

  
C++ Forum :: Java ::  Reguläre Ausdrücke - HTML - zu TXT     Zeige alle Beiträge auf einer Seite Auf Beitrag antworten
Autor Nachricht
Dexter1997
Mitglied

Benutzerprofil
Anmeldungsdatum: 09.01.2016
Beiträge: 103
Beitrag Dexter1997 Mitglied 17:29:17 10.01.2018   Titel:   Reguläre Ausdrücke - HTML - zu TXT            Zitieren

Hallo Freunde, ich versuche gerade, alle Tags eines Wikipediaeintrags zu entfernen, sodass eine einfache Textdatei übrigbleibt. Ich habe hierzu eine HTML-Datei von Wikipedia heruntergeladen und durch mein Programm gejagt.
Doch die Tags werden nicht ordnungsgemäß entfernt. Stattdessen kommt da nur Unsinn bei raus. Wo liegt mein Denkfefhler?

Java:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
import java.util.Scanner;
import java.io.File;

import java.io.BufferedWriter;

import java.io.FileWriter;

import java.io.PrintWriter;

import java.io.IOException;

import java.nio.file.Path;

import java.nio.file.Files;

import java.nio.file.Paths;

 
public class Reg {
    public static void main(String[] args)  throws Exception {
        File file = new File("test.html");
        Path path = Paths.get(args[0]);
        byte[] raw = Files.readAllBytes(path);
        String text = new String(raw, "UTF8");
        text = text.replaceAll("<script.*>.*</script>", "");
        text = text.replaceAll("<.*>", "");
        text = text.replaceAll("</.*>", "");
        PrintWriter output = new PrintWriter("test.txt");
        output.print(text);
    }
}
Th69
Mitglied

Benutzerprofil
Anmeldungsdatum: 25.03.2008
Beiträge: 4773
Beitrag Th69 Mitglied 11:17:19 11.01.2018   Titel:              Zitieren

Wahrscheinlich wegen ".*" - lies dir mal What is the difference between .*? and .* regular expressions? durch.
MFK
Mitglied

Benutzerprofil
Anmeldungsdatum: 02.11.2002
Beiträge: 5968
Beitrag MFK Mitglied 07:44:19 12.01.2018   Titel:              Zitieren

HTML kann man nicht mit regulären Ausdrücken parsen.

https://stackoverflow.com ....... ined-tags/1732454#1732454

_________________
"Funktioniert nicht" ist keine ausreichende Fehlerbeschreibung.
fdsfsfsdf
Unregistrierter




Beitrag fdsfsfsdf Unregistrierter 12:24:55 12.01.2018   Titel:              Zitieren

MFK schrieb:
HTML kann man nicht mit regulären Ausdrücken parsen.

https://stackoverflow.com ....... ined-tags/1732454#1732454


klarerweise kann man das nicht mit regulären Ausdrücken, stehen Regex und HTML ja auf einer anderen Chomsky "Stufe". Reguläre Ausdrücke sind endliche Automaten, und diesen fehlt ganz einfach das Gedächtnis, um hierarchische Strukturen zu erfassen (z.B. wie "tief" bin ich im HTML Baum jetzt schon nach unten gegangen).

Trotzdem sehe ich kein Problem, reguläre Muster innerhalb von HTML zu suchen, und dazu gehören öffnende und schließende Tags mit irgendwelchen Zeichen dazwischen. Ich bin zwar nicht in der Lage, die hierarchische HTML Struktur mit Regex zu erfassen, jedoch kann man zusammengehörende Tags finden und diese dann manipulieren.
C++ Forum :: Java ::  Reguläre Ausdrücke - HTML - zu TXT   Auf Beitrag antworten

Zeige alle Beiträge auf einer Seite




Nächstes Thema anzeigen
Vorheriges Thema anzeigen
Sie können Beiträge in dieses Forum schreiben.
Sie können auf Beiträge in diesem Forum antworten.
Sie können Ihre Beiträge in diesem Forum nicht bearbeiten.
Sie können Ihre Beiträge in diesem Forum nicht löschen.
Sie können an Umfragen in diesem Forum nicht mitmachen.

Powered by phpBB © 2001, 2002 phpBB Group :: FI Theme

c++.net ist Teilnehmer des Partnerprogramms von Amazon Europe S.à.r.l. und Partner des Werbeprogramms, das zur Bereitstellung eines Mediums für Websites konzipiert wurde, mittels dessen durch die Platzierung von Werbeanzeigen und Links zu amazon.de Werbekostenerstattung verdient werden kann.

Die Vervielfältigung der auf den Seiten www.c-plusplus.de, www.c-plusplus.info und www.c-plusplus.net enthaltenen Informationen ohne eine schriftliche Genehmigung des Seitenbetreibers ist untersagt (vgl. §4 Urheberrechtsgesetz). Die Nutzung und Änderung der vorgestellten Strukturen und Verfahren in privaten und kommerziellen Softwareanwendungen ist ausdrücklich erlaubt, soweit keine Rechte Dritter verletzt werden. Der Seitenbetreiber übernimmt keine Gewähr für die Funktion einzelner Beiträge oder Programmfragmente, insbesondere übernimmt er keine Haftung für eventuelle aus dem Gebrauch entstehenden Folgeschäden.