carookee - group communication for you
Home / JavaForum / Java allgemein
Infos   |   Features   |   Gold-Edition   |   Kundenservice   
java
  Übersicht
  Forum
Beginner
Java allgemein
JDBC
JNI
Networking
Online-Ressourcen
Swing + AWT
XML
Meckerecke
  Mitglieder
LOGIN





· Passwort vergessen
· Kostenlos anmelden
  Information
  Demo
  Features
  Im Vergleich
  Anmeldung
SUCHE
Beiträge, Foren oder Verfasser finden:
  Kundenservice
  Impressum
  Datenschutz
  AGB
Status
5.331 User online
0 User eingeloggt
 

Beiträge
   Antworten     Neuer Beitrag    

Beitrag 310 von 2212 (14%) |<   <   >   >|

Autor DeaconFrost
Datum 24.11.05, 11:09
Betreff Re: Web-Seiten Inhalt auslesen und in textfile speichern


Dazu einige Fragen:
Ist mit Inhalt einer Website wirklich die ganze Site (Hunderte Seiten) oder eine bestimmte Webseite gemeint (eine URL)?
Quelltext bedeutet HTML?
Wenn die gewünschten Daten nicht im Quelltext stehen, sondern generiert werden: Wer generiert? Wie bzw. wodurch werden die Ergebnisse beschrieben (Java-Script)?

Grundsätzlich:
Die Java-Bibliothek ist sehr flexibel. Den Inhalt einer bestimmten HTML-Seite auszulesen ist z.B. kein Problem. Im Paket java.net finden sich einige nützliche Klassen.
Mittels der Klassen HttpURLConnection bzw. HttpsURLConnection und einer entsprechen URL (Klasse URL), kann der Inhalt einer beliebigen Webseite als Quelle für Daten genutzt werden.
Die Methode getInputStream() gibt einen entsprechenden Datenstrom zurück (Klasse java.io.InputStream), aus dem die Daten dann ausgelesen werden können. Von da an funktioniert dann genauso wie das Einlesen einer Datei (Paket java.io).
In dem entsprechenden Datenstrom kannst du dann mit Stringsuche usw. die entsprechenden Daten finden, sofern sie im Klartext vorliegen.

Wird der gesuchte Inhalt aber erst über JavaScript, VBScript, o.ä. erst vom Browser generiert, sehe ich eher geringe Chancen, dass Du so einfach an die Daten herankommst. In diesem Fall bräuchtest Du nämlich einen entsprechenden Interpreter, der die Befehle der Skriptsprache ausführt. Java bietet hier AFAIK aber keine entsprechende Unterstützung in der API, d.h. Du müsstest diesen Interpreter entweder selbst schreiben oder eine entsprechende Bibliothek finden.




Diskussionsverlauf:
    Re: Web-Seiten Inhalt auslesen und in textfile speichern
Web-Seiten Inhalt auslesen und in textfile speichern

 Auf diesen Beitrag antworten
 Neuen Beitrag verfassen


|<   <   >   >|

                                                                                                                                                                                                                           

Impressum  · Datenschutz  · AGB  · Infos  · Presse
Ein modernes Forum: teamturn.com