Andere: wget Spezialfall (kruemeltee)

kruemeltee (449)

7x Beste Antwort

8x "Danke"

« am: 09.09.09, 09:04:16 »

Hallöchen alle miteinander,

ich versuche mich mal wieder an einem kleinen Skript um meine und auch andere Webseiten von mir zu kontrollieren. Ich will quasi (ich hoffe das geht mit wget), daß mir eine Webseite durchsucht wird, aber nicht die Dateien herunter geladen werden sondern nur der in einer Page hinterlegte Link zu einem Bild (jpg, jpeg, png und gif) in einer Textdatei gesammelt werden.
Wenn ich also http://meine-seite.de/index.html angebe soll mir wget anschliessend alle in dieser Seite vorkommenden Links die auf ein Bild (mit den entsprechenden Endungen) vorkommen in eine Textdatei legen, ohne diese allerdings herunter zu laden. Ist dies mit wget machbar? Optimal wäre es jetzt noch, wenn wget in der Lage wäre, wie eine Art Webspider sich durch die in der index.html verlinkten Seiten, die ebenfalls auf meine-seite.de liegen, zu kramen um dort ebenfalls die Links zu den Bildern zu "sammeln".

mfg Maddin

Moderator informieren

imhotep (1.644)

27x Beste Antwort

46x "Danke"

Re: Andere: wget Spezialfall

« Antwort #1 am: 09.09.09, 12:43:26 »

Hat dir diese Antwort geholfen?

Hallo

für den Download von Bildern gibt es selbst ein mächtiges shell-Komando.

httrack

wie du diese Bilder aber in einer Datei eintragen kannst bin ich mir nicht sicher, könnte aber gehen.

bevor du aber ein script dazu schreibst, würde ich mal dieses Programm testen, denn es gibt unter Ubuntu auch eine grafische Oberfläche, die die meisten Optionen mitgibt.

installiere dies doch einfach mal. (in der Konsole)

Code: [Auswählen]

sudo apt-get install webhttrack
danach findest du dieses Programm unter

Anwendungen -> Internet -> WebHTTrack Website Copier

http://www.httrack.com/html/step.html

gruss

Hardy1979

Moderator informieren

Dr. SuSE (8.534)

45x Beste Antwort

84x "Danke"

Re: Andere: wget Spezialfall

« Antwort #2 am: 09.09.09, 14:05:26 »

Hat dir diese Antwort geholfen?

Hallo,

der opensuse Anwender nutzt dazu yast und installiert es aus der Packmanquelle.
Gibt aber noch weitere Alternativen. Als Plugin für den Firefox z.B. DownthemAll ( http://www.downthemall.net ) oder auch für Skripte und Konsole checkbot, linkchecker, die grafische Variante dazu für den KDE-Desktop: Klinkchecker. Das sind Programme welche mir dazu gerade spontan einfallen (gibt noch weitere). Ob und in wie weit das alles für deine Zwecke geeignet erscheint musst du selbst herausfinden.

Have Fun

« Letzte Änderung: 09.09.09, 14:11:48 von Dr. SuSE »

Moderator informieren

kruemeltee (449)

7x Beste Antwort

8x "Danke"

Re: Andere: wget Spezialfall

« Antwort #3 am: 10.09.09, 13:24:09 »

Hat dir diese Antwort geholfen?

also httrack kenn ich bereits (ist auch in meinen Repositorys drin) ... das funktioniert auch ganz gut, allerdings wollte ich das ganze jetzt etwas weiter spinnen und nur Bilder von bestimmten Webseiten (also die, die in einem bestimmten Ordner drin sind) haben. Also als Beispiel liegen alle Webseiten, auf denen meine Bilder sind, unter www.meine-seite.de/spezielle-Seite/

ich hab jetzt zwar nicht sonderlich viel mit httrack herum gespielt, sondern mir tatsächlich ein paar Skripts geschrieben. Zunächst hab ich mittels wget alle Seiten herunter geladen, die mit www.meine-seite.de/spezielle-Seite/index.html verlinkt sind, und zwar mit folgendem Befehl:

Zitat

wget -r -l1 -np -A html,htm,phtml http://www.meine-seite.de/spezielle-Seite/index.html

zur Info der Optionen und Schalter:
-r: rekursiv
-l1: genau ein Level in den Verlinkungen
-np. nicht zurück ins Hauptverzeichnis der Seite springen
-A [...]: nur Dateien mit den Endungen herunter laden

anschliessend hatte ich erst einmal alle Seiten, in denen meine gewünschten Bilder irgendwie verlinkt waren. Dann habe ich aus diesen html Dateien die Links der Bilder extrahiert:

Zitat

for I in $1*.html; do
perl -nle 'print for m{/verzeichnis/der/Bilder.+?[.]jpeg}g' $I >> $2links.txt
[ggf. die Zeile nochmal mit "jpg, bmg, giv, etc.]
done

dabei findet er allerdings zu viele ... daher half ein "grep" nach:

Zitat

cat links.txt | grep img > links2.txt

das img kommt darauf was man suchen möchte und was in jeder der gewünschten Zeilen drin ist. Zu guter letzt habe ich noch mittels sed den restlichen "Kruscht" vor den Bilderlinks und danach mittels sed gelöscht ...

und schon hatte eine eine fein bereinigte Datei mit allen Links drin ... dauerte (mal abgesehen vom download der html Dateien) gar nicht lange!

Gruß Maddin

Moderator informieren

Andere: wget Spezialfall

Antworten zu Andere: wget Spezialfall:

Re: Andere: wget Spezialfall

Mehr zu Andere: wget Spezialfall