Axels Homepage


 ≡ Download ≡ 
webcheck.zip (2 kB)

 ≡ Links ≡ 
Links:

Parameter von Lynx

URL-Checker:


Hinweis zu den Links
Problem mit einem Link?
 
Sie sind hier: » PC + Co. » mehr BAT-Skripte » Lynx
Tipp
In der Quicksearch-Box rechts können Sie den Namen eines Windows-Kommandos oder Kommandozeilentools eingeben und kommen so schnell zu dessen Beschreibung.

BATch-Dateien - Lynx

Klar, Firefox ist geil. Sind aber Textbrowser out?
Da es hier um Bat-Dateien geht, steht die Frage Raum, weil es um batchfähige Anwendungen geht. Was Lynx so alles kann, offenbart sich nach einem Aufruf dessen Hilfe:
c:> lynx -help
USAGE: lynx [options] [file]
Options are:
  -                 receive options and arguments from stdin
  -accept_all_cookies
                    accept cookies without prompting if Set-Cookie handling
                    is on (off)
  -anonymous        apply restrictions for anonymous account,
                    see also -restrictions
  -assume_charset=MIMEname
                    charset for documents that don't specify it
  -assume_local_charset=MIMEname
                    charset assumed for local files
  -assume_unrec_charset=MIMEname
                    use this instead of unrecognized charsets
  -auth=id:pw       authentication information for protected documents
 
(...)
Auszug der Parameter von Lynx

Huuu... - erstmal tief Luft holen.

Ja toll, und was nun?
Wie man an der Menge der Möglichkeiten sieht: man muss probieren und die Möglichkeiten mal austesten...

Man sieht dessen Funktionalitäten:
z.B. mit -dump kann man eine Webseite ausgeben. Damit liesse sich umsetzen, eine Webseite auf Veränderungen zu prüfen, indem man verschiedene Dumps mit fc vergleicht.
Mit einem -head kann man einen Request auf eine URL absetzen und einfach nur den Header anfordern. Damit kann man Links auf ihre Gültigkeit prüfen, und dass ohne die komplette Seite herunterzuladen.

Ich habe mir einen Bruchteil der Funktionalität herausgepickt:

Seitenanfang


Webchecker

Vorab: ihr braucht den Textbrowser Lynx, der nicht in einer Windows-Installation enthalten ist.

Ich habe zu Demonstrationszwecken (1) - für kleinere statische Webs ist das sicher ausreichend - einen Webchecker erstellt:
Nach Vorgabe einer Start-URL wird eine Webseite rekursiv durchlaufen (mit den Lynx-Parametern -crawl -traversal).
Im aktuellen(!) Verzeichnis werden dabei mehrere Dateien angelegt, z.B. Dumps der einzelnen Seiten und Reports zu den durchsuchten Webseiten, gefundenen Links und Fehlern.

zu (1):
Der Scan läuft in einem einzelnen Thread. Wer es schneller braucht, braucht ein geeigneteres Tool, als einen Textbrowser für diese Aufgabe. Eine gute Freeware ist z.B. XENU.

Nachfolgendes Skript durchläuft eine Seite rekursiv und erstellt einen Report, indem es nicht verlinkte Grafiken und ungültige externe URLs auflistet.
 
===== WEB-CHECKER - V1.0 =====
 
Enter an url to scan (default: http://www.example.com/).
your url: http://www.example.com/
 
--- checking http://www.example.com/...
Website was found - OK.
 
--- creating workdir C:\DOKUME~1\Axel\LOKALE~1\Temp\webchecker ...
 
--- INFO:
The recursive scan starts now. Wait until the webbrowser fisished its work.
Drücken Sie eine beliebige Taste . . .
 
--- scanning http://www.example.com/ ...
done.
 
--- errors in local links:
 
--- find external links
done.
 
--- check external links
 
===== WEB-CHECKER - V1.0 =====
 
OK: http://www.rfc-editor.org/rfc/rfc2606.txt
 
--- opening the logfile
This window waits until you close the editor...
Ausgabe des Skripts auf der Kommandozeile


Im Editor wird ein Report als Textfile angezeigt, der falsche Grafiklinks und ungültige externe URLs anzeigt:

===== WEB-CHECKER - V1.0 =====
 
07.03.2005
21:42
 
scanned website: http://www.example.com/
 
--- errors in local links:
 
--- errors in external links:
 
--- scanned files:
http://www.example.com/
 
=== report finished.
Ausgabe des Reports im Editor

Seitenanfang

Download

In der hier angegebenen ZIP-Datei finden Sie die WEBCHECK.BAT:
webcheck.zip (2 kB)

Seitenanfang

 
©2010 by Axel Hahn - powered by
Valid HTML 4.01!