Ganze Webseiten via Wget archivieren

2020-12-23 15:13:24
Sven Clauer

Voraussetzung ist die Verwendung des Kommandozeilen-Tools "wget"  das Bestandteil so ziemlich jeder Linux Distribution und von Mac OS sein sollte. Zumindest könnte es unter Debian-Derivaten relativ einfach via "sudo apt install wget" nachinstalliert werden. Es gibt auch eine Windowsversion von GNU wGet.

wget --recursive --no-clobber --page-requisites --html-extension --convert-links --domains www.wikipedia.com https://www.wikipedia.com/

Erklärung der Optionen

--recursive
Lädt Seiten rekursiv herunter und folgt allen gefunden Links.

--no-clobber
Sollte der Download mal unterbrochen worden sein, werden bereits heruntergeladene Seiten nicht erneut heruntergeladen.

--page-requisites
Lädt auch die für die Anzeige der Seite benötigten Inhalte (Bilder, Scripte) herunter.

--html-extension
Speichert alle Seiten als HTML-Dateien

--convert-links
Konvertiert die Links so, dass die heruntergeladenen Dateien sich untereinander verlinken (statt die original Quelle im Internet).

--domains wikipedia.com
Lädt ausschließlich Seiten der spezifizierten Domains herunter

Tipps für besonders umfangreiche Seiten

Bei besonders großen Webseiten kann das Herunterladen aller Seiten lange dauern und vor allen Dingen den Webserver belasten oder dafür sorgen, dass der crawlende Rechner gesperrt wird. Um dies zu vermeiden können folgende beiden Optionen verwendet werden:

--wait=10
Wartet zwischen den Seitenaufrufen 10 Sekunden (der Wert kann natürlich frei gewählt werden).

--limit-rate=20k
Begrenzt die Downloadgeschwindigkeit auf 50K. (Somit wird der entfernte Server nicht überlastet)

Keywords:
Datenschutz, Datensicherheit, Zerstörung

Support

Trenner