Kabosu - Creando cosas
Publicado: 2024-09-07
Wget es un software del proyecto GNU que permite descargar ficheros usando HTTP, HTTPS y algún otro protocolo. Está instalada por defecto en prácticamente todos los Linux pero si no seguramente el gestor de paquete tendrá una versión que puedas instalar. Si quieres bajarte una web entera con todo sus textos e imágenes para poder usarla luego offline puedes usar el siguiente comando:
wget -r -p -E -k -np http://www.example.com/
El significado de los argumentos es el siguiente:
-r
: Descarga recursivamente todos los enlaces que encuentre en las páginas.-p
: Busca en el HTML todos los ficheros que hagan falta para que la web se muestra bien (imágenes, CSS, Javascript, etc).-E
: Mantiene la estructura de directorios y nombres de ficheros de la web que estamos descargando.-k
: Convierte los links de la página para que apunten a los ficheros que has descargado.-np
: No descarga ficheros que estén más arriba del path que le has dicho.http://www.example.com/
: La web que tiene que descargar. Podemos indicarle una ruta si solo queremos una parte del contenido.El resultado de esta combinación de argumentos es que va a crear un directorio con todos los ficheros que encuentre en la web que le digamos. Podemos crear un servidor web local con
python3 -m http.server
y navegar por nuestra copia local de la web. Obviamente si es una web que abusa del contenido dinámico o del Javascript Wget no va a funcionar bien.