Descarga de paginas web completas con wget

Enviado por keopx el Dom, 29/03/2009 - 19:22

Este comando es muy útil para descargas webs, ficheros y ejecutar tareas de mantenimiento. Aquí explicamos algunos de ellos.

wget -r -p http://www.keopx.net

El parámetro -p le indica a wget que incluya todo (imágenes también), de modo que todos los ficheros HTML y demás de la web serán descargados.

Para poder omitir en robot.txt que nos puede impedir acceder a varias paginas escribimos lo siguiente:

wget -r -p -e robots=off http://www.keopx.net

Muchos sitios web no dejaran que te descargues todo lo que hay en ellos, así que podremos decirle que somos un navegador convencional:

wget -r -p -e robots=off -U mozilla http://www.keopx.net

Aún así hay administradores que han puesto un límite a este tipo de descargas y cuando ven que hay una transferencia masiva de archivos la limitan, pero para engañar de nuevo a este comportamiento simplemente podemos establecer ciertas pausas entre la descarga de información:

wget --random-wait -r -p -e robots=off -U mozilla http://www.keopx.net

Existen otros parámetros útiles de wget, como por ejemplo “–limit-rate=20k”, que limitará la tasa de descarga para que este proceso no se coma todo nuestro ancho de banda. El parámetro “-b” continuará con la descarga incluso si nos salimos de la sesión (útil para realizar ese proceso a través de máquinas remotas), y por último la opción “-o $HOME/wget_log.txt” permitirá mantener un registro de las transferencias para comprobar posibles errrores.

Referencias:

http://jamsubuntu.blogspot.com/2009/02/using-wget-to-download-entire-websites.html

Añadir nuevo comentario

El contenido de este campo se mantiene privado y no se mostrará públicamente.

HTML Restringido

  • Etiquetas HTML permitidas: <a href hreflang> <em> <strong> <cite> <blockquote cite> <code> <ul type> <ol start type> <li> <dl> <dt> <dd> <h2 id> <h3 id> <h4 id> <h5 id> <h6 id>
  • Saltos automáticos de líneas y de párrafos.
  • Las direcciones de correos electrónicos y páginas web se convierten en enlaces automáticamente.