Скачивание сайта через wget

Программа wget предназначена для того, чтобы без вашего особого участия скачивать большие количества файлов из интернета. Внизу предложены два варианта ее использования на данном сайте (хотя существуют еще десятки других): с помощью первого можно выкачать весь сайт; и с помощью второго можно выкачать избранную книгу из библиотеки. В последнем случае, укажите страницу оглавления выбранной вами книги. Выполнять эту команду надо из каталога на вашем компьютере, в который вы хотите выкачать сайт. По оканчании в файле wget.log будет находится информация о том, какие страницы были закачены, и какие ошибки возникли в процессе. Если эти варианты выкачки вас по каким-либо причинам не устраивают, то прочтите описание флагов и попробуйте самостоятельно придумать, как настроить работу этой программы под вашу задачу (предпочтительно) или пишите - разберемся вместе.

Для того, чтобы полностью скачать сайт, используйте следующую команду (здесь и далее, сайт будет скачан в каталог, из которого программа была запущена):

wget -c -p -r -l0 -np -N -k -nv http://tm-sidhi.narod.ru/tm/index.html 2>wget.log

Если нужно скачать не весь сайт, а только какую-то его часть (в данном случае книгу "Дао Пуха"), то используйте такую команду:

wget -c -p -r -l1 -np -N -k -nv http://tm-sidhi.narod.ru/tm/library/pooh/index.html 2>wget.log

Если вы работаете с интернетом через прокси сервер или через FireWall, то к списку указанных опций (перед адресом страницы) надо добавить еще и такие:

--proxy-user=xxx --proxy-passwd=yyy --execute="http_proxy=server:port"

Где ххх - это логин (если нужен)

yyy - это пароль для данного логина (если нужен)

server - имя прокси сервера или FireWall-а (узнать у администратора)

port - порт, через который работает прокси сервер или FireWall (узнать у администратора)

Страницы сайта будут выкачены с банерами. Если вы хотите от них избавиться, то из выкаченных файлов надо удалить все что стоит до строки "<!-- Начало страницы tm-sidhi.narod.ru -->" и все, что стоит после строки "<!-- Конец страницы tm-sidhi.narod.ru -->". Процесс удаления может быть автоматизирован (если вам позволяет это сделать ваш опыт), и здесь не рассматривается.

Информация для любознательных:

-c     Дополучать частично полученные файлы (если был обрыв связи во время предудущей закачки).

-p    Получить картинки, звуки и другие объекты для выкаченных страниц.

-r    Получать также страницы, на которые ссылаются выкаченные страницы (начиная от указанной).

-l0    Получать все страницы в приделах сайта (при условии, что их можно получить идя по линкам начиная от указанной страницы).

-l1    Получать только те и только те страницы, на которые ссылается указанная страница (указанная страница получается всегда).

-l2    Получать только те, на которые ссылается указанная страница и страницы, на которые ссылаются эти страницы.

-l3    Получать страницы на 3 уровня вглубь и т.п.

-np    Фильтр. Получать только те файлы, которые находятся в каталоге первой страницы и его подкаталогах. Из-за этого флага будут закачены не все картинки, но если его убрать, то придется скачивать сразу весь сайт.

-N    Получать файлы только, если они позднее датой, чем уже имеющиеся. С помощью этого флага можно обновлять вашу локальную версию сайта. Выкачиваться будут только изменения с момента последней закачки (даже, если изменился только дизайн).

-k    Сделать все абсолютные пути относительными (с помощью каталога ".." (перейти на уровень выше). Иначе будет нельзя воспользоваться меню внизу страницы.

-nvВ    журнал пишется краткая информация об обработанных страницах.

-h    Выдать список всех флагов с объяснением их назначения (пример сохранения в файл help.txt ==> wget -h >help.txt)

Источник информации: http://tm-sidhi.narod.ru/.