сканер всех страниц сайта

В своё время я делал так:
Offline Explorer c фильтром, скачивать только html страницы. Далее в консоли "dir > list.txt" (Там были еще какие-то ключи, чтобы не выводилось размер файла, дата и т.д. Ключей не помню, но "dir /?" в помощь.)
И после уже блокнотом вычищал лишние символы.
 
Подскажите, каким это образом можно сторонним софтом собрать все url'ы сайта? Ну типа если на сайте нет ссылок на какие то страницы, то их и парсер не соберет.
 
да вот как-то ни 200, ни даже 120$ под это дело не завалялось.

Offline Explorer c фильтром
опять же, если оно в памяти держит список урлов, которые вытянул/предстоит вытянуть, то на таком объеме благополучно сдохнет.

если на сайте нет ссылок на какие то страницы, то их и парсер не соберет
разумеется, парсер не на кофейной гуще гадает, а оперирует получаемыми данными. не проставлены на какие-то страницы линки, ну и не очень-то хотелось. и без этого хватает.
 
сли оно в памяти держит список урлов, которые вытянул/предстоит вытянуть, то на таком объеме благополучно сдохнет.
В какой нафиг памяти? Все пишется на винт в указанную заранее папку.
 
В какой нафиг памяти?
в оперативной. я говорю не про содержимое конечных страниц, сохраняемых на жесткий диск, а о списке урлов, которые пройдены/необходимо пройти. если софт не хранит этот список в базе данных или хотябы в файле, то на объемах оно выжирает память и дохнет.
 
если софт не хранит этот список в базе данных или хотябы в файле, то на объемах оно выжирает память и дохнет.
Хз. если вытягивать Википедию постранично со всеми языками, то может и помрет. У меня работало нормально. Но я парсил сайты типа "Пиратской бухты". Огромные не пробовал.
 
Назад
Сверху