сканер всех страниц сайта

kachi · 10 Май 2016

В своё время я делал так:
Offline Explorer c фильтром, скачивать только html страницы. Далее в консоли "dir > list.txt" (Там были еще какие-то ключи, чтобы не выводилось размер файла, дата и т.д. Ключей не помню, но "dir /?" в помощь.)
И после уже блокнотом вычищал лишние символы.

ykpon · 10 Май 2016

Подскажите, каким это образом можно сторонним софтом собрать все url'ы сайта? Ну типа если на сайте нет ссылок на какие то страницы, то их и парсер не соберет.

efs · 10 Май 2016

Anton написал(а):
a-parser

да вот как-то ни 200, ни даже 120$ под это дело не завалялось.

kachi написал(а):
Offline Explorer c фильтром

опять же, если оно в памяти держит список урлов, которые вытянул/предстоит вытянуть, то на таком объеме благополучно сдохнет.

ykpon написал(а):
если на сайте нет ссылок на какие то страницы, то их и парсер не соберет

разумеется, парсер не на кофейной гуще гадает, а оперирует получаемыми данными. не проставлены на какие-то страницы линки, ну и не очень-то хотелось. и без этого хватает.

kachi · 10 Май 2016

efs написал(а):
сли оно в памяти держит список урлов, которые вытянул/предстоит вытянуть, то на таком объеме благополучно сдохнет.

В какой нафиг памяти? Все пишется на винт в указанную заранее папку.

efs · 11 Май 2016

kachi написал(а):
В какой нафиг памяти?

в оперативной. я говорю не про содержимое конечных страниц, сохраняемых на жесткий диск, а о списке урлов, которые пройдены/необходимо пройти. если софт не хранит этот список в базе данных или хотябы в файле, то на объемах оно выжирает память и дохнет.

kachi · 12 Май 2016

efs написал(а):
если софт не хранит этот список в базе данных или хотябы в файле, то на объемах оно выжирает память и дохнет.

Хз. если вытягивать Википедию постранично со всеми языками, то может и помрет. У меня работало нормально. Но я парсил сайты типа "Пиратской бухты". Огромные не пробовал.

сканер всех страниц сайта

kachi

Постоялец

ykpon

Постоялец

efs

SEO оптимизатор дискрипторов одностраничных сайтов

kachi

Постоялец

efs

SEO оптимизатор дискрипторов одностраничных сайтов

kachi

Постоялец