Content Downloader

Под win7 работает, но присутствует особенность - надо запускать программу от имени администратора (Win7, Win Vista);
 
добрый день
хотел спросить данный парсер нормально работает с любого сайта,нет ли блокировки
нет. не с любого. есть сайты которые имеют защиту от автоматического парсинга. но это редкий случай.
другая проблема - когда весь сайт построен на скриптах. т.е. все что вы видите на странице - находится не непосредственно в ее коде а является результатом скриптовой многоходовки. пример - сайт ОРТ. наверно и это решаемо, но очень сложно.
все остальное - парсит без проблем.
 
Под 7 пашет даже не из под имени администратора. Не парсит сайты, где контент подгружается через ajax. Программе и автору респект, лучшая в данной нише
 
Вариант как импортировать новости сразу в базу

но меня гораздо больше всего волнует... как тянуть дальше?
особенно если донор настроил рсс только на отдачу 1 абзаца? - вот этот вопрос мне не дает покоя.
ну не парсить же каждый день СД?
Какие варианты возможны для дальнейшего грабинга к примеру для дле и вордпреса (вп-робот не предлагать - он тянет только то что отдают, и не больше)

Ну а почему СД не использовать каждый день? Там вполне нормальный планировщик заданий. СД->mysql->по крону php скрип и в базу заливаем wp или dle
 
я не асс сд, но... не знаю как правильно мне удасться выразить мысль...
иногда бывает что в сайте нету постраничной навигации, и тогда что брать за точку отсчета? ну в смысле как размечать границы слитого с ... до... ?,
надеюсь что ошибаюсь, но бывало так, что в категории берет данные, а вот в вложенной подкатегории уже - облизывай трекбол) - по этому нужно сливать все по каждой категории отдельно - что не всегда можно сделать четкую границу от..., и до... что тоже не удобно - то есть каждую подкатегорию отдельно с учетом что было и чего нет - от такой бухгалтерии голова не закружится?
вот по этому вопрос и возник. вполне возможно что чего то не знаю или не умею.
надеюсь не сильно путанно
 
я не асс сд, но... не знаю как правильно мне удасться выразить мысль...
иногда бывает что в сайте нету постраничной навигации, и тогда что брать за точку отсчета? ну в смысле как размечать границы слитого с ... до... ?,
надеюсь что ошибаюсь, но бывало так, что в категории берет данные, а вот в вложенной подкатегории уже - облизывай трекбол) - по этому нужно сливать все по каждой категории отдельно - что не всегда можно сделать четкую границу от..., и до... что тоже не удобно - то есть каждую подкатегорию отдельно с учетом что было и чего нет - от такой бухгалтерии голова не закружится?
вот по этому вопрос и возник. вполне возможно что чего то не знаю или не умею.
надеюсь не сильно путанно
приведите пример конкретной ссылки и что надо спарсить.
 
приведите пример конкретной ссылки и что надо спарсить.
отправил просто пример в личку. не то чтоб что именно он мне нужен. но чтоб понять принцип.
или хотя бы взять некоторые каталоги - в них сортировка по разным признакам

или варезники где одна новость может быть дублирована или, что еще хуже обновлена, а не сделана как новая,
как там правильно следить за обновлениями?
 
подскажите, как выкачать сайт с такой же структурой, то есть с такими же папками и названиями файлов? у меня файлы качаются подряд в одну папку и называются 1,2,3,4 и т.д.
 
nikky, это тебе другая программа нужна. Content Downloader тут не помощник.
 
Назад
Сверху