• DONATE to NULLED!
    Вы можете помочь Форуму и команде, поддержать финансово.
    starwanderer - модератор этого раздела будет Вам благодарен!

Помощь Доработать плагин парсинга сайтов

Dark Wizard

Гуру форума
Регистрация
23 Сен 2007
Сообщения
194
Реакции
80
Сделал простой плагин-парсер - указываем список url и рубрику - получаем готовые новости с данными из заголовка и мета-тегов.

Нужно доработать, чтобы за раз можно было обрабатывать много url (несколько тысяч), чтобы скрипт не вылетал из-за таймаута на выполнение у хостера. И чтобы при какой-то ошибке скрипт не останавливался, а помечал сайт красным и продолжал работу.

Другими словами, думаю можно сделать ajax запросом по одному адресу, и добавлять результат в слой с результатами. Но через jquery.form.js не получается, а как по-другому сделать не знаю...

Скрипт прикладываю (чтобы в базу добавлялось, можно раскомментировать строку "//wp_insert_post($source);")
 

Вложения

  • nashlos-add-url.rar
    2,3 KB · Просмотры: 19
  1. Используй Для просмотра ссылки Войди или Зарегистрируйся вместо file_get_contents
  2. Поставь set_time_limit(0), init_set('max_execution_time', 0) в начало скрипта.
  3. Чтобы помечать урл как неудачный - необходимо во-первых отлавливать этот момент. У тебя обработки ошибок никакой нет. Добавь проверку после получения ответа от сервера.
Другими словами, думаю можно сделать ajax запросом по одному адресу, и добавлять результат в слой с результатами. Но через jquery.form.js не получается, а как по-другому сделать не знаю...
Так сделай 1 скрипт монитор, и 1 воркер.
При запуске скрипта - будет запускаться воркер, и воркер же будет писать в бд\сессию\файл текущий статус.
Ну а дальше, простым ajax запросом на скрипт монитор ты будешь получать данные статусы.
 
Интересный плагин. Как раз искал что-то подобное для парсинга сайтов. Скажите, он сразу способен добавлять статьи на сайт или он записывает спарсенный контент в какую-то базу, с которой потом ещё предстоить работать (импортировать) ?
 
хз, пробуй запускать скрипт через Для просмотра ссылки Войди или Зарегистрируйся т.е. через командную строку. Или пусть обрабатывается через рефреш, но это если скрипт работает из браузера.
 
а что нибудь подобное есть, но с выводом в файлы и подпапки?
нужно запарсить по именам папок и спарсеное положить в текстовый файл в эти папки
или может кто уже доработал текущий скрипт?
 
Назад
Сверху