[Работа] Несложный парсер сайтов

Статус
В этой теме нельзя размещать новые ответы.

Dark Wizard

Гуру форума
Регистрация
23 Сен 2007
Сообщения
194
Реакции
80
Нужен несложный парсер сайтов, или как прикладная программа (exe), или как проект для datacol (также рассмотрю другие варианты). Нужен для добавления карточек спарсенных сайтов записями в wordpress, в определённую рубрику.

Исходные данные:
текстовой файл с url (по одному на строчку), пример в приложении
артикул и имя рубрики (например, можно как первые две строки в текстовом файле, например: cars, Машины)
(в файле это <category domain="category" nicename="cars"><![CDATA[Машины]]></category> добавляется в каждую позицию)


Нужно парсить:
- заголовок
- url
- мета теги: (ключевые слова (keywords), описание (description))
- мета теги: язык (Content-language), кодировка (Content-Type - charset), автор (Author), мета Robots.
- скриншот сайта (небольшой, jpg, называть как url и класть в папку images, например).

Соответственно, всё парсится, если есть.

На выходе - простой xml файл (в приложении пример).

Дополнительно:
- определять кодировку сайта и, если нужно конвертировать. Все результаты сохранять в utf-8.
- все данные нужно проверять на спецсимволы, sql резервированные слова и т.п. Стандартная обработка для безопасности.
- проверить работу с кириллическими доменами
- помечать недоступные сайты (лучше их списком отдельно сохранять)
- в идеале, возможность ставить на паузу и продолжать позже
- работа с большими объёмами, до 100 000 URL

Возможно, в будущем потребуются какие-то доработки, оплачу отдельно по договорённости.

Оплата yandex.деньги / wmr / qiwi.

Пишите сроки/цену сюда / в ЛС / на dwmobile@yandex.ru
 

Вложения

  • parserlist.txt
    92,6 KB · Просмотры: 9
  • parser_result.txt
    1,9 KB · Просмотры: 7
Не актуально. Купил datacol, ушло время на настройку, конечно, но делает всё как надо, кроме скриншотов.
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху