[Работа] Несложный парсер сайтов

Dark Wizard · 21 Фев 2014

Нужен несложный парсер сайтов, или как прикладная программа (exe), или как проект для datacol (также рассмотрю другие варианты). Нужен для добавления карточек спарсенных сайтов записями в wordpress, в определённую рубрику.

Исходные данные:
текстовой файл с url (по одному на строчку), пример в приложении
артикул и имя рубрики (например, можно как первые две строки в текстовом файле, например: cars, Машины)
(в файле это <category domain="category" nicename="cars"><![CDATA[Машины]]></category> добавляется в каждую позицию)

Нужно парсить:
- заголовок
- url
- мета теги: (ключевые слова (keywords), описание (description))
- мета теги: язык (Content-language), кодировка (Content-Type - charset), автор (Author), мета Robots.
- скриншот сайта (небольшой, jpg, называть как url и класть в папку images, например).

Соответственно, всё парсится, если есть.

На выходе - простой xml файл (в приложении пример).

Дополнительно:
- определять кодировку сайта и, если нужно конвертировать. Все результаты сохранять в utf-8.
- все данные нужно проверять на спецсимволы, sql резервированные слова и т.п. Стандартная обработка для безопасности.
- проверить работу с кириллическими доменами
- помечать недоступные сайты (лучше их списком отдельно сохранять)
- в идеале, возможность ставить на паузу и продолжать позже
- работа с большими объёмами, до 100 000 URL

Возможно, в будущем потребуются какие-то доработки, оплачу отдельно по договорённости.

Оплата yandex.деньги / wmr / qiwi.

Пишите сроки/цену сюда / в ЛС / на dwmobile@yandex.ru

Dark Wizard · 23 Фев 2014

Ап!

Dark Wizard · 13 Май 2014

Не актуально. Купил datacol, ушло время на настройку, конечно, но делает всё как надо, кроме скриншотов.

[Работа] Несложный парсер сайтов

Dark Wizard

Гуру форума

Вложения

Dark Wizard

Гуру форума

Dark Wizard

Гуру форума