Dark Wizard
Гуру форума
- Регистрация
- 23 Сен 2007
- Сообщения
- 194
- Реакции
- 80
- Автор темы
- #1
Нужен несложный парсер сайтов, или как прикладная программа (exe), или как проект для datacol (также рассмотрю другие варианты). Нужен для добавления карточек спарсенных сайтов записями в wordpress, в определённую рубрику.
Исходные данные:
текстовой файл с url (по одному на строчку), пример в приложении
артикул и имя рубрики (например, можно как первые две строки в текстовом файле, например: cars, Машины)
(в файле это <category domain="category" nicename="cars"><![CDATA[Машины]]></category> добавляется в каждую позицию)
Нужно парсить:
- заголовок
- url
- мета теги: (ключевые слова (keywords), описание (description))
- мета теги: язык (Content-language), кодировка (Content-Type - charset), автор (Author), мета Robots.
- скриншот сайта (небольшой, jpg, называть как url и класть в папку images, например).
Соответственно, всё парсится, если есть.
На выходе - простой xml файл (в приложении пример).
Дополнительно:
- определять кодировку сайта и, если нужно конвертировать. Все результаты сохранять в utf-8.
- все данные нужно проверять на спецсимволы, sql резервированные слова и т.п. Стандартная обработка для безопасности.
- проверить работу с кириллическими доменами
- помечать недоступные сайты (лучше их списком отдельно сохранять)
- в идеале, возможность ставить на паузу и продолжать позже
- работа с большими объёмами, до 100 000 URL
Возможно, в будущем потребуются какие-то доработки, оплачу отдельно по договорённости.
Оплата yandex.деньги / wmr / qiwi.
Пишите сроки/цену сюда / в ЛС / на dwmobile@yandex.ru
Исходные данные:
текстовой файл с url (по одному на строчку), пример в приложении
артикул и имя рубрики (например, можно как первые две строки в текстовом файле, например: cars, Машины)
(в файле это <category domain="category" nicename="cars"><![CDATA[Машины]]></category> добавляется в каждую позицию)
Нужно парсить:
- заголовок
- url
- мета теги: (ключевые слова (keywords), описание (description))
- мета теги: язык (Content-language), кодировка (Content-Type - charset), автор (Author), мета Robots.
- скриншот сайта (небольшой, jpg, называть как url и класть в папку images, например).
Соответственно, всё парсится, если есть.
На выходе - простой xml файл (в приложении пример).
Дополнительно:
- определять кодировку сайта и, если нужно конвертировать. Все результаты сохранять в utf-8.
- все данные нужно проверять на спецсимволы, sql резервированные слова и т.п. Стандартная обработка для безопасности.
- проверить работу с кириллическими доменами
- помечать недоступные сайты (лучше их списком отдельно сохранять)
- в идеале, возможность ставить на паузу и продолжать позже
- работа с большими объёмами, до 100 000 URL
Возможно, в будущем потребуются какие-то доработки, оплачу отдельно по договорённости.
Оплата yandex.деньги / wmr / qiwi.
Пишите сроки/цену сюда / в ЛС / на dwmobile@yandex.ru