- Регистрация
- 6 Ноя 2006
- Сообщения
- 1.624
- Реакции
- 343
- Автор темы
- Заблокирован
- #1
здравствуйте, уважаемые форумчане.
хочу обсудить вопрос сбора баз данных для интернет-магазинов.
во-первых, для чего людям нужны такие базы?
понятно, что от поставщиков обычно фиг допросишься вменяемых описаний.
но вот народ спрашивает, нет ли той или иной базы - это именно для этого, или есть какое-то другое использование?
далее, часто жалуются на то, что не получается сграбить базы маркета (отсюда и басня в заголовке) - товар, вроде, вот он, а как его перезалить в свою базу - не понятно.
очевидно, что базы маркета - первое, что приходит на ум. наверное, это не смое лучшее, что может быть, и не самое полное. но оно есть, и начинать, наверное, целессобразно именно с него. Или нет?
В общем, я для пробы взял один из разделов маркета, а именно тот, что лежал поближе. то есть попросту раздел фотообъективов.
использовал web content extractor версии 4.0, и вот что получилось.
это базовая информация. та, что на маркете идет с жестко зафиксированным количеством полей.
описание к ней такое:
Товарная база данных по фотообъективов Market.Yandex.ru по состоянию на 6 сентября 2010 года.
База содержит описания и изображения по 566 моделям фотообъективов.
Базовое описание включает:
- Название
- Изображение (в xls файле - название файла изображения)
- Средняя цена
- Минимальная цена
- Максимальная цена
- Тип объектива
- Фокусное расстояние
- Диафрагма
- Минимальная диафрагма
- Тип крепления объектива
- Автофокус (есть/нет)
- Макрорежим (есть/нет)
это все картинки ко всем моделям.
то есть этот экселевский файл и эти картинки - это то, что можно взять без проблем, и тут же распарсить как угодно и куда угодно.
дальше так не получится - в следующих группах характеристик плавающее количество полей, и, кроме того, их положение от страницы к странице не совпадает.
тем не менее, естественно, эту информацию тоже можно собрать, только не будет работать схема граб->парсинг, придется в середину воткнуть процессинг: граб->процессинг->парсинг
обработка может быть самой элементарной то есть ручной - для облегчения задачи я сначала выдирал названия полей, а в следующей колонке - соответствующее значение. если кому удобнее, чтобы они все были в одной ячейке, соединить ячейки в экселе - плевое дело.
дальше в экселе можно отсортировать колонки по возрастанию, а потом те, что сдвинулись влево из-за отстуствия какой-то информации все в одном месте просто подвинуть вправо куда нужно, и уж потом парсить в шоп.
в общем и целом, без обработки, получился такой вот файл:
небольшое описание в дополнение к тому, что выше, будет такое:
Расширенная база (представлена неорганизованным xls файлом, в том смысле, что после базовой информации
характеристики "плавают" и не упорядочены по столбцам) содержит дополнительную информацию по
- конструктивным особенностям объективов (несколько полей)
- дополнительную информацию (несколько полей)
- примеры отзывов на объективы (достоинства, недостатки, комментарии)
Полный список отзывов в данном случае не собмирался.
там в конце есть кусочек отзывов. но в целом, отзывы надо грабить в отдельный файл по схеме: в первой колонке название модели, в последущий сами отзывы, по их общему количеству.
=======
общий вопрос по всему этому безобразию такой - оно вообще кому-то нужно?
если нужно, то в каком объеме - базовой информации достаточно, или нужна полная?
если полная, то должна ли она уже быть пост-обработана и причесана, или "и так сойдет"?
ну, и, конечно, сколько кто готов отдать за такие базы в расчете на 1 раздел. назовите любую цифру, мне просто интересно.
ну, и если кто поделится своими траблами по сбору баз для своих магазинов, будет интересно послушать.
хочу обсудить вопрос сбора баз данных для интернет-магазинов.
во-первых, для чего людям нужны такие базы?
понятно, что от поставщиков обычно фиг допросишься вменяемых описаний.
но вот народ спрашивает, нет ли той или иной базы - это именно для этого, или есть какое-то другое использование?
далее, часто жалуются на то, что не получается сграбить базы маркета (отсюда и басня в заголовке) - товар, вроде, вот он, а как его перезалить в свою базу - не понятно.
очевидно, что базы маркета - первое, что приходит на ум. наверное, это не смое лучшее, что может быть, и не самое полное. но оно есть, и начинать, наверное, целессобразно именно с него. Или нет?
В общем, я для пробы взял один из разделов маркета, а именно тот, что лежал поближе. то есть попросту раздел фотообъективов.
использовал web content extractor версии 4.0, и вот что получилось.
Для просмотра скрытого содержимого вы должны войти или зарегистрироваться.
это базовая информация. та, что на маркете идет с жестко зафиксированным количеством полей.
описание к ней такое:
Товарная база данных по фотообъективов Market.Yandex.ru по состоянию на 6 сентября 2010 года.
База содержит описания и изображения по 566 моделям фотообъективов.
Базовое описание включает:
- Название
- Изображение (в xls файле - название файла изображения)
- Средняя цена
- Минимальная цена
- Максимальная цена
- Тип объектива
- Фокусное расстояние
- Диафрагма
- Минимальная диафрагма
- Тип крепления объектива
- Автофокус (есть/нет)
- Макрорежим (есть/нет)
Для просмотра скрытого содержимого вы должны войти или зарегистрироваться.
это все картинки ко всем моделям.
то есть этот экселевский файл и эти картинки - это то, что можно взять без проблем, и тут же распарсить как угодно и куда угодно.
дальше так не получится - в следующих группах характеристик плавающее количество полей, и, кроме того, их положение от страницы к странице не совпадает.
тем не менее, естественно, эту информацию тоже можно собрать, только не будет работать схема граб->парсинг, придется в середину воткнуть процессинг: граб->процессинг->парсинг
обработка может быть самой элементарной то есть ручной - для облегчения задачи я сначала выдирал названия полей, а в следующей колонке - соответствующее значение. если кому удобнее, чтобы они все были в одной ячейке, соединить ячейки в экселе - плевое дело.
дальше в экселе можно отсортировать колонки по возрастанию, а потом те, что сдвинулись влево из-за отстуствия какой-то информации все в одном месте просто подвинуть вправо куда нужно, и уж потом парсить в шоп.
в общем и целом, без обработки, получился такой вот файл:
Для просмотра скрытого содержимого вы должны войти или зарегистрироваться.
небольшое описание в дополнение к тому, что выше, будет такое:
Расширенная база (представлена неорганизованным xls файлом, в том смысле, что после базовой информации
характеристики "плавают" и не упорядочены по столбцам) содержит дополнительную информацию по
- конструктивным особенностям объективов (несколько полей)
- дополнительную информацию (несколько полей)
- примеры отзывов на объективы (достоинства, недостатки, комментарии)
Полный список отзывов в данном случае не собмирался.
там в конце есть кусочек отзывов. но в целом, отзывы надо грабить в отдельный файл по схеме: в первой колонке название модели, в последущий сами отзывы, по их общему количеству.
=======
общий вопрос по всему этому безобразию такой - оно вообще кому-то нужно?
если нужно, то в каком объеме - базовой информации достаточно, или нужна полная?
если полная, то должна ли она уже быть пост-обработана и причесана, или "и так сойдет"?
ну, и, конечно, сколько кто готов отдать за такие базы в расчете на 1 раздел. назовите любую цифру, мне просто интересно.
ну, и если кто поделится своими траблами по сбору баз для своих магазинов, будет интересно послушать.