Лиса и виноград, или сбор товарных баз для Интернет-магазина

Статус
В этой теме нельзя размещать новые ответы.
это про другое - подождать 2-3 дня это одно дело, а _хронически_не_находить_товар? за которым пришел, да еще вместо него пытаются впарить что-то ненужное - это совсем другое дело.

У меня на сайтах остаются позиции снятые с производства. Их уже никогда не будет, но взамен я предлагаю новые модельки. Многие клиенты помнят названия старых моделей, или у кого-то видели предыдущие модели товаров. Со временем у меня скопилось ~5% таких товаров, не выкидывать же их с сайтов.:)
 
Вот,интересный вопрос - кто разобрался? - то, что можно спарсить картинку,текст товара на одной странице понятно,а вот если описние к товару расположено на нескольких страницах ? как офрмть что бы спарсило? Те например в какой либо позиции товара идет картинка описание -+ статья например - и статья не укладываеться по тексту на этой странице, а идет нумерация дальше0- 1-2-3 страница - парсит соответственно только нулевую страницу данного товара с картинкой и частью текста те дальше соответственно по доп страницам в описании товара не лазит, а как задать что бы парсилось многостраничное описание одному "Column" ?Сижу мозга кипит но тк все на англицком удачный вариант не приходит - хелп ми плиз ....
 
  • Автор темы
  • Заблокирован
  • #33
letrletrdina; написал(а):
Вот,интересный вопрос - кто разобрался? - то, что можно спарсить картинку,текст товара на одной странице понятно,а вот если описние к товару расположено на нескольких страницах ? как офрмть что бы спарсило? Те например в какой либо позиции товара идет картинка описание -+ статья например - и статья не укладываеться по тексту на этой странице, а идет нумерация дальше0- 1-2-3 страница - парсит соответственно только нулевую страницу данного товара с картинкой и частью текста те дальше соответственно по доп страницам в описании товара не лазит, а как задать что бы парсилось многостраничное описание одному "Column" ?Сижу мозга кипит но тк все на англицком удачный вариант не приходит - хелп ми плиз ....

Сграбить несколько страниц описания не проблема, проблема в том, что они в результатах будут разными записями.
Большинство грабилок по линкам так, чтобы сохранять результаты в одну запись, ходить не могут.
Есть немногочисленный класс программ, относящихся к макро-грабилкам, то есть тем, что записывают макро-последовательность ваших действий, и потом прокручивающих их, которые это могут сделать. Например, сандью, но уровень сложности настроек их непомерно высок, иначе просто будет работать абы как, и сливать все подряд.
Другой вариант -грабить все страницы, которые будут сохраняться в отдельные записи с каким-то ключевым элементом, например, названием товара, присутствующем во всех записях, а потом в офлайне прогонять через какую-то обработку, чтобы слить отдельные куски в одну запись.
Но все эти способы - не прямолинейная одноходовка, придется повозиться.
 
Ответил в личку. С кодировками все тип-топ.
Граждане, кому реально нужны такие базы, скажите пожалуйста, какая может быть реальная сумма, которую вы готовы на такую базу потратить.
Любую сумму назовите, которая для вас комфортна.
Пытаюсь определиться, делать базу таких баз, или же оно просто нафиг никому не надо, и я зря парюсь.

На сколько я понимаю некоторые владельцы интернет-магазинов специально нанимают людей для набивки баз - прикинем среднюю зарплату и месяц - два времени - и получиться цена которую некоторые владельцы магазинов готовы выложить)

Добавлено через 2 минуты
База такая думаю нужна... но вот как ее рекламировать. что бы окупить ее создание?
 
Специальсты по WCE, растолкуйте как настроить программу, чтобы скачивал имиджи по линкам. Как, например, тут:

Для просмотра ссылки Войди или Зарегистрируйся

Как выкачать картинку со страницы - понятно, а вот выкачать ту, которая открывается в новом окне. Ссылка на нее, к тому же, не прямая, а через яваскрипт.
 
Специальсты по WCE, растолкуйте как настроить программу, чтобы скачивал имиджи по линкам. Как, например, тут:
Для просмотра ссылки Войди или Зарегистрируйся
Как выкачать картинку со страницы - понятно, а вот выкачать ту, которая открывается в новом окне. Ссылка на нее, к тому же, не прямая, а через яваскрипт.
Столкнулся с такой же проблемой - помойму никак - те те страници с картинками которые защищены скриптом хрен скачаеш....во всяком случае решения я не нашел - скачивает нтмл старницу заместо картинки((((((((((((((
 
Столкнулся с такой же проблемой - помойму никак - те те страници с картинками которые защищены скриптом хрен скачаеш....во всяком случае решения я не нашел - скачивает нтмл старницу заместо картинки((((((((((((((
Да они не защищены, просто так реализуется открытие нового окна в браузере, урл к картинке там четко прописан. Я не смог сделать и без яваскрипта, т.е. если со страницы на картинку идет прямой линк. Обидно, название, описание, все параметры товара распарсил, а скачать имидж не получается.
 
  • Автор темы
  • Заблокирован
  • #38
в личку я уже написал, в кратце скажу и здесь.
по приведенному линку - вообще делать нечего.
я бы сделал в 2 прохода, хотя в принципе можно и объединить.
по первому проходу снимается весь текст, и в отдельном поле пишутся названия картинок, чтобы потом можно было найти.
по второму проходу в задание ставится только список картинок (берется из первого прохода), и wce мухой их все сливает в отдельную папку, не распыляясь уже ни на что другое.

в принципе по переходам, там есть установки на обработку явы. плюс есть возможность написать скрипт, что wce должен делать, наткнувшись на линк. но тут нужно понимать, о чем идет речь, и уметь писать эти самые скрипты. то есть уже становится сложно.
так что я бы не морочился, а слил все в 2 прохода - быстро и эффективно.
 
Ну собственно диагноз ясен, парсим список урлов файлов/картинок в отдельное поле, потом сохраняем список в тексовый файл и натравливаем любой download manager (можно и сам WCE). Не очень конечно удобно, но что делать.

P/S/ А в тему топика скажу, что базы товаров, конечно нужны, но имхо продать их будет не так просто. Во-первых потенциальный покупатель (а это владелец/разработчик инет-магазинов) спросит, а полная ли у вас база, например ноутбуков. Во-вторых поинтересуется, как отсортировать и выбрать нужные ему товары. Ну и самые дотошние зададут очень неудобный вопрос про копирайт на фотографии товаров.

Например, базы кейвордсов, составленные из названий этих же товаров, продать будет намного проще (такие базы всегда будут пользоваться спросом у сеошников), но ценник будет уже не тот.
 
  • Автор темы
  • Заблокирован
  • #40
Ну собственно диагноз ясен, парсим список урлов файлов/картинок в отдельное поле, потом сохраняем список в тексовый файл и натравливаем любой download manager (можно и сам WCE). Не очень конечно удобно, но что делать.
P/S/ А в тему топика скажу, что базы товаров, конечно нужны, но имхо продать их будет не так просто. Во-первых потенциальный покупатель (а это владелец/разработчик инет-магазинов) спросит, а полная ли у вас база, например ноутбуков. Во-вторых поинтересуется, как отсортировать и выбрать нужные ему товары. Ну и самые дотошние зададут очень неудобный вопрос про копирайт на фотографии товаров.
Например, базы кейвордсов, составленные из названий этих же товаров, продать будет намного проще (такие базы всегда будут пользоваться спросом у сеошников), но ценник будет уже не тот.

думаю, базы ключевых слов можно ввести в базу товаров дополнительным полем.
по поводу полноты/сортировки, и других вопросов - все ответы есть, проблем нет. если получение изображений из открытых источников напрягает, то право клиента - купить нужные ему фотографии в фотобанках.
сортировку и подготовку файла к импорту в конкретный магазин - не проблема сделать.
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху