Парсер рассчитывает на то, что все страницы одного сайта устроены одинаково, и один раз настроив
парсер на примере одной страницы, вы сможете парсить и все остальные страницы сайта.
Например, найдем в тексте Название Товара:
Код:
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-
transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="en" lang="en"
itemscope itemtype="http://schema.org/"
xmlns:og="http://ogp.me/ns#">
<head>
<title><h1>ЖК монитор LG 24MS53V | характеристики, обзор, цена, купить в </h1></title>
<meta name="description" content="Характеристики, фотографии и сравнение цен LG 24MS53V в каталоге Hotline
помогут определиться с выбором товара и найти оптимальную цену." />
<meta name="keywords" content="LG 24MS53V, купить LG 24MS53V, обзор LG 24MS53V, цена LG 24MS53V" />
Искомый фрагмент находится после первого встретившегося <title> и перед знаком «|»
Значит, мы так и укажем парсеру: бери все после первого <title> и до |
При загрузке большого прайс-листа, особенно при добавлении новых товаров, часто бывает, что хостинг прерывает работу программы.
Это связано со стоимостью вашего тарифа: обычно, за 30 долл/ год вам предоставляется лишь 30 сек. на непрерывную работу php-программы, а по истечении положенного времени программа прерывается безжалостно, даже, если в этот момент она уже грохнула всю вашу БД и только собралась ее создавать заново.
Модуль работает не так. Он ничего не грохает, а только добавляет товары из прайса, строка за строкой и запоминает в файле на диске (файл admin/uploads/sos.tmp), какую строку прайса он обработал последнюю.
В случае прерывания работы модуля, вам достаточно нажать в браузере «Обновить страницу» или запустить загрузку с начала, чтобы все продолжилось с контрольной точки, записанной в файле sos.