4ksner
Постоялец
- Регистрация
- 6 Июн 2012
- Сообщения
- 149
- Реакции
- 62
- Автор темы
- #1
Пишу парсер выдачи поиска с одного сайта.
Выдача:
Фильтрую так:
Сначала думал все работает нормально, но потом увидел что косячит с некоторыми заголовками. Оказалось что в некоторых новостях в TITLE выделяют слова тегами <b></b>.
Пример:
Поэтому мой preg_match_all режет заголовок пополам до ближайшего тега </b>.
Как мне нормально спарсить заголовок с учетом возможного наличия <b></b>?
Выдача:
Код:
<a href="/news/detail/[B]NEWS_ID[/B].html"><b>[B]TITLE[/B]</b>
<p>[B]TEXT[/B]</p>
и т.д.
PHP:
preg_match_all('|<a href="/news/detail/[B]([^<]+)[/B].html"><b>[B]([^<]+)[/B]</b>|Uis', $data, $pages);
Пример:
Код:
<a href="/news/detail/[B]NEWS_ID[/B].html"><b>[B]TITLE..........[/B]<b>[B]TITLE[/B]</b>[B]TITLE.............[/B]</b>
Поэтому мой preg_match_all режет заголовок пополам до ближайшего тега </b>.
Как мне нормально спарсить заголовок с учетом возможного наличия <b></b>?