4ksner
Постоялец
- Регистрация
 - 6 Июн 2012
 
- Сообщения
 - 149
 
- Реакции
 - 62
 
- Автор темы
 - #1
 
Пишу парсер выдачи поиска с одного сайта.
Выдача:
	
	
	
		
Фильтрую так:
	
	
	
		
Сначала думал все работает нормально, но потом увидел что косячит с некоторыми заголовками. Оказалось что в некоторых новостях в TITLE выделяют слова тегами <b></b>.
Пример:
 
	
	
	
		
 
Поэтому мой preg_match_all режет заголовок пополам до ближайшего тега </b>.
 
Как мне нормально спарсить заголовок с учетом возможного наличия <b></b>?
	
		
			
		
		
	
				
			Выдача:
		Код:
	
	 <a href="/news/detail/[B]NEWS_ID[/B].html"><b>[B]TITLE[/B]</b>
            <p>[B]TEXT[/B]</p>
и т.д.
	
		PHP:
	
	preg_match_all('|<a href="/news/detail/[B]([^<]+)[/B].html"><b>[B]([^<]+)[/B]</b>|Uis', $data, $pages);
	Пример:
		Код:
	
	<a href="/news/detail/[B]NEWS_ID[/B].html"><b>[B]TITLE..........[/B]<b>[B]TITLE[/B]</b>[B]TITLE.............[/B]</b>
	Поэтому мой preg_match_all режет заголовок пополам до ближайшего тега </b>.
Как мне нормально спарсить заголовок с учетом возможного наличия <b></b>?