Парсер мед новостей.

KPACHODAP

DELETED
Регистрация
21 Дек 2009
Сообщения
683
Реакции
312
Добрый день друзья помогите плиз как сделать парсер информации с сайта иимено с этого разделал, хотябы как начать , чет не договняю

PHP:
<?
// Инициализируем курл
$ch = curl_init('http://medportal.ru/mednovosti/pro/');

// Параметры курла
curl_setopt($ch, CURLOPT_USERAGENT, 'IE20');
curl_setopt($ch, CURLOPT_HEADER, 0);
// Следующая опция необходима для того, чтобы функция curl_exec() возвращала значение а не выводила содержимое переменной на экран
curl_setopt($ch, CURLOPT_RETURNTRANSFER, '1');

// Получаем html
$text = curl_exec($ch);


$text = strstr($text, '<div class="list-pub">');
$text = substr($text, 0, strpos($text, '<div class="pager">'));






echo $text;


// Отключаемся
curl_close($ch);

?>

выводит мне щас

HTML:
<div class="list-pub">
        <ul>
       
                    <li class="first">
            <div class="date">19 января 2014 года, 22:57</div>
                        <div class="photo">
                <a href="/mednovosti/main/2014/01/19/009afisha/"><img class="limg" src="http://static.medportal.ru/pic/mednovosti/main/2014/01/19/009afisha/chapman_240x180.jpg" width="240" height="180" alt=""></a> Профессор Аллан Чэпмен © Bemidji State University Photography Services
              <div class="clear"></div>
            </div>
                        <h2><a href="/mednovosti/main/2014/01/19/009afisha/">Афиша популярных медицинских лекций. 20-26 января</a></h2>
            <p>Исследования британских ученых XVIII века, психология профессиональных спортсменов и осознанные сновидения с научной точки зрения </p>
          </li>
                 
       
                    <li>
            <h2><span class="date">17.01 11:51</span>
                <a href="/mednovosti/news/2014/01/17/381oper/">В Москве провели уникальную операцию по удалению кисты поджелудочной железы</a></h2>
            <p>Московские врачи провели уникальную операцию, успешно удалив 12-летнему мальчику кисту поджелудочной железы. Это редкое заболевание, которое встречается у одного на сотню тысяч человек. Операция, которую провели хирурги Морозовской детской больницы, прошла успешно, ребенок выписан домой в удовлетворительном состоянии.</p>
          </li>
                    <li>
            <h2><span class="date">15.01 23:25</span>
                <a href="/mednovosti/news/2014/01/15/375murmansk/">Словацкий кардиохирург провел восемь операций в Мурманске  </a></h2>
            <p>Один из основоположников эндоваскулярной хирургии дефектов межпредсердной перегородки профессор Братиславского кардиологического центра Павел Гавора 14 и 15 января провел на базе Мурманской областной клинической больницы имени П.А. Баяндина  операции восьми детям, которые страдали врожденными пороками сердца. </p>
          </li>
                    <li>
            <h2><span class="date">15.01 15:23</span>
                <a href="/mednovosti/news/2014/01/15/369candesartan/">Лекарство от повышенного давления оказалось эффективным средством от мигрени</a></h2>
            <p>Препарат для снижения артериального давления кандесартан («Атаканд») оказался не менее эффективным в отношении профилактики приступов мигрени, чем обычно назначаемый с этой целью пропанолол («Анаприлин») и способен помогать тем пациентам, которым не помогает последний. Такие данные были получены в ходе исследования, проведенного норвежскими учеными.</p>
          </li>
                    <li>
            <h2><span class="date">14.01 16:46</span>
                <a href="/mednovosti/news/2014/01/14/359galett/">Американка получит за неудачную гинекологическую операцию 62 миллиона долларов</a></h2>
            <p>Американка, лишившаяся в результате неудачной гинекологической процедуры обеих ног ниже колен, получит 62 миллиона долларов в качестве компенсации за свои страдания и понесенный ущерб. Такое решение вынес Верховный суд штата Нью-Йорк. В ходе лапароскопической операции в связи с внематочной беременностью пациентке проткнули кишечник, в результате чего началась гангрена. </p>
          </li>
                    <li>
            <h2><span class="date">13.01 18:13</span>
                <a href="/mednovosti/news/2014/01/13/351kemerovo/">В Кемерово годовалой девочке лапароскопически удалили часть почки</a></h2>
            <p>В Кемеровской области хирурги детской городской клинической больницы №5 впервые прооперировали годовалого ребенка с редкой врожденной патологией — полным удвоением правой почки (уретрогидронефроз верхнего сегмента). Врачам удалось удалить нефункционирующую часть почки девочки с использованием современного эндоскопического оборудования.</p>
          </li>
                    <li>
            <h2><span class="date">30.12.2013 15:26</span>
                <a href="/mednovosti/news/2013/12/30/312pay/">Собянин рассказал о росте зарплат московских терапевтов</a></h2>
            <p>По словам мэра Москвы Сергея Собянина, в ряде поликлиник столицы средняя зарплата терапевта составляет 100 тысяч рублей. Кроме того, Москва закупила 68 тысяч единиц современного оборудования, по количеству медтехники обогнав Лондон и Париж и приблизившись к Германии, которая является мировым лидером по этому показателю.</p>
          </li>
                    <li>
            <h2><span class="date">30.12.2013 14:07</span>
                <a href="/mednovosti/news/2013/12/30/311meniscectomy/">Финские ортопеды признали операцию по удалению мениска бесполезной</a></h2>
            <p>Финские специалисты по ортопедии и травматологии пришли к выводу, что при отрыве мениска коленного сустава, произошедшем не в результате травмы, а в результате возрастных изменений, имеет смысл не проводить операцию по удалению хряща, а сосредоточиться на таких методах реабилитации, как лечебная физкультура и физиотерапия. </p>
          </li>
                    <li>
            <h2><span class="date">27.12.2013 18:21</span>
                <a href="/mednovosti/news/2013/12/27/305sinusit/">Новосибирские врачи освоили метод баллонной синусопластики</a></h2>
            <p>Врачи Новосибирской областной клинической больницы первыми в городе провели операцию баллонной синусопластики. Этот малотравматичный способ лечения хронического синусита позволяет очистить околоносовые пазухи без хирургического вмешательства, а восстанавливается пациент после процедуры в течение суток. </p>
          </li>
                    <li>
            <h2><span class="date">27.12.2013 13:02</span>
                <a href="/mednovosti/news/2013/12/27/300fake/">Разработчика вакцины от ВИЧ уличили в подделке результатов исследования</a></h2>
            <p>Специалиста по биомедицине из университета штата Айова, занимавшегося разработкой вакцины от ВИЧ, уличили в фальсификации результатов исследования. Как выяснилось, Дун Пью Хань намеренно добавлял в образцы крови лабораторных кроликов компоненты человеческой крови, содержащие антитела к ВИЧ. Ученый признал свою вину и уволился из научного учреждения.</p>
          </li>
                    <li>
            <h2><span class="date">27.12.2013 03:58</span>
                <a href="/mednovosti/main/2013/12/27/298blogs/">Лучшие медицинские блоги</a></h2>
            <p>Кто доступно и весело рассказывает об атеросклерозе, где пишут о шарлатанах и в каком блоге можно узнать о буднях судмедэксперта</p>
          </li>
                 
        </ul>
      </div>

1. я так понимаю надо собрать все URL с этой страницы открыть и слить всю инфу себе, вернее вывести все страницы на одной страницы без лишней инфы!

типа для примера вот одна страница новости url = Для просмотра ссылки Войди или Зарегистрируйся



код фото на странице, надо ее слить локально в папку media от корня: Для просмотра ссылки Войди или Зарегистрируйся
<div class="photo" itemtype="Для просмотра ссылки Войди или Зарегистрируйся" itemscope="">
<img class="limg" itemprop="contentUrl" alt="Профессор Аллан Чэпмен © Bemidji State University Photography Services" src="Для просмотра ссылки Войди или Зарегистрируйся">
<span itemprop="description">Профессор Аллан Чэпмен © Bemidji State University Photography Services</span>
<div class="clear"></div>
</div>


текст который надо вытащить находиться между <div itemprop="articleBody"> - все что есть

<div itemprop="articleBody">
<p>
<p>
<p> Профессор Владимир Сопов, заведующий кафедрой психологии Российского государственного университета физической культуры, спорта, молодежи и туризма, расскажет слушателям о психологической подготовке спортсменов, методах психической саморегуляции, которым их обучают психологи, о том, что такое идеомоторная тренировка и о значении для чемпионов психологического контроля.</p>
<p>
<p>
<p>
<p> </p>
<p>
<p>
<p> Школа посвящена новейшим открытиям и тенденциям в развитии фундаментальной и прикладной биологии, инновационным разработкам в этой области и дискуссиям об их внедрении. В качестве лекторов выступят известные ученые: Константин Севернинов, Михаил Гельфанд, Георгий Базыкин и другие. Помимо лекций, мастер-классов и круглых столов с экспертами, на мероприятии пройдет форсайт-сессия — построение карты будущего фармацевтики и биотехнологий до 2035 года, а также постерная сессия — обсуждение того, как лучше доносить научные результаты до широкой аудитории в постерном формате.</p>
<p>
<p>
<p>
<p> </p>
<p>
<p>
<p> Осознанные сновидения — очень популярная тема для разговоров в околоэзотерических сообществах. Однако далеко не все знают, что академические ученые также изучали и изучают такой феномен. В этой короткой лекции биолог Владимир Ковальзон рассказывает о соответствующих исследованиях, механизмах сна в целом и использовании методов управления снами в психотерапии.</p>
<p>
<p> </p>
<p>
<p>
<p> Аллан Чэпмен, профессор Оксфорда и историк науки, рассказывает в этой лекции о том, как развивалась медицина на протяжении четырех веков в Англии и в Европе в целом. Ощутимый акцент и довольно быстрая речь этого колоритного британского ученого могут затруднить восприятие лекции на слух, но, к счастью, чуть ниже окна с видео есть транскрипт, который значительно упрощает понимание.</p>
<p>
<p> </p>
</div>

Автор = Елена Фоер
<p class="author" itemprop="author">Елена Фоер</p>


дата = 19 января 2014 года, 22:57
<div class="date" itemprop="dateCreated">19 января 2014 года, 22:57</div>





Мне надо вывести на одной странице весь контент со всех урл

фото 1
описание 1
автор 1
дата 1
---------
фото 2
описание 2
автор 2
дата 2
---------

и так далее, я думаю для знающих ето на 2 минуты когда есть вся инфа! За ранее спасибо!
 
Последнее редактирование:
Назад
Сверху