Порекомендуйте набор для парсинга на PHP 2017

Пробуйте Selenium и Phantom.js(Horseman). Отличные инструменты для парсинга, можно вытянуть любую инфу. Советую разобраться в них, в сети много примеров, вы сможете) Имхо, это лучше Зеннопостера/Bas.
И чем они лучше Зеннопостера/Bas?
 
Имеется ввиду плюнуть на пых и изучить js.
Есть такая приблуда как Node.JS и для неё тоже написано много скраперов и лоадеров + там получше с асинхронностью и параллельными процессами, что может хорошо ускорить парсинг.
А так же всегда можно написать приложение или скрипт для хрома, который сможет парсить и переходить по страницам.
С оглядкой на эти пункты JS подходит для парсинга лучше, чем PHP.

Но к примеру для меня будет гораздо продуктивнее зафигачить на PHP, потому как я его уже изучил достаточно глубоко и знаю, где подстелить соломки. А вот для новичков в программировании, скорость реализации как и шанс сделать фигню будет примерно одинаковы для разных языков и они вполне могут перепрыгнуть на JS.

Сейчас как раз на очереди у меня было изучение ноде JS.

Я правильно Вас поняла, что на на технологии node.js я смогу в процеcе парсинга имитировать работу в браузере для получения данных, например запустить как бы хром, нажать пару кнопок на странице, а получившийся в браузере результат получить в каком то виде например в DOM, поместить в какой то массив или объект и распарсить ?
 
Сейчас как раз на очереди у меня было изучение ноде JS.

Я правильно Вас поняла, что на на технологии node.js я смогу в процеcе парсинга имитировать работу в браузере для получения данных, например запустить как бы хром, нажать пару кнопок на странице, а получившийся в браузере результат получить в каком то виде например в DOM, поместить в какой то массив или объект и распарсить ?
Node.js это язык программирования (ЯП). В нём есть некоторые специфические штуки, которые для парсинга подходят лучше чем PHP, по крайней мере так говорят ;)

Имитировать работу в браузере можно на любом ЯП, через инструменты selenium, phantomJS и еще кучку менее популярных.
На том же PHP я писал тесты с помощью codeception и запускал через селениум и простые тесты делаются довольно легко:
PHP:
$I = new WebGuy($scenario);
$I->amOnPage('/login'); //переход на страницу
$I->fillField('Username','davert'); //вводим логин и пароль
$I->fillField('Password','qwerty');
$I->click('Login'); //кликаем по кнопке Login
$I->see('Hello, davert'); //ожидаем увидеть Hello, davert на странице
Теоретически это можно использовать и для парсинга.

Сложнее всего оказалось настроить селениум :) Первый раз я на это 2 дня убил.
 
Node.js это язык программирования (ЯП). В нём есть некоторые специфические штуки, которые для парсинга подходят лучше чем PHP, по крайней мере так говорят ;)

Имитировать работу в браузере можно на любом ЯП, через инструменты selenium, phantomJS и еще кучку менее популярных.
На том же PHP я писал тесты с помощью codeception и запускал через селениум и простые тесты делаются довольно легко:
PHP:
$I = new WebGuy($scenario);
$I->amOnPage('/login'); //переход на страницу
$I->fillField('Username','davert'); //вводим логин и пароль
$I->fillField('Password','qwerty');
$I->click('Login'); //кликаем по кнопке Login
$I->see('Hello, davert'); //ожидаем увидеть Hello, davert на странице
Теоретически это можно использовать и для парсинга.

Сложнее всего оказалось настроить селениум :) Первый раз я на это 2 дня убил.

А можете сюда кинуть пример как селениум подключали и использовали с PHP ? Посмотреть чтоб и не убить две недели мне, так как я менее сообразительна
 
Для просмотра ссылки Войди или Зарегистрируйся
А вот с такой штукой кто-нибудь сталкивался?
Как раз сейчас пытаюсь запустить у себя. Вот думаю стоит ли продолжать или Node.JS\PhantomJS осваивать.
 
В свое время у этого человека покупал программулину называется content downloader parser sbfactory . ru .. До сих пор иногда пользуюсь, на мой взгляд самый практичный и не дорогой варик..
 
Тоже контент даунлоадером приходилось пользоваться пару-тройку раз.
Очень хороший парсер. Почти безграничные возможности (особенно если проганять через свой скрипт на сервере), стоит денег, но иногда он очень выручает...
Ток придётся видосики посмотреть и подучиться как им пользоваться, ибо функционал постоянно дорабатывается и расширяется...
 
Еще можно стандартными способами через cURL разбирать страницу и так парсить
 
nokogiri - очень просто парсить через него. работает на основании file_get_contents
 
FidaSa, я процитирую твой первый пост и задачи в нём:

"...Хочу научиться парсить сайты любой сложности со скриптами и т.п.
1) Нужно будет научиться: собирать ссылки со всего сайта (DOM не DOM).
2) Собирать контент со страниц со скриптами (DOM не DOM).
3) Имитировать нажатие кнопок, прокручивания мыши, кликов и событий...."


Все эти задачи решает программа, которую здесь упомянули уже вскользь. Стоит - очень не дорого.
Пользуюсь уже несколько лет для наполнения магазинов и др. задач. Content Downloader X1
 
Назад
Сверху