jDony
Создатель
- Регистрация
- 25 Янв 2014
- Сообщения
- 41
- Реакции
- 40
Буду ждать бенчмарк данных тулз, так как тоже интересен данный вопрос.в пхп его нету. Вернее есть только встроенный который, как сказали, не справляется с циклическими ссылками, и вообще, порой при долгой работе забивает память хз чем и не спешит её освобождать.
Ну так, на регулярках то и нет проблем ни с памятью, ни с быстродействием.
А что до объёмов... Раньше я сливал контакт с этим инструментом и когда скрипт тупо пошёл до 1 гигобайта памяти - переписал на регулярки и радовался. Сейчас не хочу менять инструмент если вдруг внезапно будет хтмп большой или ещё чтото.
По объёмам -хз, может 10 страниц в секунду. Ну и работа - час, два. Просто не хочется проектировать чтото с учётом багов. Есть вариант использовать примитивные домпарсеры на регулярках и strpos - но тогда сложные какие то вещи использовать нельзя.
Сейчас протестировал по моему всё серьёзные компоненты (не брал встроенный)- зенд, симфони и парней с хабра показали себя хорошо. Но тестил примитивно. В скором времени выложу нормальный отчёт со сравнением и бенчарк.
Используете ли вы на таких объемах подход с несколькими воркерами и централизированной очередью?
Т.е:
1 скрипт генерирует\парсит нужные урл и складывает их во внешнюю очередь (да тот же Redis или ironMQ)
2. сколько угодно воркеров которые забирают от туда данные и обрабатывают их.
Такой подход мне нравится тем, что его легко можно масштабировать, так как единое хранилище для очереди может храниться где угодно.
Так же можно с легкостью перезапускать отдельные скрипты-воркеры которые подвисли\стали прожорливыми.