[help] парсинг картинок curl - 404

Статус
В этой теме нельзя размещать новые ответы.

Adeka

Постоялец
Регистрация
17 Сен 2006
Сообщения
125
Реакции
44
Короче, задача - спарсить картинки с сайта.
В браузере картинка открывается, а курл ее не находит, т.е. сервер отдает 404.
Также картинку не видят всякие php-proxy и проч.

Пример:
Скрытое содержимое доступно для зарегистрированных пользователей!
 
Короче, задача - спарсить картинки с сайта.
В браузере картинка открывается, а курл ее не находит, т.е. сервер отдает 404.
Также картинку не видят всякие php-proxy и проч.

Пример:
*** скрытое содержание ***
Скорее всего проблема решится сразуже после того как добавить Еще один хидер Referer с доменом сайта откуда тянем картинки, и в данном случае

Там скорее всего стоит зващита от сабжа
 
не пашет :(

curl_setopt($ch, CURLOPT_REFERER, 'http://www.sportsmemorabilia.com');
 
У меня тоже не работает та картинка, которая дана в примере. Толи ссылка битая, толи реально ее нет на сервере. Проверил просто картинки на сервере скачать. все отлично сливается.

Возможно как вариант спасет TeleportPro
 
телепорт про отжигает!

сделал страничку со всеми нужными картинками, запихнул в телепорт, выбрал создать точную копию вместе с файловой структурой, потом перезалил на свой сайт и уже курлом нужные файлы сграбил

ох, работа :)
 
телепорт про отжигает!

сделал страничку со всеми нужными картинками, запихнул в телепорт, выбрал создать точную копию вместе с файловой структурой, потом перезалил на свой сайт и уже курлом нужные файлы сграбил
Походу отжигает не teleport, а ты - грабить курлом с собственного хоста? Жесть :-]
 
2PHP_Master

на хосте просто скрипт, благодаря которому курлом просто грабится, а далее переименовывается, сохраняется, исправляется все в базах данных и проч.

Походу отжигает не teleport, а ты - грабить курлом с собственного хоста? Жесть :-]
А кроме шуток, подсказал бы как ответить на поставленный в первом посте вопрос. :)
 
Попробуй без прокси. Всё отлично грабится. Дело в том, что многие фри прокси, в том числе и те которые юрзают синонемайзеры, блокируюся защитой.
 
У меня такое было. Писал давно еще свою грабилку галерей для создания из них сайтов на лету. Ни curl, ни даже Snoopy не тянули некоторые хосты. В итоге использовал простой fsockopen и на нем остался. Сложнее, зато степень "пробиваемости" куда выше. И проки там были совсем не причем.

Но набросал решение на snoopy и оно отлично расботало. Значит может все таки прокси. Провайдер напрмер любит прокси свое ставить не спрашивая.
PHP:
<?php
include_once 'snoopy.class.php';

$snoopy=new Snoopy();
// ----------------------------------------------------------------------------------------------------------------имитация браузера
$snoopy->agent="Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; MyIE2)";
$snoopy->accept="text/html, application/xml;q=0.9, application/xhtml+xml;q=0.9, image/png, image/jpeg, image/gif, image/x-xbitmap, */*;q=0.1";
$snoopy->rawheaders["Accept-Language"]="en";
$snoopy->rawheaders["Accept-Charset"]="windows-1252, iso-8859-1;q=0.6, *;q=0.1";
$snoopy->maxredirs=0; //чтобы не реагировал на редирект                                    
// ---------------------------------------------------------------------------------------------------------------/имитация браузера
// забираем страницу
$url="http://www.sportsmemorabilia.com/files/sports_import/Collectibles%20of%20the%20Game/t_176608.jpg";

$snoopy->fetch($url);
file_put_contents('test.jpg', $snoopy->results);
?>

Snoopy у меня еще старый, но не думаю, что новый хуже
 
Да дело в том что путь к картинке в коде страници которую забирает cURL путь к ней прописан не абсолютный, а что то типа src='/img/1.jpg'
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху