Вытянуть сайт из Вебархива, как?

Tistec · 25 Апр 2009

Можно вручную просто скопировать

potashkina.e · 28 Апр 2009

Ещё ОДНИН монстр - Offline EE

Недавно открыла для себя одну программу Offline Explorer Enterprise .При правильных настройках утянет всё что надо . Раньше пользовалась Teleport Pro .

nullik · 31 Май 2009

potashkina.e написал(а):
Недавно открыла для себя одну программу Offline Explorer Enterprise .При правильных настройках утянет всё что надо . Раньше пользовалась Teleport Pro .

А может кто-то поделится шаблоном для Offline Explorer для качественного выкачивания из web архива.

Кстати, от себя еще добавлю, что для востановления старых заброшенных сайтов, частенько подходит установка старых ns серверов. Правда их не всегда просто узнать. Но для ruнета особой проблемы нет можно юзать например

Для просмотра скрытого содержимого вы должны войти или зарегистрироваться.

для того чтобы их узнать.

ant1-pa · 6 Июн 2009

potashkina.e написал(а):
Недавно открыла для себя одну программу Offline Explorer Enterprise .При правильных настройках утянет всё что надо . Раньше пользовалась Teleport Pro .

подскажи, а ты придумал как сделать чтобы прога не сохраняла все индексные страницы с именем default ?

ttx · 28 Июн 2009

default.html в качестве индекса лечится в .htaccess директивой:

Код:

DirectoryIndex index.html index.htm index.php default.html default.htm

Это, правда, научит только отображать сохраненное, соханять как index не научит.

Inviseble_Demon · 1 Июл 2009

Для просмотра скрытого содержимого вы должны войти или зарегистрироваться.

ttx · 1 Июл 2009

Для просмотра скрытого содержимого вы должны войти или зарегистрироваться.

ant1-pa · 4 Авг 2009

ttx написал(а):
default.html в качестве индекса лечится в .htaccess директивой:

Код:

DirectoryIndex index.html index.htm index.php default.html default.htm

Это, правда, научит только отображать сохраненное, соханять как index не научит.

нашел решение этой проблемы, написал не сложный батник который переименовывает во всех папках имя файла

tarkut · 7 Авг 2009

Человек каторый создал очень известный плагин feedmaster счас еще и выпустил скрипт каторый грабит arhive.org. Счас сайт Для просмотра ссылки Войди или Зарегистрируйся поэтому полную ссылочку на скрипт дать не могу.

e64f · 15 Сен 2009

Собственно пишу сам грабилку сайтов с Веб.архива, на php.

Есть несколько моментов:
1) Не все страницы сохранены а архиве
2) Есть несколько копий (разные по времени) одной и той же страницы
3) Некоторые элементы страницы могут отсутствовать (например картинки или подключаемый файл css)
4) Внутри html файлов есть две вставки, которые надо убирать (HEAD вверху, JavaScript внизу) И еще вставки со ссылкой на вебархив, их несколько.

Теперь о том как это должно работать на новом серваке
Как бы там ни было, с веб архива удастся стащить только статику. Восстановить с веб архива все как было в движке CMS или движке Форума получится только руками. Никакая восстанавливалка не будет укладывать данные в базу mysql.

Так вот, есть разные запросы к серваку и сервак что то возвращает. Например:
а) Для просмотра ссылки Войди или Зарегистрируйся
б) Для просмотра ссылки Войди или Зарегистрируйся
в) Для просмотра ссылки Войди или Зарегистрируйся

Контент возвращаемый серваком может быть разным внутри: html css картинки pdf xml и т.д.

Сначала я возился с сайтом у которого не было страниц с передачей параметра скрипту, было как (б). Восстанавливал структуру папок внутрь сохранял контент в index.html - все получилось.

На других сайтах увидел что ссылки типа (а) и (в) возвращают все что угодно. По совету решил переделать: сохранять контент в файлы со случайными именами, хранить в таблице пару: ссылка - файл, и через htaccess прописать чтобы все запросы шли через index.php.

Этот index.php обращается в таблицу ищет ссылку и отдает соответствующее ей содержимое файла.

Вытянуть сайт из Вебархива, как?

Tistec

Писатель

potashkina.e

Писатель

nullik

Участник

ant1-pa

Гуру форума

ttx

Профессор

Inviseble_Demon

Мой дом здесь!

ttx

Профессор

ant1-pa

Гуру форума

tarkut

Гуру форума

e64f

Постоялец