Собственно пишу сам грабилку сайтов с Веб.архива, на php.
Есть несколько моментов:
1) Не все страницы сохранены а архиве
2) Есть несколько копий (разные по времени) одной и той же страницы
3) Некоторые элементы страницы могут отсутствовать (например картинки или подключаемый файл css)
4) Внутри html файлов есть две вставки, которые надо убирать (HEAD вверху, JavaScript внизу) И еще вставки со ссылкой на вебархив, их несколько.
Теперь о том как это должно работать на новом серваке
Как бы там ни было, с веб архива удастся стащить только статику. Восстановить с веб архива все как было в движке CMS или движке Форума получится только руками. Никакая восстанавливалка не будет укладывать данные в базу mysql.
Так вот, есть разные запросы к серваку и сервак что то возвращает. Например:
а)
Для просмотра ссылки Войди или Зарегистрируйся
б)
Для просмотра ссылки Войди или Зарегистрируйся
в)
Для просмотра ссылки Войди или Зарегистрируйся
Контент возвращаемый серваком может быть разным внутри: html css картинки pdf xml и т.д.
Сначала я возился с сайтом у которого не было страниц с передачей параметра скрипту, было как (б). Восстанавливал структуру папок внутрь сохранял контент в index.html - все получилось.
На других сайтах увидел что ссылки типа (а) и (в) возвращают все что угодно. По совету решил переделать: сохранять контент в файлы со случайными именами, хранить в таблице пару: ссылка - файл, и через htaccess прописать чтобы все запросы шли через index.php.
Этот index.php обращается в таблицу ищет ссылку и отдает соответствующее ей содержимое файла.