Качаете отсюда кейген, устанавливаете по инструкции.
если на последнюю версию кейген не сработал, в этом же архиве версия постарее, на ней работает(если при запуске хочет обновиться, жмем нет).
User-agent задается: Configuration -> UserAgent -> Googlebot Regular <- валидный юзерагент, рекомендую его
Configuration -> Spider - тут все настройки. Выставите все галочки в первом окошке, кроме последней. Если стоит галочка ignore robots.txt снимите ее.
Configuration -> Speed тут задает скорость прохода по сайту, если вылезает часто ошибка 500, то уменьшаете скорость прохода, 5 потоков обычно держит любой дешевый хостинг.
Чтобы составить новый robots.txt вам понадобятся такие пункты в менюшке, как Configuration -> Exclude - список url-ов, исключаемых по маске. Маска вида .*/url/.*
Выгрузка отчетов - Reports -> Serp summary -> all - выгружаете в удобный вам формат, дальше визуально ищете мусор.
Методика: Сканируете часть сайта, делаете выгрузку, нашли мусор, добавили его через маску в Exclude, запустили по новой сканирование сайта.
Сканируете до тех пор, пока вас не будет устраивать все url'ы, которые попадают в отчет. После того, как все получилось, берете данные из Exclude и составляете robots.txt.
В завершение загружаете новый robots.txt на сервер, очищаете весь Exclude, запускаете завершающее сканирование и проверяете, что все в порядке.
p.s. если при сканировании пишет, что мало памяти, нужно отредактировать файл ScreamingFrogSEOSpider.l4j.ini внутри файла инструкция.