Количество страниц в Google и Яндекс

BestFish · 24 Июн 2016

Доброго времени суток. Интересует следующее страниц у сайте с натяжкой 12к но Гугл и Яша показывают что в индексе 15к. Подскажите как обнаружить неизвестные страницы? Или где посмотреть подробную статистику сканирования по URL?
Мониторил вручную, искал дубли - ничего лишнего не нашел.
Заранее спасибо!

NULLED555 · 24 Июн 2016

Яндекс Webmaster вроде всегда показывает точное значение, как может вообще что в индексе есть скрытые страницы))?
скиньте сайт стало интересно прямо

Zacker2 · 24 Июн 2016

Скрытое содержимое для пользователя(ей): BestFish

proovit09 · 24 Июн 2016

Попробуйте вот что: нужно скачать программу screaming frog seo spider и режиме паука с user-agent-ом yandex(или гугл) пройтись пауком по сайту(режим spider), с учетом вашего текущего robots.txt. После того, как просканировали сайт, делаете выгрузку url-ов и смотрите, каких страниц быть не должно, отталкиваясь от этого составляете новый robots.txt. После этого смотрите, что получилось и проверяете, в индексе ли оно и если нужно удаляете вручную или просто ждете, когда страницы сами удаляться.

BestFish · 24 Июн 2016

proovit09 написал(а):
Попробуйте вот что: нужно скачать программу screaming frog seo spider и режиме паука с user-agent-ом yandex(или гугл) пройтись пауком по сайту(режим spider), с учетом вашего текущего robots.txt. После того, как просканировали сайт, делаете выгрузку url-ов и смотрите, каких страниц быть не должно, отталкиваясь от этого составляете новый robots.txt. После этого смотрите, что получилось и проверяете, в индексе ли оно и если нужно удаляете вручную или просто ждете, когда страницы сами удаляться.

Такой вопрос, у меня сканирует только 493 страницы и где выбирается user-agent? Или это все в платной версии. Заранее спасибо за ответ.

proovit09 · 25 Июн 2016

Качаете отсюда кейген, устанавливаете по инструкции.

Для просмотра скрытого содержимого вы должны войти или зарегистрироваться.

если на последнюю версию кейген не сработал, в этом же архиве версия постарее, на ней работает(если при запуске хочет обновиться, жмем нет).

User-agent задается: Configuration -> UserAgent -> Googlebot Regular <- валидный юзерагент, рекомендую его

Configuration -> Spider - тут все настройки. Выставите все галочки в первом окошке, кроме последней. Если стоит галочка ignore robots.txt снимите ее.

Configuration -> Speed тут задает скорость прохода по сайту, если вылезает часто ошибка 500, то уменьшаете скорость прохода, 5 потоков обычно держит любой дешевый хостинг.

Чтобы составить новый robots.txt вам понадобятся такие пункты в менюшке, как Configuration -> Exclude - список url-ов, исключаемых по маске. Маска вида .*/url/.*

Выгрузка отчетов - Reports -> Serp summary -> all - выгружаете в удобный вам формат, дальше визуально ищете мусор.

Методика: Сканируете часть сайта, делаете выгрузку, нашли мусор, добавили его через маску в Exclude, запустили по новой сканирование сайта.
Сканируете до тех пор, пока вас не будет устраивать все url'ы, которые попадают в отчет. После того, как все получилось, берете данные из Exclude и составляете robots.txt.

В завершение загружаете новый robots.txt на сервер, очищаете весь Exclude, запускаете завершающее сканирование и проверяете, что все в порядке.

p.s. если при сканировании пишет, что мало памяти, нужно отредактировать файл ScreamingFrogSEOSpider.l4j.ini внутри файла инструкция.

BestFish · 2 Июл 2016

proovit09 написал(а):
Качаете отсюда кейген, устанавливаете по инструкции.

если на последнюю версию кейген не сработал, в этом же архиве версия постарее, на ней работает(если при запуске хочет обновиться, жмем нет).

User-agent задается: Configuration -> UserAgent -> Googlebot Regular <- валидный юзерагент, рекомендую его

p.s. если при сканировании пишет, что мало памяти, нужно отредактировать файл ScreamingFrogSEOSpider.l4j.ini внутри файла инструкция.

Программа крутая, по инструкции Вашей все получилось, единственный момент ссылки типа:

Для просмотра ссылки Войди или Зарегистрируйсяoffset_число
и такого плана:
Для просмотра ссылки Войди или Зарегистрируйсяindex.php?categoryID=225&offset=1&sort=customers_rating&direction=DESC

по маске в Exclude закрываю при новом скане не показывает, но когда вношу маски в robots.txt. и сканирую заново статус пишет ок, в чем может быть причина? Все другие, ненужные url'ы, без проблем, заблокировало.

proovit09 · 2 Июл 2016

BestFish написал(а):
Программа крутая, по инструкции Вашей все получилось, единственный момент ссылки типа:

Для просмотра ссылки Войди или Зарегистрируйсяoffset_число
и такого плана:
Для просмотра ссылки Войди или Зарегистрируйсяindex.php?categoryID=225&offset=1&sort=customers_rating&direction=DESC

по маске в Exclude закрываю при новом скане не показывает, но когда вношу маски в robots.txt. и сканирую заново статус пишет ок, в чем может быть причина? Все другие, ненужные url'ы, без проблем, заблокировало.

На такие параметры можно звездочки использовать.

различные варианты можете посмотреть здесь Для просмотра ссылки Войди или Зарегистрируйся

По поводу exclude, если после того, как роботс поменяли и запустили скан по новой, и все устраивает, то больше ничего делать и не надо. Это особенность программы, возможно в последней версии это поправили.
На всякий пожарный можно посмотреть как гуглбот, попробовать удалить устаревшую страницу из панели яндекса, или проверить на pagespeed. Насколько помню, там обязательно страница должна быть открыта или закрыта(в случае с удалением).

SeoParser · 19 Июл 2016

BestFish написал(а):
Доброго времени суток. Интересует следующее страниц у сайте с натяжкой 12к но Гугл и Яша показывают что в индексе 15к. Подскажите как обнаружить неизвестные страницы? Или где посмотреть подробную статистику сканирования по URL?
Мониторил вручную, искал дубли - ничего лишнего не нашел.
Заранее спасибо!

Рекомендую отличный софт для этих целей - Comparser.
Из условно-бесплатного (2 нед. демо), получить все страницы сайта поможет Netpeak Spider.

m3ow.com · 16 Авг 2017

Возможно, в роботсе не закрыты служебные страницы или какой плагин создает дубли. В Яндекс Вебмастере можете сделать выгрузку таблицы урлов в поиске и там поглядеть с помощью фильтров.

Количество страниц в Google и Яндекс

BestFish

Старатель

NULLED555

Хранитель порядка

Zacker2

Гуру форума

proovit09

Постоялец

BestFish

Старатель

proovit09

Постоялец

BestFish

Старатель

proovit09

Постоялец

SeoParser

Создатель

m3ow.com

Постоялец