Гугл и 10млн "Обнаружена, не проиндексирована"

borodatych

Гуру форума
Регистрация
24 Июн 2016
Сообщения
159
Реакции
98
Здравствуйте!

Есть 10млн+ ссылок вида: site.ru/items/brand/number
Запрос в гуглу: site:site.ru items
Показывает около 600 тысяч из десяти-то плюс миллионов!

Вычитал какое-то соотношение полезного текста к коду
На проверенных мною вот сегодня страницах, текст колеблется от 14% до 15%

Беру одну из страниц, что обнаружена и не в индексе, к примеру:
site.ru/items/brand_34/number_63

Ищу в гугле: brand_34 number_63

Открывают первых конкурентов, все ниже 2%, один даже 0.14%
Отсюда можно сделать вывод, что это не главное?!
....или Для просмотра ссылки Войди или Зарегистрируйся это не правильно делает

Связка brand+number не повторяется и контент свой по этой связке, тоже не повторяется
Подскажите куда копать?

Спасибо.
 

borodatych

Гуру форума
Регистрация
24 Июн 2016
Сообщения
159
Реакции
98

borodatych

Гуру форума
Регистрация
24 Июн 2016
Сообщения
159
Реакции
98
Позвольте еще чуток данных и размышлений, может тут кроется ответ, я просто не на этом специализируюсь.
Индекс доходил до 3-4 млн, мы во сне подпрыгивали и улыбались от посещения с таких страниц.

Но в один прекрасный момент, все полетело, и я начал изучать ситуацию.
Как выяснилось, на подобным страницах есть изображения, которые были запрещены в robots.txt
Не спрашивайте почему, не помню, для чего-то делал, сглупил, недоконтролил.

Есть несколько 1-2 тысяч страниц с кривым номером, и такие страницы в ошибках, но это мелочь с 10 млн нормальных.
Может это помешать гуглу индексировать, мол а зачем, вы еще ошибки не исправили?

Обнаружена, не проиндексирована
9 673 278

Страница просканирована, но пока не проиндексирована
468 627

Заблокировано в файле robots.txt
24 963

Страница с переадресацией
14 721

Ошибка сканирования
8 005

Страница является копией. Канонический вариант не выбран пользователем.
2 905

Страница является копией. Отправленный URL не выбран в качестве канонического.
1 676

Ошибка 404
1 591

Не найдено (404)
11
Я пока на всё что ниже первой строки не обращаю должного внимания, так как основная масса именно тут.
Или такой подход не правильный и всё взаимосвязанно?
 

latteo

Эффективное использование PHP, MySQL
Регистрация
27 Фев 2008
Сообщения
1.603
Реакции
1.522
Скрытое содержимое доступно для зарегистрированных пользователей!
 

borodatych

Гуру форума
Регистрация
24 Июн 2016
Сообщения
159
Реакции
98
Сколько трафа на сайте?
От 3к до 7к в день - этого достаточно что бы взять в работу наши 10 млн подготовленных ссылок?

Еще дополню:
Так как ссылок 10млн+, то они сделаны в виде текстовых файлов по 5к ссылок в каждом.
Естественно gz-ипнуты, хотя не знаю можно ли по другому и как лучше.

sitemap выглядит так:
HTML:
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
    <sitemap>
      <loc>https://site.ru/sitemaps/offices.xml</loc>
      <lastmod>2018-11-30T11:42:52+03:00</lastmod>
   </sitemap>
   <sitemap>
      <loc>https://site.ru/sitemaps/statics.xml</loc>
      <lastmod>2018-11-30T11:42:52+03:00</lastmod>
   </sitemap>
   <sitemap>
      <loc>https://site.ru/sitemaps/sitemap1.txt.gz</loc>
      <lastmod>2018-11-30T11:42:52+03:00</lastmod>
   </sitemap>
   ...
   <sitemap>
      <loc>https://site.ru/sitemaps/sitemapN.txt.gz</loc>
      <lastmod>2018-11-30T11:42:52+03:00</lastmod>
   </sitemap>
</sitemapindex>
Если обратили внимание, отсутствует changefreq, добавить или в нашем случаем не в этом гвоздь?
Опять же как добавлять, не будет же гугл каждый месяц по 10млн записей проходить.
Если сделать год, тогда смысл, он еще старые не обработал....
 
Последнее редактирование:

borodatych

Гуру форума
Регистрация
24 Июн 2016
Сообщения
159
Реакции
98
Ой, невнимательность, тысяч, епрст
Заострился на тех своих миллионах.....
 

borodatych

Гуру форума
Регистрация
24 Июн 2016
Сообщения
159
Реакции
98
Это для гугла мало?
Потому что яша проглотил 2млн 155к таких страниц

Мысли в слух, прав ли я...

У нас в начале сайта в теге <header> идет список офисов, который показывается в модальном окне.
Точно так же сделана категория товаров.

И, как мне кажется, гугл открывает страницу, читает title, там пряники.
Потом идет дальше по страницы, натыкается на текст, который к пряникам не относится, на много текста и не индексирует страницу.
Он же видит все эти скрытые модалки и не умеет понимать что это по делу и не мешает пользователю.
Видит где title про пряники и что текст далеко от начала документа, и забивает болт на такую страницу.

Может такое быть?
 
Последнее редактирование модератором:
Сверху