Гугл и 10млн "Обнаружена, не проиндексирована"

borodatych · 10 Апр 2019

Здравствуйте!

Есть 10млн+ ссылок вида: site.ru/items/brand/number
Запрос в гуглу: site:site.ru items
Показывает около 600 тысяч из десяти-то плюс миллионов!

Вычитал какое-то соотношение полезного текста к коду
На проверенных мною вот сегодня страницах, текст колеблется от 14% до 15%

Беру одну из страниц, что обнаружена и не в индексе, к примеру:
site.ru/items/brand_34/number_63

Ищу в гугле: brand_34 number_63

Открывают первых конкурентов, все ниже 2%, один даже 0.14%
Отсюда можно сделать вывод, что это не главное?!
....или Для просмотра ссылки Войди или Зарегистрируйся это не правильно делает

Связка brand+number не повторяется и контент свой по этой связке, тоже не повторяется
Подскажите куда копать?

Спасибо.

prefer · 10 Апр 2019

borodatych написал(а):
Запрос в гуглу: site:site.ru items

А какое кол-во выдает запрос site:site.ru ?

borodatych · 10 Апр 2019

prefer написал(а):
А какое кол-во выдает запрос site:site.ru ?

borodatych написал(а):
Запрос в гуглу: site:site.ru items
Показывает около 600 тысяч из десяти-то плюс миллионов!

borodatych · 10 Апр 2019

Позвольте еще чуток данных и размышлений, может тут кроется ответ, я просто не на этом специализируюсь.
Индекс доходил до 3-4 млн, мы во сне подпрыгивали и улыбались от посещения с таких страниц.

Но в один прекрасный момент, все полетело, и я начал изучать ситуацию.
Как выяснилось, на подобным страницах есть изображения, которые были запрещены в robots.txt
Не спрашивайте почему, не помню, для чего-то делал, сглупил, недоконтролил.

Есть несколько 1-2 тысяч страниц с кривым номером, и такие страницы в ошибках, но это мелочь с 10 млн нормальных.
Может это помешать гуглу индексировать, мол а зачем, вы еще ошибки не исправили?

Обнаружена, не проиндексирована
9 673 278

Страница просканирована, но пока не проиндексирована
468 627

Заблокировано в файле robots.txt
24 963

Страница с переадресацией
14 721

Ошибка сканирования
8 005

Страница является копией. Канонический вариант не выбран пользователем.
2 905

Страница является копией. Отправленный URL не выбран в качестве канонического.
1 676

Ошибка 404
1 591

Не найдено (404)
11

Я пока на всё что ниже первой строки не обращаю должного внимания, так как основная масса именно тут.
Или такой подход не правильный и всё взаимосвязанно?

latteo · 10 Апр 2019

Скрытое содержимое доступно для зарегистрированных пользователей!

borodatych · 11 Апр 2019

Anton написал(а):
Сколько трафа на сайте?

От 3к до 7к в день - этого достаточно что бы взять в работу наши 10 млн подготовленных ссылок?

Еще дополню:
Так как ссылок 10млн+, то они сделаны в виде текстовых файлов по 5к ссылок в каждом.
Естественно gz-ипнуты, хотя не знаю можно ли по другому и как лучше.

sitemap выглядит так:

HTML:

<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
    <sitemap>
      <loc>https://site.ru/sitemaps/offices.xml</loc>
      <lastmod>2018-11-30T11:42:52+03:00</lastmod>
   </sitemap>
   <sitemap>
      <loc>https://site.ru/sitemaps/statics.xml</loc>
      <lastmod>2018-11-30T11:42:52+03:00</lastmod>
   </sitemap>
   <sitemap>
      <loc>https://site.ru/sitemaps/sitemap1.txt.gz</loc>
      <lastmod>2018-11-30T11:42:52+03:00</lastmod>
   </sitemap>
   ...
   <sitemap>
      <loc>https://site.ru/sitemaps/sitemapN.txt.gz</loc>
      <lastmod>2018-11-30T11:42:52+03:00</lastmod>
   </sitemap>
</sitemapindex>

Если обратили внимание, отсутствует changefreq, добавить или в нашем случаем не в этом гвоздь?
Опять же как добавлять, не будет же гугл каждый месяц по 10млн записей проходить.
Если сделать год, тогда смысл, он еще старые не обработал....

borodatych · 11 Апр 2019

Ой, невнимательность, тысяч, епрст
Заострился на тех своих миллионах.....

borodatych · 11 Апр 2019

Это для гугла мало?
Потому что яша проглотил 2млн 155к таких страниц

Мысли в слух, прав ли я...

У нас в начале сайта в теге <header> идет список офисов, который показывается в модальном окне.
Точно так же сделана категория товаров.

И, как мне кажется, гугл открывает страницу, читает title, там пряники.
Потом идет дальше по страницы, натыкается на текст, который к пряникам не относится, на много текста и не индексирует страницу.
Он же видит все эти скрытые модалки и не умеет понимать что это по делу и не мешает пользователю.
Видит где title про пряники и что текст далеко от начала документа, и забивает болт на такую страницу.

Может такое быть?

Гугл и 10млн "Обнаружена, не проиндексирована"

borodatych

Постоялец

prefer

Постоялец

borodatych

Постоялец

borodatych

Постоялец

latteo

Эффективное использование PHP, MySQL

borodatych

Постоялец

borodatych

Постоялец

borodatych

Постоялец