Разоблачение: cекретная формула Google
Успех или неудача веб-сайтов зависят от небольшого алгоритма — PageRank от Google. В этой статье мы расскажем, как он функционирует.
Начнем с прописных истин: Интернет огромен, а веб-страницы, наоборот, малы. Многие из них предлагают похожий контент. При этом отдельному сайту очень трудно подняться над этой массой. Пользователь сможет найти его только в том случае, если запустит поиск Google и страница появится в самом верху списка. Правил Интернета отличаются жесткостью и напоминают о дарвиновской борьбе за выживание — это правила Google.
Однако если существуют сотни похожих страниц, то какая из них окажется наверху, а какая будет загнана в конец списка? Ответ на этот вопрос основатели Google Ларри Пейдж и Сергей Брин заложили в формулу алгоритма PageRank. Тот, кто использует его, может сделать свое присутствие в Интернете заметным. Тот, кто пренебрегает им, будет наказан. Однако как же работает PageRank, и в каком случае веб-страница попадает в верхнюю часть списка?
PageRank: как работает формула
PageRank возник из простого и гениального логического рассуждения.
1 Для каждой веб-страницы найдется определенное количество страниц, которые дают на нее гиперссылку.
2 Каждая из этих веб-страниц, в свою очередь, тоже имеет PageRank.
3 Ссылка со страницы B на страницу A, как при голосовании, может считаться одним голосом, отданным B за A.
4 PageRank страницы B придает голосу, отданному за A, дополнительный вес. Следовательно, чем выше PageRank страницы B, тем лучше.
5 В качестве дальнейшего фактора рассматривается общее число ссылок, которые находятся на странице B. Чем меньше число ссылок на странице B, тем лучше это для PageRank страницы A. Важно следующее: PageRank рассчитывается не для какого-то вебпродукта, а каждой отдельной страницы. Поэтому может случиться так, что определенный документ на вебсервере будет иметь более высокий PageRank, чем домашняя страница, к которой он принадлежит. В виде формулы вся игра вокруг PageRank выглядит следующим образом:
PR(A) = (1-d) + d (PR(T1)/C(T1) + ... +PR(Tn)/C(Tn))
Это читается так: PageRank страницы A складывается из PageRank страниц T1…Tn, разделенных соответственно на количество ссылок на этих страницах.
При этом следует еще учесть коэффициент затухания. Принцип PageRank легко объяснить, если предположить, что весь Интернет состоит всего из четырех страниц.
Итак, даны страницы A, B, C и D. Каждая имеет исходный вес PageRank, равный 1. Значения, взятые вместе, соответствуют всей условной сети из четырех страниц. Для первого примера будем исходить из того, что каждая из страниц B, C и D демонстрирует одну ссылку на страницу A и помимо этого никаких других ссылок нет.
Если пока пренебречь некоторыми другими факторами, влияющими на PageRank, получается такая формула:
PR(A) = 1/1 + 1/1 + 1/1
Она дает значение PageRank для A, которое равно 3.
Теперь представим себе следующую, более сложную ситуацию: страница A имеет ссылки на B и C; B — только на A; C указывает на A, B и D; D — только на B. Тогда формула для A будет выглядеть так:
PR(A) = 1/1 + 1/3
Ссылка, размещенная на странице B, дает 1, от C мы получаем только 0,33, поскольку она имеет сразу три ссылки.
В результате получатся 1,33. Формула для B будет иметь следующий вид:
PR (B) = 1/2 + 1/3 + 1/1
После округления получаем 1,83. Значение для C рассчитывается так:
PR (C) = 1/2
То есть 0,5. В конце концов, D имеет:
PR (D) = 1/3
Или в округленном виде 0,33. В сумме мы вновь получаем общее
число всех страниц:
1,33 + 1,83 + 0,5 + 0,33 = 3,99
Оно меньше исходного значения на 0,01 из-за округления. В этом вычислении не хватает еще кое-чего:
в результат не включен PageRank каждой страницы. Возьмем еще раз пример с веб-страницей B. Если ввести в него показатели PageRank, полученные во время выполнения шага 1, то вместо формулы
PR (B) = 1/2 + 1/3 + 1/1
получается:
PR (B) = 1,33/2 + 0,5/3 + 0,33/1
Округленный результат равен 1,62. Конечно, новое вычисление значения PageRank для B изменит рейтинги PageRank для страниц A, C и D. А новое значение D, в свою очередь, изменит значение B. Поэтому Google приближается к PageRank итеративно, то есть ступенчато: поисковая система применяет результаты предыдущего прохода для вычисления следующего шага итерации. По данным Пейджа и Брина, достаточно 100 итерационных проходов, чтобы получить PageRank миллиардов сохраненных страниц.
Коэффициент затухания: с учетом пользователя
Согласно теории Google, PageRank выражает вероятность, с которой интернетпользователь после перехода по случайной ссылке может попасть на нужную страницу. Но поскольку следует исходить из того, что пользователь делает конечное число переходов, в формулу был введен коэффициент затухания. Он симулирует ситуацию, в которой пользователю надоедает ходить по ссылкам. Это затухание вычисляется с учетом голосов на каждую ссылку страницы.
В описании своего алгоритма еще на заре становления Google Сергей Брин и Ларри Пейдж использовали коэффициент затухания 0,85. Можно, следовательно, предположить, что коэффициент при сегодняшних расчетах Google близок к этому значению. В программах, предназначенных для расчета PageRank, можно увидеть значения от 0 до 10. Но это всего лишь индекс, настоящее значение PageRank высчитывается по-другому. Доподлинно неизвестно, какими числами оперирует система, но есть мнение, что значения для страниц имеют число в пределах единицы — то есть от 0 до 1. Получаются маленькие десятичные дроби, отражающие PageRank веб-страниц.
Кстати сказать, эксперты пришли еще к одному любопытному наблюдению:
чем выше значение PageRank, тем сложнее его улучшить. Google использует логарифмическую шкалу, поэтому преодолеть рубеж PageRank между 2 и 3 гораздо легче, чем между 9 и максимальной отметкой 10. Стоит отметить, что для подавляющего большинства сайтов значения PageRank ограничиваются цифрой 5, далее продвигаются только тысячи сайтов, а значения 10 удостоены единицы.
Фильтры: PageRank и его маленькие помощники
Используя свою формулу PageRank, Google индексировала Сеть с огромным успехом. Но триумф вызвал появление паразитов: владельцы веб-сайтов быстро поняли принцип работы механизма и стали искусственно продвигать свои страницы. Это привело к тому, что Google начала изобретать новые методы для защиты от таких хитрецов, а PageRank со временем превратился лишь в один из факторов, влияющих на положение веб-страниц в результатах поиска Google. Тем не менее PageRank часто используют как своего рода валюту: «Если ты дашь мне две ссылки со страниц с PageRank 4, я дам тебе одну ссылку со страницы с PageRank 5». Все это довольно наивно: простой обмен ссылками ничего не дает, тем более если сайты не связаны одной тематикой. Однако PageRank — лишь вершина айсберга. В системе имеются десятки фильтров, а также различные методы оценки сайтов и результатов поиска.
SEO: поисковая оптимизация
Девиз поисковой оптимизации гласит: «Давай хороший код и хорошее, желательно уникальное, содержание». Тот, кто запомнит это правило, имеет
реальные шансы попасть со своим сайтом на верхние места списков.
Под «хорошим кодом» подразумеваются два свойства HTML-кода вебстраницы. Во-первых, он должен быть качественным в отношении синтаксиса, во-вторых, в нем следует употре***ть определенные HTML-элементы. Важными для Google являются прежде всего теги <title>, <p>,<strong>, а также теги заголовков <h1>…<h6>. В <title> содержится краткое описание документа. Этот тег необходимо заполнить правильно, разместив в нем только важную информацию. С помощью <p> форматируются абзацы, <strong> позволяет выделить текст жирным, а внутри тегов <h1>...<h6> следует писать заголовки, причем лучше если они будут повторять ключевые слова, по которым продвигается сайт. Важно использовать заголовок <h1> только один раз, а остальные, например <h2> или <h3>, чаще. Еще одной важной предпосылкой оптимизации результатов поиска является терпение. Владельцы некоторых сайтов с умом размещают ссылки, постепенно повышая PageRank, а вместе с тем и популярность страниц.
Тюнинг: Link building
Терпение дано не каждому. Но есть еще одно полезное средство — оставлять ссылки на свою страницу в блогах и на форумах. Однако ссылки в комментариях блогов, как правило, автоматически сопровождаются параметром rel=«nofollow». Это означает, что Google не следует по этой ссылке и не считает ее голосом при вычислении PageRank. В появлении такого правила виноваты спамеры, которые используют ботпрограммы, заполняющие блоги и форумы бессмысленными текстами и многочисленными ссылками.
Link tracking: голосование
с помощью кликов Поисковый гигант Google не стал бы гигантом, если бы не занимался оценкой поведения пользователей. Анализируя щелчки по ссылкам, можно выявить популярные результаты поиска. Но количество кликов вряд ли внесет изменения в ранжирование сайтов, однако и такую возможность нельзя исключать. При этом следует помнить, что единственный действенный способ получить большое число кликов состоит в том, чтобы дать своему ресурсу хорошее название и описание.
Google выбирает в качестве заголовка содержимое тега <title>. А для краткого описания сайта, который Google отображает под ссылкой, следует использовать HTML-метатег, где программист вводит краткое описание документа. Оно может содержать всю важнейшую информацию страницы и привлечь читателя.
<meta name=“description“ content=“CHIP — лучший журнал о компьютерах“ />
Если у страницы нет такой «выжимки», Google выбирает фрагмент текста и использует его в качестве описания.
Black Hat SEO: как обмануть Google
У каждой системы или программы есть слабые места — даже у Google. С тех пор как поисковые системы стали предлагать пользователям веб-сайты, «черные овцы» пытаются всеми способами повлиять на результаты поиска. Это стало причиной долгой борьбы между спамерами и владельцами поисковых систем.
«Черные овцы», так называемые Black Hat SEO, используют упомянутые лазейки в своих целях. Основные методы спамеров — это Content Spam и Link Spam. Оба варианта привлекают пользователя на сайт, который занимает в рейтинге Google очень высокое место. Поскольку на таких ресурсах рекламные объявления представляют собой единственный осмысленный элемент содержания, посетитель кликает по ссылке — и это приносит спамерам деньги. Существует несколько разновидностей Content Spam. Самый простой способ — заполнить текст повторяющимися ключевыми словами. Правда, этот метод, называемый Keyword Stuffing, уже не оказывает такого действия, как прежде, когда поисковые системы просто подсчитывали частоту появления тех или иных ключевых слов. С тех пор Google и другие компании приняли против него серьезные меры (
Для просмотра ссылки Войди или Зарегистрируйся).
«Противоядие» заключается в соотнесении числа ключевых слов в тексте с его общим объемом (Keyword Density). Начиная с определенного процента текст может быть расценен как спам.
Еще одна попытка обмана, с которой Google тоже пришлось столкнуться, — это скрытый текст. Спамеры пишут белый текст на белом фоне — читатель такой страницы ничего не заподозрит, но поисковой системе подсовывают сотни или даже тысячи ключевых слов. Скрытый текст с некоторых пор распознается поисковиками.
Часто встречается Scraping («снятие сливок»), при котором используют содержание чужих сайтов, чтобы обозначить свое присутствие в Интернете. Спамеры применяют этот метод в отношении службы Google Adsense, чтобы заработать деньги с помощью объявлений. Scraping вредит прежде всего сайтам, которые содержат оригинальные тексты. При определенных обстоятельствах Scrape-страница может получить более высокий рейтинг, чем оригинальный сайт. Но и с этой бедой антиспамовая команда Google научилась бороться.
Link spamming: мусор в блогах
Держателям блогов и форумов приходится иметь дело с еще одни методом «черной» оптимизации — Link Spamming. Поскольку генераторы ссылок (Link Farm) не работают так хорошо, как раньше, спамеры засыпают списками ссылок блоги, форумы и веб-сайты. Преимущество же спамеров в том, что используемые ими страницы не внушают подозрений. А если Google все же примет какие-то меры против «засоренного сайта», спамерам это не помешает. Единственное средство для борьбы с этим злом — интерпретированный Google атрибут «nofollow» для тегов <anchor>. Ссылки, имеющие такое обозначение, Google игнорирует. В блогпрограмме WordPress атрибут «nofollow» включен с самого начала. Он не препятствует спаму, но делает его недейственным. Спамерам это не очень важно — они по-прежнему забивают мусором комментарии блогеров в надежде встретить онлайн-дневники, которые не применяют «nofollow».
Некоторые спамеры создают собственные блоги, с помощью которых пытаются «подсунуть» Google свой контент. В принципе это не что иное, как классический генератор ссылок. С этим Google уже давно успешно борется.
Cloaking: новая любовь спамеров
Cloak — по-русски «прикрытие». Этим словом называется технология спамеров, паразитирующих на поисковых системах. Истинное «лицо» вебстраницы при этом остается скрытым. Спамер преподносит поисковой системе совсем не то содержание, которое видит пользователь. Как только Cloaking-сайт распознает бот Google, он «скармливает» поисковой системе специально подготовленный контент. Это могут быть, к примеру, сотни предложений текста, которые в разных вариантах содержат одно или несколько ключевых слов. Если пользователь посетит такую страницу, он найдет совсем другое содержание, рассчитанное на широкую публику и имеющее мало общего с первоначальным поисковым запросом.
По похожему принципу действует Redirect, или «перенаправление».
С помощью метатега или Java-скрипта после загрузки одной страницы производится перенаправление на другую. Поскольку Google не интерпретирует JavaScript, бот Google останавливается на первой странице и получает подставной контент, в то время как обычный читатель переадресуется к «настоящей» странице.
Duplicate Content: спам поневоле
Веб-мастер может руководствоваться самыми добрыми намерениями и, тем не менее, попасть в черный список Google. Одной из причин может быть «двойной контент», который особенно заметен на сайтах большого объема. Duplicate Content возникает по двум причинам. Во-первых, речь может действительно идти о повторе. В частности, если страница, предназначенная для браузера и печати, дважды индексируется Google. На обеих страницах — один и тот же текст. Впрочем, скорее всего, впредь Google больше не будет считать это нарушением.
Еще один путь к двойному контенту ведет через URL. Если одна и та же страница доступна под несколькими доменными именами, это может быть принято за нарушение — как и разные пути файлов, которые имеют одно и то же назначение. Когда статья доступна на
Для просмотра ссылки Войди или Зарегистрируйся и
Для просмотра ссылки Войди или Зарегистрируйся, для Google это два разных адреса, а следовательно, и два разных документа. Но они имеют одинаковое содержание, поэтому в индексе страница будет отброшена вниз. Эту проблему можно решить с помощью обходного маневра — перенаправления. Если пользователь введет
Для просмотра ссылки Войди или Зарегистрируйся, он будет перенаправлен на
Для просмотра ссылки Войди или Зарегистрируйся. На серверах Apache такое перенаправление осуществляет модуль mod_rewrite. Необходимый код нужно внести в файл .htaccess, который должен находиться в корневом каталоге веб-сайта.
Весь механизм переадресации заключен в трех строках кода:
RewriteEngine on
RewriteCond %{HTTP_HOST} !^www\.mysite\.xy$
RewriteRule ^(.*)$ http://www.mysite.xy/$1[R=permanent]
Первая строка включает механизм перезаписи URL. После этого RewriteCond проверяет название вызванной страницы. Если ее имя не
Для просмотра ссылки Войди или Зарегистрируйся, третья строка перенаправляет все запросы на
Для просмотра ссылки Войди или Зарегистрируйся. В качестве статуса перенаправления выбрано значение «permanent». Это дает знать Google и другим поисковым системам, что новый адрес действителен постоянно. Такая переадресация, конечно, довольно сложна для владельцев веб-сайтов, но пока существуют спамеры, она не станет проще.