Первыми, кто запатентовал систему
учета внешних ссылок стала компания Google. Алгоритм получил название PageRank.
В этой главе мы расскажем об этом алгоритме и о том, как он может влиять на
ранжирование результатов поиска.
PageRank рассчитывается для каждой
веб-страницы отдельно, и определяется PageRank’ом (цитируемостью) ссылающихся на
нее страниц. Своего рода замкнутый круг.
Главная задача заключается в
том, чтобы найти критерий, выражающий важность страницы. В случае с PageRank
таким критерием была выбрана теоретическая посещаемость страницы.
Рассмотрим модель путешествия пользователя по сети путем перехода по
ссылкам. Предполагается, что пользователь начинает просмотр сайтов с некоторой
случайно выбранной страницы. Затем по ссылкам он переходит на другие ресурсы.
При этом есть вероятность того, что посетитель покинет сайт и вновь начнет
просмотр документов со случайной страницы (в алгоритме PageRank вероятность
такого действия принята 0.15 на каждом шаге). Соответственно, с вероятностью
0.85 он продолжит путешествие, перейдя по одной из доступных на текущей странице
ссылок (все ссылки при этом равноправны). Продолжая путешествие до
бесконечности, он побывает на популярных страницах много раз, а на малоизвестных
- меньше.
Таким образом, PageRank веб-страницы определяется как
вероятность нахождения пользователя на данной веб-странице; при этом
сумма вероятностей по всем веб-страницам сети равна единице, так как
пользователь обязательно находится на какой-либо странице.
Поскольку
оперировать вероятностями не всегда удобно, то после ряда преобразований с
PageRank можно работать в виде конкретных чисел (как, например, мы привыкли
видеть его в Google ToolBar, где каждая страница имеет PageRank от 0 до 10).
Согласно описанной выше модели получаем, что: - каждая
страница в сети (даже если на нее нет внешних ссылок) изначально имеет ненулевой
PageRank (хотя и очень маленький); - каждая страница, имеющая исходящие
ссылки, передает часть своего PageRank страницам, на которые ссылается. При этом
переданный PageRank обратно пропорционален числу ссылок на странице – чем больше
ссылок, тем меньший PageRank передается по каждой; - PageRank передается
не полностью, на каждом шаге происходит затухание (та самая вероятность 15%,
когда пользователь начинает просмотр с новой, случайно выбранной, страницы).
Рассмотрим теперь, каким образом PageRank может влиять на
ранжирование результатов поиска (говорим «может», так как в чистом виде PageRank
уже давно не участвует в алгоритме Google, как это было раньше, но об этом
ниже). С влиянием PageRank все обстоит очень просто – после того как поисковая
система нашла ряд релевантных документов (используя текстовые критерии),
отсортировать их можно согласно PageRank – так как логично будет предположить,
что документ, имеющий большее число качественных внешних ссылок, содержит
наиболее ценную информацию.
Таким образом, алгоритм PageRank
"вытесняет" наверх в поиске те документы, которые и без поисковика наиболее
популярны.