Применение PageRank в поисковиках Традиционные способы нахождения релевантных страниц, в случае односложных запросов не дают удовлетворительных результатов, т.к. по популярным темам (например “рефераты”, “работа”) всегда найдётся большое число страниц с одинаковой релевантностью. Для того, чтобы как-то упорядочить такие страницы, поисковики пускаются на разные хитрости. Например выдают первыми те страницы, которые имеют большую посещаемость (Rambler) или которые присутствуют в каталоге (Yandex, Aport). В Google для этих целей применяется PageRank, что даёт потрясающие результаты, и за короткое время Google стал занимать лидирующие позиции не только по объёму базы, но и по качеству поиска. Из наших поисковиков первым PageRank стал использовать Aport, за ним Yandex. В Rambler эта технология не применяется, но на данном этапе такая возможность рассматривается, и, не исключено, что PageRank будет использоваться и в этой поисковой системе.
На ряду с упорядочиванием результатов поиска по PageRank, есть и другое применение для этой технологии. Дело в том, что число страниц в Интернете на столько велико, что поисковики уже не могут себе позволить индексировать всё подряд. А поскольку PageRank служит критерием ценности страницы, то логично проводить индексацию страниц в порядке убывания PageRank. В Google пошли даже дальше: теперь простой отправки формы для регистрации не достаточно, - для того, чтобы сайт был проиндексирован необходимо наличие хотя бы одной внешней ссылки.
Введение в PageRank
PageRank - статическая величина, предназначенная для оценки качества страниц не зависимо от каких либо запросов, т.е. с помощью PageRank вычисляется “глобальная ценность” каждой страницы. Авторы PageRank Сергей Брин и Ларри Пейдж, разработавшие технологию дополнительного ранжирования результатов выдачи поисковиков, в последствии стали основателями компании Google.
За основу PageRank был выбран академический подход оценки важности публикации автора по числу её упоминаний в библиографических ссылках других авторов. Для адаптации к применению в Интернет в алгоритм были внесены следующие изменения: вес каждой ссылки учитывается индивидуально и нормируется по числу ссылок на ссылающейся странице. Кроме того, PageRank может быть интерпретирован в терминах случайного блуждания
Вычисление Pagerank
Представьте себе идеального веб-серфера перемещающегося по всемирной
паутине. Пусть сёрфер посещает страницу p, случайное блуждание
при этом находится в состоянии p.
На каждом шаге, веб-сёрфер либо перепрыгивает на другую страницу в сети, выбранную
псевдо-случайным образом, либо он следует по ссылке на текущей странице, при
этом не возвращаясь и не посещая одну и ту же страницу дважды. Вероятность
случайного прыжка обозначим как d тогда вероятность перехода по ссылке
будет 1-d.
Таким образом, вероятность нахождения пользователя на странице p
можно вычислить по следующей формуле:
где R(p) - PageRank страницы, С(p) - число
ссылок на странице, к - число ссылающихся на p страниц, d-
коэффициент затухания (damping factor). Обычно 0.1<d<0.15. Если
масштабировать PageRank таким образом, что
где N - число всех страниц, для которых
производится расчёт PageRank, то R(p)
можно рассматривать как распределение вероятности по всем страницам.
Для вычисления PageRank составляется матрица M размером
NxN, где каждому элементу mij матрицы присваивается
значение R0(p)=1N в том случае, если с i -й страницы имеется ссылка на
j-ую, все оставшиеся элементы матрицы заполняются нулями.
Таким образом, вычисление PageRank сводится к отысканию собственного вектора
матрицы M что достигается умножением матрицы M
на вектор Rj
на каждом шагу итерации. Введение коэффициента затухания
гарантирует, что процесс сходится.
Повышаем значимость сайта
Осознав победное шествие PageRank, нельзя не задуматься об его увеличении
для своей странички. Интуитивно понятно, что чем авторитетнее ресурс, на котором
размещена ссылка тем больше она увеличивает PageRank страницы, на которую
ссылается. И наоборот, чем больше ссылок на странице, тем меньше будет её
вклад в повышение PageRank вашей страницы - ещё одно доказательство
бесполезности участия в FFA (Free For All - сайты, содержащие набор ссылок
со свободным добавлением). Менее очевидна оптимальная топология взаимоссылающихся
страниц. Например, страницы организованные в “кольцо” (когда каждая страница
ссылается на соседа слева и справа, последняя ссылается на первую, а первая на
последнюю) будут иметь один и тот же PageRank не зависимо от числа страниц в кольце
(если не проводить масштабирование по сумме, то PageRank у всех будет
равен 1). То же справедливо для <звёзд>
или случая, когда все ссылаются на всех, и, вероятно, это утверждение
справедливо вообще для всех симметричных топологий. Гораздо более перспективны
с точки зрения увеличения PageRank асимметричные
топологии. Утверждение о бесполезности создания <пустых> (но ссылающихся друг на друга)
сайтов у бесплатных хостеров не столь очевидно. Например, можно организовать обмен ссылками на 5 сайтах
таким образом, что у одного из них PageRank будет в 15
раз больше, чем минимальный не нулевой PageRank. В этом несложно убедится,
написав небольшую программку.
Некоторые распространённые заблуждения связанные с PageRank
Проанализировав сообщения в
рунетовских форумах, посвященных позиционированию в поисковых системах, можно
выделить целый ряд утверждений о PageRank, как минимум спорных, а зачастую
просто неверных. Кратко рассмотрим эти утверждения:
Если на какой-то сайт есть много ссылок с
FFA, гостевых книг или на сайтов другой тематики, то PageRank
будет занижен.
Не стоит путать понятия <индекс цитирования> и PageRank. При расчёте PageRank
анализ содержимого ни сайта ни текста ссылки не производится, учитываются
только общее число ссылок и их веса, поэтому никаких штрафных санкций при
наличии ссылок с <неправильных> страниц не применяется.
Если добиться высокого PageRank для какой-то страницы, то
эта страница будет на первом месте в результатах поиска.
Не верно, по той причине, что PageRank является не основным критерием для
ранжирования страниц, а вспомогательным. В противном случае, на первых
страницах по очень многим запросам располагались бы только рейтинги и топы.
Только при прочих равных условиях страница с более высоким PageRank
будет располагаться выше в результатах поиска.
Если зарегистрировать сайт во всех популярных каталогах, то PageRank
будет очень высоким
Не стоит обольщаться - PageRank
вычисляется не для сайта целиком, а для отдельно взятой страницы. Поэтому ссылка из глубокой поддириктории,
скажем в Yahoo, может быть менее ценна чем страница Васи Пупкина. Так что, тут можно
взять не качеством ссылок, а их количеством. Надо только обращать внимание на то,
чтобы ссылки из каталога шли напрямую на ваш сайт, а не через cgi-скрипт,
иначе они просто не будут учитываться. Кроме того, правила многих каталогах
требуют размещения корневой страницы, а не того документа, PageRank которого вы
собираетесь повышать. Поэтому гораздо эффективнее можно повысить PageRank
конкретной страницы ссылкой с корневой страницы своего собственного сайта.
PageRank уменьшается при проставлении внешних ссылок
Весьма спорное утверждение, как говорилось выше PageRank
понижается в случае симметричного
объединения ссылающихся страниц, вероятность получить которое при проставлении
внешней ссылки ничтожно мала. Если такую фобию в себе не перебороть, то можно
дать совет завести специальную страницу для обмена ссылками. Кстати, стоит
заметить, что при расчёте PageRank никто не обещал разделять ссылки на внешние и внутренние.