Forum

Анализ и значение алгоритма Hilltop: Его влияние на ранжиров

Дата: Среда, 24.Дек.2008, 11:54 | Сообщение # 1

Admin

Сообщений: 554

« 3 »

Статус:

Анализ и значение алгоритма Hilltop: Его влияние на ранжирование вашего сайта

Почему потребовался новый алгоритм?

"По мере того, как ведуться Войны Поисковиков между Google, MSN и Yahoo, мы не только станем свидетелями все сметающих изменений алгоритмов, но также и новых измерений в технологиях и взаимодействиях с Поисковой машиной".

В то время, как алгоритм PR (page rank) неплохо справлялся все эти годы, все же в системе PR существует существенный недостаток, и Google знал об этом. Система PR определяет абсолютную «степень ценности» web-страницы, основываясь на количестве и качестве сайтов, ссылающихся на нее.

Тем не менее, «PR ценность» не специфична для поисковых терминов и поэтому, высокий PR страницы, содержащей упоминание off-топиковой ключевой фразы, часто обеспечивал высокое ранжирование по этой фразе. Krishna Bharat из Калифорнии осознавая недостаток этой, основывающейся на PR, ранжирующей системе, выступил в 1999-2000 гг. с алгоритмом, который назвал «Hilltop». Он оформил патент Hilltop в январе 2001г. в соавторстве с Google. Нет нужды говорить о том, что Google понял достоинства, приобретаемые с этим новым алгоритмом для своей системы ранжирования, присоединив его к собсвенной системе PR.

Hilltop мог прекрасно восполнить имеющийся пробел. Алгоритм Hilltop перед данным применением, возможно, подвергся нескольким очисткам.
Что же такое алгоритм Hilltop?

Вот, вам простое объяснение:

По своей сути, PR определяет «авторитетность» web-страницы в общем. Hilltop (он же LocalScore - “местный счет”) определяет «авторитетность» web-страницы по отношению к данному запросу или поисковому термину.
Bharat формулирует, что вместо использования просто «PR ценности» для нахождения «авторитетных» web-страниц, более важным будет, если «ценность» обладает тематической релевантностью. Исходя из этого, более полезно подсчитывать ссылки от «тематически релевантных» документов на данную страницу. Он называл эти «тематически релевантные» документы «экспертными документами», а ссылки от таких экспертных документов на целевые документы определяли как «показатель авторитетности» последних.
Алгоритм Hilltop вычисляет «показатель авторитетности» web-страниц (слишком упрощенно выражаясь) следующим образом:

Запустите обычный поиск по ключевой фразе для определения экспертных документов. Определяющие правила для «экспертных документов» жестки, поэтому «тело» - это вполне определенное, поддающееся управлению количество web-страниц.

Отфильтруйте "дочерние" (affiliate*) сайты и cкопируйте сайты из списка экспертных.

Страницы определены по местному показателю (LocalScore) «авторитетности», основанному на количестве и качестве голосов, получаемых от экспертных документов. Затем страницы ранжируются в соответствии с их LocalScore.
Как Hilltop определяет дочерние (affiliate) сайты?

*Affiliate-сайты определяются следующим образом:

* Страницы, происходящие из того же самого домена ((www.ibm.com, www.ibm.com/us/, products.ibm.com, solutions.ibm.com и т.д;

* Страницы, происходящие из тех же доменов, но различных уровней и вторичных суффиксов (например www.ibm.com, www.ibm.co.uk, www.ibm.co.jp и т.д.);

* Страницы, происходящие из соседних IP (первые 3 общие восемь цифр из номера IP, например: 66.165.238.xxx - общие);

* Страницы, происходящие из самих дочерних сайтов (если www.abc.com хостирован на том же самом cокете IP, что и www.ibm.com, тогда www.abc.com является дочерним по отношению к www.ibm.co.uk даже, если они на разных IP адресах).

Необходимо заметить, что алгоритм Hilltop строит свои подсчеты только на «экспертных документах». Его алгоритм требует нахождения по крайней мере двух экспертных документов, голосующих за страницу. Если алгоритм не находит минимум двух экспертных документов, результаты поиска будут нулевые. Это, собственно, означает, что алгоритм Hilltop не смог придать какой-либо ценности дальнейшему ранжированию и, поэтому становится неэффективным по данному поисковому термину.

Это очень важный аспект алгоритма Hilltop – он неэффективен в случае не нахождения экспертных документов.

Эта уникальная черта алгоритма Hilltop, имеющая большую вероятность выдачи «нулевого» результата по высокоспецифичному термину запроса, привела большинство SEO сообщества к уверенности в том, что Google использует фильтр-список «денежных слов». На самом деле, результаты «старого Google» показывались по специфическим поисковым терминам там, где Hilltop не справлялся. Коллекция таких терминов и была тем, что собирало SEO сообщество и называло ее «Списком Денежных Слов» (‘Money Words List’).

Этот эффект также выступает сильным доводом в пользу употребления Hilltop Googl-ом. Когда 15 января 2003 г. Google внедрил этот новый алгоритм, один аналитик заметил, что если вы подаете термин запроса с некоторыми «эксклюзивными мусорными» знаками, то Google показывал исходные (до изменения алгоритма) результаты, обходя фильтровальный список так называемых «денежных слов».

Например, если вы ищете “real estate –hgfhjfgjhgjg –kjhkhkjhkjhk”, тогда Google попытается показать вам страницы по “real estate”(недвижимость), но исключая те, которые содержат термины “hgfhjfgjhgjg” и “kjhkhkjhkjhk”.
Поскольку легко понять, что вряд ли встретится страница, содержащая слова “hgfhjfgjhgjg” and “kjhkhkjhkjhk”, Google возвратит те же результаты, что и по термину ‘real estate’. Тем не менее, так не происходило.

Google показывал результаты, которые, казалось, были идентичными ранжированию до изменения алгоритма. В конце концов, группа анти-Google основала сайт (www.scroogle.org) для блокировки изменений в ранжировании, убирая фильтр-список так называемых «денежных слов».
Какова же настоящая история, стоявшая за фильтр-списком так называемых «денежных слов»?

Мы считаем, что эффект фильтр-списка «денежных слов» был всего лишь эффектом «промашки» алгоритма Hilltop. Всякий раз, когда кто-то пытался запустить поисковый термин вроде “real estate –hgfhjfgjhgjg –kjhkhkjhkjhk”, Google передавал весь поиск Hilltop. Поскольку Hilltop был неспособен определить удовлетворяющие «экспертные» документы, содержащие данный «смешно выглядевший» поисковый термин, то выдавался нулевой результат. (нуль эффект чтения). Это явственно значит, что Hilltop попросту «шунтировал» эксклюзивный поисковый термин. Прочей части алгоритма Google оставалось извлечь и предоставить результаты, которые вероятно выглядели идентичными с результатами до внедрения алгоритма.

Растущая популярность www.scroogle.org привела Google к определению этого бага. Google обезвредил баг, разделив алгоритм Hilltop на 2-х ступенчатый процесс. Необычные (эксклюзивные) термины изымаются при передаче запроса на Hilltop; Hilltop делает свою работу, извлекает результаты и передает их алгоритму Google. Google исключает термины лишь перед тем, как показать результаты. Просто. Эксклюзивные термины больше не передаются на Hilltop, и теперь Hilltop работает превосходно. Как вы можете видеть на сайте Google, вышеуказанный метод удаления больше не показывает результаты «старого Google».
Как выглядит новый алгоритм Google? Что нового?

Соединение алгоритма Hilltop, Google-PR и факторов релевантности on-page, казалось бы, комбинация высокой мощности, которую очень трудно победить. Не невозможно, но очень трудно. Такая новая комбинация имеет далеко простирающиеся зависимости того, как link-popularity/PageRank (популярность ссылок и ранг страницы) и ссылки с Expert Documents (LocalScore) (экспертные документы; местный счет) будут нарушать ранжирование вашего сайта. Точный алгоритм Google известен только Google. Это строго охраняемый секрет. Я не хорош в математике (Хотелось бы мне!), но вот попытка упростить новый алгоритм Google для того, чтобы понять, что же он из себя представляет:

Старая формула ранжирования Google = {(1-d)+a (RS)} * {(1-e)+b (PR * fb)}

Новая формула ранжирования Google = {(1-d)+a (RS)} * {(1-e)+b (PR * fb)} * {(1-f)+c (LS)}

Где:

RS = RelevanceScore: Показатель релевантности (Показатель, основанный на ключевых словах, появляющихся в Заголовке, Meta tags, Подзаголовках, Теле текста, URL, Alt text, Атрибутах заголовка, якорном тексте и т.д. вашего сайта)

PR = PageRank: Ранг страницы(Показатель, основанный на количестве и PR значении страниц, ссылающихся на ваш сайт. Исходная формула PR (A) = (1-d) + d (PR (t1)/C (t1) + ... + PR (tn)/C (tn)), где PR страницы ‘A’ это сумма PR каждой страницы, ссылающейся на нее, поделенная на количество исходящих ссылок на каждой из этих страниц. ‘d’ это фактор амортизации (dampening factor), считающийся равным 0.15)

LS = LocalScore: Местный счет (локальный показатель)(Показатель, вычисленный из экспертных документов. Вариабелен и имеет различные значения в отношении поискового термина, появляющегося в заголовке (16), подзаголовке (6), якорном тексте (1), частоте поискового термина и т.д. Цифры в скобках – оригинальные величины, которые могут меняться Google).

a, b, c = Tweak Weight Controls: Тонкая подстройка веса (имеющаяся у Google для тонкой подстройки результатов)

d, e, f = Dampener Controls: Демпфирующий контроль(имеющийся у Google для тонкой подстройки результатов. Мы полагаем, что обычно величина ‘f’ установлена на ноль).

fb = FactorBase: Фактор базы (Шкала PageRank от 1 до 10 на Google bar не линейная, но экспотенциально/логарифмическая. В соответствии с нашими внутренними исследованиями, мы считаем, что эта база «близка» к 8. Это означает, что PR5 в 8 раз больше по значению, чем PR4. Таким образом, веб-сайт PR8 имеет ценность в 4000 раз больше, чем веб-сайт PR4. Этот фактор каким-то образом должен быть встроен в формулу алгоритма. Поэтому мы взяли величину fb для аккомодации данного фактора).
Заслуги нового алгоритма Google

Поисковики всегда немного варьировали степень достоверности своего алгоритма ранжирования в зависимости от факторов, расположенных на самой на странице. Большинство поисковиков роняли свои оценивающие факторы перед злоупотреблениями (превышающими силами), такими, как ключевое слово в длинном конце Мета тега. Факторы 'on-page' дают web-мастерам слишком много власти для злоупотреблений. Видимые части web-страниц менее склонны к спаму, так как им требуется нести больше смысла посетителям.

Тем не менее, в течении некоторого времени, даже эти факторы были субъектами злоупотреблений путем представления суб-стандартного, чрезмерно-оптимизированного, либо даже прикрытого содержимого поисковым машинам.
В чем заключается новое распределение веса ранжирования?

Если вы заметите в приведенной выше формуле, Google несколько уменьшил вес факторов находящихся непосредственно на самой странице. Единственная переменная "on-page" в формуле - это ‘RelevanceScore’
Наш анализ формулы и поведение Google показывает, что общий вес распредилился на три составляющие (RSгруппа, PR группа и LSгруппа) следующим образом:

RelevanceScore(показатель релевантности) = 20%, PageRank = 40%, LocalScore = 40%

Где:

RS выражение всех попыток SEO

PR выражение попыток построения ссылок Link-building

LS выражение ссылок от экспертных документов

С таким осуществлением Google поднял значимую важность вне-страничных факторов, забирая контроль над ранжированием у web-мастеров. Как вы видите, от ваших попыток SEO явно мало пользы. Если обычный эксперт SEO способен уравнять10% этого веса, а супер эксперт SEO - 18%, общая разница в ранжировании между средним SEO и великим SEO всего лишь около 8%. Новость: правила SEO и ранжирования просто изменились!!!
Работает ли Hilltop в реальном времени?

Обычно Google проводит свою службу через 10 000 Pentium серверов, расположенных в сети. Вот, как они выстраивают свою серверную архитектуру. Если мы изучаем алгоритм Hilltop, то трудно поверить, что такие Pentium серверы обладают достаточной процессорной силой для нахождения «экспертных документов» из тысяч тематических, для оценки LocalScore целевых страниц из всех этих документов и передачи данных другим компонентам алгоритма Google, который далее обрабатывает результаты, все на лету, всего лишь за около 0.07 секунд – скорость Google весьма знаменательна.
Так как же и когда Hilltop успевает? Мы считаем, что Google ведет групповую обработку популярных поисковых терминов (так называемый «список денежных ключевых слов») и сохраняет результаты, готовыми к употреблению. Google имеет обширную базу данных популярных поисковых терминов в своей базе, собранную при обычных поисках, так же, как и ключевые фразы, используемые в программе AdWords. Возможно, Google установил ценностный порог по количеству поисков определенной фразы, прежде чем она будет достойной попасть в пул Hilltop для групповой обработки. Hilltop прогоняет общий пул популярных поисковых терминов, возможно, раз в месяц. Дифференциально меньшая по размеру групповая обработка может проводиться более часто по поисковым терминам, набирающим популярность и отбираемыми для попадания в пул Hilltop. Результаты для основного пула могут быть синхронизированы с 10 000 серверами раз в месяц, а меньшие группы могут уточняться и более часто.

Поисковые термины, которые не подходят к алгоритму Hilltop, продолжают вам показывать старые результаты Google. Множество SEO счастливы и утверждают, что их списки по некоторым сайтам клиентов не падают. Они, наверное, проверяют по высоко специфическим поисковым терминам, которые еще не отквалифицированы, чтобы быть на виду Hilltop.

Google получил патент в феврале 2003 года. Почему внедрение заняло так много времени?

Тестирование, тестирование, тестирование! Пробы на совместимость, снова тестирование, оценки результатов, окончательная отладка и последующие тесты. Наверное, не так то просто было внедрить это чертово изменение. Алгоритм должен был работать безукоризненно совместно с существующими компонентами PR и алгоритмом подсчета релевантности RelevanceScore Google. Я полагаю, все это заняло время.
Существуют ли в новом алгоритме Google какие-либо недостатки?

При продолжении нашего исследования, мы ожидаем обнаружить некоторые баги и несостыковки. Вот некоторые, которые, как мы считаем, могут навредить Google и его пользователям:

1. Hilltop основывается на предположении, что каждый «экспертный документ», который он находит, будет беспристрастен, свободен от спама и манипуляций. Мы чувствуем, что это может быть не так. Даже если малый процент экспертных документов контаминирован, подсчеты увеличат ошибку, что приведет к значительному количеству «ложно положительных» ответов в верху ранжирования.

2. Hilltop старается выбирать страниц, за которых проголосуют, как за «авторитетные». Но нет гарантии, что эти страницы также будут «качественные».

3. Мы считаем, что поскольку для функционирования Hilltop требуется значительная процессорная мощь, он (возможно) будет обрабатывать группу популярных терминов с месячной частотой. Это спарено с тем фактом, что существенный вес в алгоритме Google занимает часть “Hilltop”. Мы можем ожидать появление сайтов, продолжающих ранжироваться без флюктуаций до следующего цикла обработки. Поскольку голосующие шаблоны «экспертных» страниц, скорее всего, не будут колебаться, мы можем наблюдать «замершее» ранжирование через определенные периоды. Это может гладить против шерсти поисковики, от которых также ожидается включение «нового, хорошего» содержания в результат поиска. Оставим «авторитетные» страницы. Люди тоже желают видеть свежее содержание, которое будет теперь видно лишь по менее конкурентным или уникальным поисковым терминам, где Hilltop-у не справиться.

4. Новые сайты обнаружат невероятные сложности с ранжированием, равно и при популярных поисковых терминах. Кажется, Google создал более высокий барьер для новых сайтов или нового содержания для ранжирования с очень популярными поисковыми терминами.

5. Поскольку большинство коммерческих сайтов весьма легко ссылаются на директории, торговые ассоциации, правительственные сайты торговых властей, образовательные учреждения, не прибыльные организации, то такие сайты заполонят первую десятку по ранжированию на страницах результатов, еще в большей мере.
Кто пострадает в ближайшее время?

* Дочерние сайты/доменные кластеры/MLM программы, осуществляющиеся на тех же серверах;

* Сайты, глубоко надеющиеся на факторы оптимизации ‘on-page’;

* Сайты, надеющиеся на высококонкурентные поисковые термины для получения трафика;

Рекомендации владельцам сайтов

Им требуется думать шире своих пределов и уделить серьезное внимание улучшению PageRank и ссылок от «экспертных документов», отнесясь к этому, как своего рода компаниям по промоушену. Правила ранжирования существенно изменились.

- Регистрируйтесь как можно в большем количестве директорий (DMOZ, Yahoo, About, LookSmart и т.д.), в торговых директориях, желтых страницах, ассоциациях, ресурсных страницах, на страницах высоко классифицирующихся отделов и т.д.

- Избегайте поддоменов или измените их природу.

- Избегайте ссылок с подозрительных FFA сайтов и ссылочных ферм.

Популярный миф:

Чрезмерная оптимизация сейчас наказуема: Чрезмерная оптимизация (спам) всегда либо не принималась во внимание, либо наказывалась. Текущее влияние на потерю ранжирования определяется благодаря сдвигу веса от на-страничных факторов в сторону за-страничных. Хорошая оптимизация сайта будет продолжать поддерживать ранжирование пропорционально своей доле в алгоритме.

Построение ссылок не является важным: Построение ссылочной популярности так же важно, как и прежде. Сейчас, даже более важно. Алгоритм PR продолжает набирать значение.

Google использует список-фильтр «денежных слов»: Как вы видите из вышеперечисленных аргументов, Google не использует никакого списка-фильтра для наказания коммерческих сайтов. Результаты представляют просто «кажущееся» указание таких симптомов. Также Google не применяет этот алгоритм для пропихивания своей AdWords или построения основы для грядущей IPO.

Упоминание в DMOZ, директории Google, коммерческих директориях дает Google ключ к тому, что ваш сайт коммерческий и поэтому наказывает его: Наоборот: поскольку большинство этих директорий определяются, как «экспертные документы», ссылки от этих сайтов весьма ценны.

Заработок для веб-мастеров