Forum

Обзор трех основных поисковых систем Рунета: ч. 2

Дата: Среда, 24.Дек.2008, 12:30 | Сообщение # 1

Admin

Сообщений: 554

« 3 »

Статус:

Сравнение качества поиска

Поисковая машина характеризуется двумя важнейшими параметрами: точностью и полнотой (полнота есть отношение количества найденных релевантных документов к полному количеству релевантных документов в базе данных).

Пример. Пусть по запросу найдено 50 документов. После просмотра их всех пользователь принимает решение, что 30 документов релевантны запросу, а 20 нерелевантны. Сплошной просмотр всей базы данных показывает, что в ней содержится 100 документов, релевантных запросу. Отсюда получаем, что полнота 30/100 = 0,3; точность 30/50 = 0,6. Как правило, улучшая один из названных параметров, ухудшаешь другой.

Используется также такая обобщенная характеристика, как техническая эффективность поисковых машин, включающая скорость поиска по запросу, объем базы, удобство представления результатов, скорость индексирования информации и так далее. Но особое место среди этих параметров занимают показатели качества поиска - в этом сходятся мнения всех создателей поисковых машин.

Отечественная компьютерная пресса, которая так любит устраивать тестирование лингвистических программ (например, систем оптического распознавания), пока ни разу не организовала ни одного тестирования отечественных поисковиков (в отличие от ZDnet). Научные тестирования поисковиков также представляются недостаточно объективными, так как используют, к примеру, всего четыре типа запросов (без учета реальной частоты этих запросов на некоторую поисковую машину). Поэтому остановимся на исследованиях для оценки точности по методике Н. Харина. Она используется во время периодических внутрифирменных тестирований поисковых машин в "Рамблере" группой приглашенных экспертов-лингвистов (обычно, в течение двух недель каждое). Можно считать это тестирование независимым, так как его результат не используется заказчиком в маркетинговых целях. Исследования проводились путем оценки результатов поиска различных поисковиков по одним и тем же 100 популярным запросам, состоящим из одного, двух, трех и четырех слов. Важным условием всех исследований были четкие формулировки, какие именно документы считать релевантными смыслу каждого из запросов (без этого были бы получены сильно завышенные оценки технической эффективности). Часто встречающиеся запросы, содержащие ненормативную лексику, не учитывались.
Результаты иследований представлены ниже. Значения годичной давности оставлены, чтобы показать изменения эффективности при переходе "Яндекса" на более совершенную версию поисковой машины в июне 2000 года и изменение точности "Рамблера", вследствие того, что с ноября 2000 года некоторые нововведения стали последовательно внедряться в старый движок.
Результаты для "Апорта", по словам его создателя Евгения Киреева, качественно похожи на правду, потому что за прошедший год ничего в технологиях повышения релевантности в этой системе не менялось, так как, по его мнению, ничего уже и невозможно принципиально изменить. По его словам, команда "Апорта" спокойно ждет, пока "Яндекс" и "Рамблер" подтянутся до такого же уровня, и это будет уровнем развития отрасли. Фактически, результаты последнего исследования от 24 мая 2001 года, проведенные на следующий день после представления новой версии "Яндекса", показывают, что с нынешнего лета уровень отрасли определяется им.

Сравнение релевантности поисковых систем

Период "Апорт" "Рамблер" "Яндекс" Google
02.2000 0,959 0,643 0,845 -
11.2000 0,992 0,903 0,960 -
12.2000 0,992 0,922 0,960 -
03.2001 0,992 0,956 0,960 -
05.2001 0,992 0,957 0,998 0,992

Заинтересованным лицам - еще несколько абзацев о методике исследований (остальные могут перейти к следующей главе).

Тестировалось качество ранжирования с определением точности при 10, 30, 50, 70 и 100 документах из начальной части списка и с учетом градации значений точности (точность при 30 документах важнее точности при 300 документах, иными словами, основной интерес представляет зависимость между полнотой и точностью в области малых значений полноты).

Известно, что отношение суммарной частоты всех запросов, состоящих из одного слова, к суммарной частоте всех запросов равно примерно 0,5. Поэтому отбиралось 50 однословных запросов с максимальной частотой. Отношение суммарной частоты запросов из двух слов к суммарной частоте всех запросов равно 0,3. Поэтому отбиралось 30 двухсловных запросов с максимальной частотой. Дальше действуем аналогичным образом.

По каждому запросу проводился поиск во всех сравниваемых поисковых машинах. Решение о релевантности или нерелевантности документа принимается после просмотра его полного текста, а не аннотации, выдаваемой в результатах поиска по запросу.
На основе полученных оценок релевантности применительно к каждой машине формируется характеристическое множество запроса - значения точности, полученные при разном количестве документов из начальной части списка найденных документов.

Пример. Характеристическое множество содержит 5 элементов - значения точности при 10, 30, 50, 70, 100 документах из начальной части списка найденных документов. При такой структуре характеристического множества эксперт должен принять решение о релевантности первых 100 из найденных документов.
Предположим, что для одной из сравниваемых поисковых машин число документов - 10, из них релевантных 8, точность 8/10, первый член характеристического множества запроса - 0,8. Релевантность поиска по запросу вычисляется с учетом весовых коэффициентов. Задан следующий набор весов элементов характеристического множества запроса: (5, 4, 3, 2, 1). И пусть запрос имеет характеристическое множество (0,8; 0,5; 0,46; 0,43; 0,4). Тогда средняя релевантность равна: 0,8*5/15 + 0,5*4/15 + 0,46*3/15 + 0,43*2/15 + 0,4*1/15 = 0,267 + 0,133 + 0,092 + 0,057 + 0,027 = 0,576. Далее происходит вычисление средней релевантности поиска по всем запросам, которая и представлена в таблице выше.

Об исследовании других характеристик поисковых машин.

Небезынтересны оценки роботов-пауков ведущих поисковиков от создателей Metabot.ru, особенно в той части, где "Апорт" и "Рамблер" они относят к "локальным системам, со схемой выборочной индексации".

Исследования полноты поисковых систем заведомы неточны. Совершенно очевидно, что при том объеме базы, что имеется у "Яндекса", он является самой полной системой, независимо от того, как отслеживаются дубли в разных поисковиках. Определение полноты индексирования путем поиска некоторых образцовых документов в каждой из сравниваемых поисковых машин (еще одна очень сложная методика Харина) привело к следующим результатам.

"Апорт" "Рамблер" "Яндекс" Google
0,40 0,53 0,60 0,47

Полнота 0,53 для "Рамблера" означает, что из 15 документов, отобранных "Яндексом", "Апортом" и Google, "Рамблер" находит 8 документов.

Поскольку данная методика выглядит отчасти "от лукавого", предлагаю читателю ориентироваться на методику Сегаловича. Она заключается в том, что наугад берется N редких слов, настолько редких, чтобы было легко проверить весь результат их поиска. Потом сравнивается количество найденных релевантных документов по каждому слову. Усредненные результаты представлены в таблице. Надо отметить, что подобные оценки проводятся с конца прошлого года (первоначально самим Ильей Сегаловичем, главным разработчиком "Яндекса"), однако соотношения получаются практически идентичными.

"Апорт" "Рамблер" "Яндекс" Google Fast
50% 30% 100% 31% 30%

Google вычисляет ранг матрицы 400 млн x 400 млн, причем последовательно. Российские поисковые машины еще не обладают такими вычислительными мощностями.

Пример. Для оценки корректности вычисления Page Rank можно использовать тест Носика: при запросе "Мастер и Маргарита" первой в выдаче должна получаться начальная страница названного романа в "Библиотеке Мошкова" (как это и происходит в Google). В "Апорте" тест выполняется правильно, в "Яндексе" искомый результат получается в выдаче шестым (тест давал устойчивый результат в промежутке 24.05 - 19.06). Кстати, нарцисстический тест (то есть запрос "Андрей Травин") давал в "Апорте" почти правильный ответ (вторым в выдаче "Апорта" идет первый ответ из Google, и это незначительное искажение имеет очевидные причины), в "Яндексе" получается неправильный, по сравнению с Google результат.

Отечественные поисковые машины на пьедестале почета

В нынешнем положении российских поисковиков стоит отметить две оптимистические для них тенденции. Первая - поисковики в Рунете популярнее каталогов-классификаторов. Согласно исследованиею "SpyLOG - Глобальная статистика", для средних и малых сайтов вклад поисковых систем уже в 2 раза превышает суммарный вклад каталогов и рейтингов.
Вторая (по порядку, а не по значению) - порог выхода на рынок поисковых систем довольно высок, значительно выше, чем на рынок счетчиков, и сравним с порогом выхода на рынок развесистых электроных энциклопедий. Иллюстрацией этого тезиса может служить новичок - Lupa.ru, напоминающий поисковую машину только издали.

Почему важна вторая тенденция? Любой потенциально массовый рынок осваивают первые компании-лидеры. Предположим, что среди них есть три, которые совместно держат 80 процентов этого рынка. В абсолютных величинах они пока охватывают всего 2-5 процентов населения. Вероятность, что эти три компании удержатся в лидерах, к тому моменту, когда рынок будет размером хотя бы в 30 процентов населения, прямо зависит от базовой характеристики рынка. Если рынок невысокотехнологичный, шансы у первопроходцев задавать тон в своей нише не очень высоки. Если высокотехнологичный, то шансы весомы (пример - Intel). В целом Интернет не является высокотехнологичным рынком и поэтому на нем будет постоянно происходить смена главных игроков. Поисковые системы одна из высокотехнологичных ниш в отрасли. Лидерство поисковых машин определяется сравнительно сложными технологиями, полнотой базы, большим парком компьютеров и привычками пользователей. В настоящее время в России разрабатывается или уже разработано около 10 поисковых машин, некоторые из них (к примеру, Punto.ru) стартовали. Их база такова, что найти ими практически ничего нельзя.
Поскольку колонка эксперта пишется без учета журналистских принципов спортивной справедливости, а только о тех аспектах, что определяют погоду на рынке, перечислять всех крошечных конкурентов трех ведущих поисковиков я не буду: герои настоящего обзора еще продолжительное время побудут на воображаемом пьедестале почета.

Однако важно отметить, что наиболее вероятные перспективы "Апорта" - быть затоптанным слоновьей поступью Golden Telecom, как это случилось с Infoart, Atrus, Emedia и множеством других сайтов.
Релевантность "Рамблера" приблизилась к релевантности трех остальных поисковых машин, но сохраняющееся отставание в релевантности обусловлено отсутствием механизма ссылочного ранжирования и, скорее всего, непреодолимо без изменения ядра системы.
Мнение о подавляющем превосходстве Google над всеми остальными существующими в мире поисковыми машинами несколько преувеличено. Однако именно эта система может отъесть заметную долю русскоязычной аудитории (чуть подробнее об этом - в последней главе).

Возможные перспективы "Рамблера": приобрести лицензию на какой-либо сторонний каталог - для улучшения собственной поисковой машины, и другую поисковую машину - для улучшения сервиса для своих посетителей. Кстати, один из источников дохода самого "Рамблера" - желающие купить его поисковую машину в Украину и Прибалтику. Rambler.bg входит в тройку ведущих болгарских поисковых машин (о перспективах yandex.pl, ranbler.de сказать пока еще ничего нельзя).
Источники дохода всех поисковиков: баннеропоказы по географии и по темам, профили и аналитические отчеты.

Общая проблема всех старых российских поисковиков-лидеров в том, что для того, чтобы обновить замусоренную базу и проиндексировать Рунет заново, требуется полностью обнулить индекс.

Для полного понимания можно отметить, что метапоисковые системы (а их история в России составляет почти такой же промежуток времени, что и история русских поисковых систем) не влияют на рынок существенным образом. С 1999 года на рынке присутствует практически идеальный, на мой взгляд, инструмент метапоиска - Диско Наблюдатель (http://www.disco.ru/dwrus.htm). Однако наш народ за двадцать долларов, которые стоит эта программа, "удавится". Поэтому некоторые перспективы имеет бесплатный метапоисковый сервис MetaBot.ru.

Позиционирование в поисковой системе

Андрей Иванов ввел термин "позиционирование в поисковой системе" для комплекса мероприятий, направленных на улучшение позиции ссылки на сайт в списке ответов поисковой системы.
По этому поводу можно сказать, что русские искалки сближаются по своим методам борьбы со спамдексингом (спамом индексов поисковых машин).
Прекращены публикации ста самых популярных запросов на "Рамблере" (последние такие данные сохранены в "Регистратуре.ру") и и публикация всех текущих запросов пользователей "Яндекса" в рамках "Прямого эфира" (1700 тысяч запросов к "Яндексу" сохранены в "Нейроне" - http://hisnameis.runet.ru/ ).
Семантический образ спаммера (который обязательно включает набор "Линукс, порно, реферат...") неплохо распознается, и подобные ресурсы "вычесывается" из систем еще на этапе индексирования.
К редиректу "Яндекс" относится категорически отрицательно. На рубеже года он провел чистку своей базы и повыкидывал сайты (причем, с запретом на регистрацию в дальнейшем), на страницах которых стоял редирект (в том числе и в виде Java-скрипта).
"Рамблер" пока идет по редиректу на новую ссылку (II), индексирует документ и заносит ссылку II в список своих адресов для обхода. А старую ссылку с редиректом выбрасывает из своих списков. Таким образом, в следующий раз он пойдет по новой ссылке II. А если она формируется с помощью Java-скрипта, "Рамблер" вообще по ней не пойдет, потому что он не исполняет скрипты. "Яндекс" поступает аналогично, однако его "паук" более "наглый", поэтому выполняет многие скрипты.

Начиная со своей второй версии, "Яндекс", также как и Апорт, начал учитывать основные метатеги. "Рамблер" и Google продолжают их игнорировать.

И, наконец, руководители "Яндекса" и "Рамблера" договорились об обмене информацией о злостных спаммерах поисковых систем с целью вообще выключить их из русского поиска.

Трафикогенерация с поисковых машин (согласно отчету SpyLOG за январь 2001 года) составляла в целом 42 процента от "Яндекса" против 17,5 процентов от "Рамблера" или "Апорта". Согласно тому же отчету, для интернет-магазинов это соотношение принципиально другое: Яндекс - 69%, Rambler- 15,3%, Апорт - 9,8%, Google - 2,6%. Это связано с тем, что поиск по товарам в Яндексе превосходит аналогичную услугу в "Апорте" как технологически, так и с точки зрения гибкости ценовой политики для владельцев магазинов. Последнее исследование SpyLOG показывает, что доли "Апорта" и "Рамблера" теперь соответственно 18% и 12%, Google - 14% (!), а "Яндекс" лидирует с теми же самыми, что и зимой, 42 процентами.

Зарубежные поисковики для русскоязычного пользователя

Среди поисковиков, в которых можно, задав русский запрос, получить на выдаче осмысленный ответ, пока еще остается Altavista (или не получивший развития Raging.com), но в ней русскоязычная база была порушена еще в 1999 году. Сейчас более или менее полноценными зарубежными искалками по Рунету можно считать лишь Fast и Google (или Yahoo!), которые предположительно получили себе тех пользователей, которые ранее искали русскоязычные ресурсы "АльтаВистой". Говорить о каких-либо долях рынка зарубежных искалок в Рунете до недавнего времени не имело смысла, а сравнивать с нашими их эффективность и технологии достаточно

Заработок для веб-мастеров