Тезисы о поисковых машинах

≡ Архив | архивная статья | 05.05.2006 18:30

Игорь Ашманов, кандидат технических наук, прочитал на КИБе доклад про поисковые машины, который выигрывает у научных публикаций практическим подходом.
Тезисное изложение этого доклада, я снабжу некоторыми комментариями. В конце его прозвучал тезис, что улучшать собственно релевантность ведущих поисковиков уже некуда. Это известный общий эффект, наблюдаемый в системах искусственного интеллекта, когда своего рода тюнинг требует столько же усилий, что и разработка базовой технологии. Особенно ярко это проявилось в середине 90-x для систем оптического распознавания текстов. Они тогда достигли точности порядка 90%, но доведение ее до 99% вырисовывалось крайне трудоемкой задачей. Правда Игорь привел более близкий ему пример с грамматическим разбором предложений в корректорах орфографии, где по его словам с какого-то момента разработки качество перестает улучшаться.

Нарушение хронологии рассказа потребовалось для того, чтобы всяческих привычных на оптимизаторских конференциях обсуждений формулы релевантности отечественных искалок далее не последует. Всех, кого это не смущает, предлагаю следовать канве рассказа, где обозначено, как можно улучшать поиск на всех его этапах.

Ашманов начал свой доклад с метафоры про аутизм поисковиков. Хотя он подразумевал под этим лишь их неспособность общаться, данную метафору можно сделать развернутой.
Аутизм - эта такая особенность человека, который заставляет его постоянно пропускать через сознание огромное количество деталей окружающего мира. Аутист перегружен этой информацией, подавлен ею, она мешает ему общаться так, как общаются обычные люди. Поисковик также перегружен информацией, деталями, но он ничего не знает про запрос пользователя. В результате разработчики сделали выдачу, похожую на список литературы. В нее подмешивают разнородную информацию.

Классическая поисковая машина умеет найти по запросу из нескольких слов все документы, в которые входят данные слова, и предъявить их, то есть работает «как текстовой брокер» в терминах Игоря. Поисковики не знают темы запроса и смысла запроса, не знают типа и темы возвращаемых документов, показывают в сниппетах не свои аннотации, а только фрагмент того, что есть на сайте.

Следствием научного склада умов разработчиков стала бесконечная лента, имеющая «невразумительные заголовки, аннотации, ненужные даты, URL, размер». А пользователя заставляют заниматься либо перебором ссылок, либо мелким программированием- подбором слов и операторов.

Запросы же на естественном языке (лидер здесь - AskJeeves) Ашманов назвал «старой басней» поисковых систем.

Игорь Ашманов упрекнул ведущие поисковики в «безудержной портализации» при флегматичном сохранении перечисленных недостатков. А также - в нерациональной трате сил на персонализацию поиска. Казалось бы, пример вялотекущего существования сайта Excite.com, который одним из первых поисковиков в середине девяностых вступил на неверный путь портализации и персонализации, уже должен был стать уроком тому же Mail.ru, который два года последних года пытался запоминать запросы немногочисленных посетителей Поиска@Mail.ru и предлагать какие-то ненужные подсказки и уточнения.
А пользователь, между тем, крайне не любит, когда за них «умничает Интернет». Но так нет же, персонализация хотя бы на уровне запоминания истории запросов есть и у флагманов - Yahoo! и Google… А в MSN - обмен пользователей сложными запросами на специальном языке, подстановки (правда, признаюсь не знаю насколько масштабно и эффективно это работает).

Тематическую кластеризацию (Clusty, Нигма, Quintura) Ашманов также считает в целом тупиковым направлением. Кластеризация, разумеется, помогает структурировать выдачу. Но тут возникает чисто практическая проблема. Стоит взять реальный список запросов, как оказывается, что никакой искусственный или человеческий интеллект обычно не в силах догадаться, что же на самом деле имел ввиду пользователь, который вводил в окно поисковой системы одно или два слова… Правда, я был свидетелем, как деятелей, которые проверяют новые искалки исключительно на нарцисстическом запросе, впечатляло как Nigma кластеризировала их по всем прежним должностям и профессиональным интересам. Однако для обычных запросов Nigma.ru своими возможностями кластеризации Игоря не впечатляет.

Несколько отвлеченным от нити рассказа, но зато удачным примером кластеризации можно считать пресс-портреты в Яндекс.Новостях. Как объяснил мне технический директор Яндекса Илья Сегалович, пресс-портреты не склеиваются (или плохо склеиваются), потому что на начальном этапе важнее было, чтобы разные люди не собрались в один пресс-портрет. А то, что один человек представлен в десяти лицах - это нормально (вот любимый пример Ильи Сегаловича).

Итак, по мнению Ашманова большие поисковики ориентированы не столько на преодоление аутичности поиска, сколько на борьбу друг с другом; у них доминируют бизнес-идеи, в частности, борьба за Рабочий Стол между Google и Miscrosoft, в которой может поучаствовать и Yahoo! Основным преимуществом здесь будет не функциональность, а совместимость с операционной системой Windows и офисными программами. Крупные игроки резко замедлились в части собственно поиска и возятся с инфраструктурой, продажами, большими индексами, большим персоналом, новыми офисами.

Между тем в прошлое должны уйти такие вещи, как мерянье размерами индекса, учет ссылочного ранжирования, и главное учет только одной из трех сил, имеющихся вокруг поиска - разработчиков поисковиков, которых интересует поток посетителей и показ рекламы, и неучет самих пользователей, которым быстро найти нужный сайт, и сайтовладельцов:, которых интересует первые места и поток посетителей к ним.
Какие же пути не тупиковые?

Игорь начал с самого очевидного - отбора сайтов для обхода. Данный прием используют как вертикальные поисковики (по блогам, по новостям, по товарных предложениям), так и обычные поисковые системы, в которых происходит распознавание типа документа и/или распознавание темы страницы (семантическое индексирование). Перспективны «семантический разбор текстов» и «разные индексы для разных типов сайтов… Большие поисковики этим занимаются, но во вторую очередь».
Специализированные поисковики - Dash, Аппликата, Новотека, Тындекс, iligent и пр.

Дорвейный спам за первые месяцы 2006 года сравним со всем, что было сделано в этом жанре за предыдущие 5-6 лет. Нынешние способы борьбы с дорвеями – это главным образом бескорыстные и корыстные сигналы в службу модерации. Предварительный выбор сайтов может решить проблему замусоривания индекса и генерации дорвеев. Особенно, если этот предварительный выбор отдан сообществу (или отдельным пользователям, как в Персональном поиске Новотеки). Под «поиск» инвесторы охотно дают деньги, а под поиск с социальными сетями – вообще практически не глядя :)

Сообществу можно поручить почти весь цикл настройки поисковой машины: от отбора сайтов и создания сниппетов до оценки результатов поиска.
Кстати, кроме ашмановского, есть, разумеется, и другие рефераты, в которых говорится, что «поиск, скорее всего, уйдет от алгоритмов постраничной классификации, на которых построены сегодняшние механизмы поиска. А релевантность результатов будет зависеть не от вебмастеров, задающих ключевые слова на своих сайтах, а от авторитетного для пользователя мнения».

Перспективна и графическая выдача и навигация – в Quintura Search и Тропе (вторая из них пока в стадии проекта), и кардинально – в Vizzy (там можно искать, «летая» над архивом).

Перспективен вывод данных по типам в одном окне (наиболее наглядно он сделан в A9).
Закончил же Игорь одной из своих любимых с прошлого года тем - как перевернуть рынок или кто даст миру «Windows для поиска»?.

Как видим, был продемонстрирован крайне здравый подход к теме. Надо только отметить, что этого конкретного докладчика интересует не только извлечение смысла, но и необходимость в извлечении знаний посредством поиска. Конечно, такая точка зрения уместна при продаже поисковиков для аналитических отделов корпораций или спецслужб, при разработке товарных поисковиков. Для большинства же людей поиск – это скорее подбор информации, чем извлечение знаний. В части достоверности никто обычно не ждет от выдачи поисковиков больше, чем от Википедии.

комментарии(47)

разделы: Архив