Самое горячее: Европа признала соцсети опасными (50); "Фобос-Грунт" уже не спасти (11); Мобильники убивают детей (26); ЕЩЕ >>
РАЗДЕЛЫ
Архив
« июнь 2020  
пн вт ср чт пт сб вс
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30          

Персональный поисковик: явление скрипта народу

Ноу-хау | 19.02.2007 13:09

"Поиск - это дружелюбный процесс"
(лозунг поисковых систем)

Когда какая-то идея набирает некий критический уровень единомышленников, формируется тренд. Массовый тренд (майнстрим) начинается с критической массы леммингов, до которых маркетологи донесли нужность, полезность и модность тренда.

Если говорить о персональных поисковых системах, то с ними сейчас происходит нечто подобное. Кому нужно, тот уже пользуется персональными поисковиками, но до массового помешательства на персональных поисковиках пока еще не дошло. Но уже близко. Планируется, что "большие" поисковики пойдут в лес, а их место займут персональные, когда каждый будет индексировать то, что ему нужно или хочется. И наступит тогда полный поисковый 3.0. Такие мысли, в форумулировке "Вавилон должен быть разрушен", звучали еще прошлой весной на конференции eTarget. А осенью на конференции "Поисковая оптимизация - 2006" выражение "персональный поиск" оказалось чуть ли не единственным конкретным ответом на вопрос о том, как разрешится тупиковая ситуация противостояния яндексоидов и оптимизаторов.

Что такое персональный поисковик? Это система (в w2z-варианте реализованная в виде сервиса), состоящая из паука, индексирующего сайты (спайдера), сервера запросов (поискового механизма по проиндексированным страницам) и front-end ("интерфейс поисковой строки"). Список сайтов и параметры индексирования задает пользователь.

Персональный поисковик - штука удобная. Поскольку позволяет искать там, где нужно и так, как нужно. А если у пользователя есть доступ к логике поисковика, то возможна тонкая настройка спайдера на каждый сайт (персонализация спайдера), сервера запросов - на более хитрые (или более удобные) алгоритмы, а front-end - на более удобный интерфейс.

Персонализация идет на пользу и самим поисковикам, повышая эффективность поиска в тех сегментах, где глобальность (и широта охвата) мешает. Необходимость ограничения (сужения) области поиска, кстати, признается и большими поисковиками. Отсюда и кластеризация и сегментация поиска в виде специализированных поисковиков (по блогам, по магазинам и товарам, по программному коду, etc). Но только персональный поиск позволяет точно очертить область поиска.

Как это делается

Существует несколько типовых схем задания области индексирования/поиска. Вот, например:

Тематический поиск - по нескольким проектам одинаковой тематики (например, по сайтам, блогам и форумам, где обсуждается настройка Linux). Это автоматически отсекает нетематические проекты и мусор, но требует постоянной актуализации списка.

Консолидированный - "одновременный" поиск по нескольким проектам. Например, у вас есть два сайта (проекта) или сайт, блог и lj. Если требуется найти "что я писал на такую-то тему", то консолидированный поиск будет намного удобнее и быстрее поиска по каждому сайту в отдельности.

Личный - когда нет встроенного поиска, например, в LJ. Или когда существующий встроенный поиск плохо или неудобно работает. Чаще всего применяется там, где нет доступа к коду движка.

Отдельный интересный вопрос - вопрос владения поисковиком. Владение может быть личным ("моя корова, что хочу - то и делаю") или коллективным, когда управляет и настраивает один (владелец), а пользуются многие. Коллективное владение, как несложно догадаться, лучше и дунольнее.

По способам реализации персональные поисковики можно разделить вот как:

- stand-alone. Поисковая система на отдельном хосте (несложным системам вполне хватает мощности виртуального хостинга). Поскольку владелец имеет полный доступ к коду и настройкам, то у него руки развязаны - начиная с игнора robots.txt и заканчивая переделкой алгоритмов (если есть возможность перекомпилировать код). Чаще всего, правда, на хорошие, но ресурсоемкие алгоритмы ресурсов сервера не хватит.

- на базе "больших" поисковиков. Собственного спайдера нет, поэтому отсутствует возможность его настройки; используется штатный спайдер и планировщик, за счет чего дополнительный трафик для индексируемого сайта не выбирается.

- кластерные поисковики. Имеют общий спайдер и планировщик на кластер, да и остальной софт - общий. Вмешиваться в код пользователю не дают, но возможность настройки "собственного кусочка" неплохая. Спайдер пытается работать так, чтобы минимизировать количество запросов: если двум (или более) пользователям понадобится проиндексировать одну и ту же страницу (или целиком сайт), то индексироваться это будет только один раз, за счет чего экономится "отжирание" трафика индексируемых сайтов.

Кластерные поисковики, кроме того, позволяют обкатывать различные новинки в технологии персонального поиска (с остальными вариантами реализации такое "бета-тестирование" затруднено из-за дисбаланса кода и пользователей). Например:

- распознавание шаблонов. Позволяет вычленять контент и индексировать только его, не учитывая служебные области (такие как меню и навигацию),
- регулярные выражения в фильтрах, позволяющие индексировать сайт "слоями",
- управление релевантностью (пессимизация "второстепенных" страниц, рейтингование в наборе сайтов),
- планирование обхода по sitemap.

Проблемы перегрузок

Но что будет, если каждый получит персональный поисковик? Задумываться о нужности мало кто будет, а под гипнотические сказки маркетологов хорошо сработает принцип лемминга "Если другие что-то индексируют, то и мне надо".

80% пользователей, скорее всего, начнут индексировать те ресурсы, которые они читают. Поэтому первыми будут "заиндексированы" популярные ресурсы. Даже если не брать во внимание сильное выжирание трафика спайдерами (паук за один "визит" будет индексировать не одну страницу, а несколько; и таких пауков будет много), то есть большая разница между реальным посетителем и спайдером. Спайдер, к примеру, не читает контент, не смотрит рекламы - с точки зрения хозяина сайта он бесполезен. И, если большой поисковик (типа Google) способен привести на каждую проиндексированную страницу по одному (а часто - и больше) посетителю, то персональный поисковик может не привести никого. А бесполезная трата ресурсов в "черную дыру" мало кому нужна; ресурсы имеет смысл тратить на человека.

Поэтому первой же реакцией будет внедрение различных методов борьбы с персональными поисковиками. Начиная от настройки robots.txt на конкретные поисковики (Google, Yandex, Yahoo) и заканчивая распознаванием (поведение спайдера отличается от поведения человека) и блокировкой всех "бездушных посетителей". Причем, многие сайтовладельцы вполне могут делегировать право "охоты на дятлов" и фильтрации трафика хост-провайдеру. Тем более, что опыт по "депривации доступа" для "ненужных" спайдеров у них уже есть.

Интересно, что такая позиция может привести не только к жесткой конкуренции поисковиков (надо же как-то убедить сайтовладельца разрешить доступ к контенту), но и к внедрению новых методов работы спайдеров для более оптимальной обработки контента.

Из вышеизложенного напрашивается вот какой вывод: персональные поисковики - штука хорошая, но не в массовом "употреблении". Возможно, одним из простых ограничений станет развитие платных версий, как в случае "Персонального поиска" от Ашманова.

Когнитивный декаданс

Кроме технических проблем, есть и когнитивные. И закавыка спрятана в том, каким путем сейчас идет развитие поисковых систем и технологий. То есть, в интеллектуализации поиска, когда поисковая система пытается угадать, что вы ищете и для чего, и "обучаемости на пользователе" за счет привязки к search and click history. Получается, что попытка учитывать профиль пользователя ("поисковое досье") начинает смещать и фильтровать результаты - и часто не в ту сторону. "Благие намерения" - не всегда полезная штука.

Даже если персональные поисковики дадут пользователю возможность обучения сервера обработки запросов - это, скорее всего, будет ухудшать поиск. Так что, по логике вещей, персональные поисковики должны строиться по несколько другим принципам, чем глобальные (а сейчас они зачастую работают на тех же алгоритмах).

Кроме того, на персональных поисковиках возможно не только "лишнее доверие к результатам поиска", но и "привыкание к поиску", когда у пользователя формируется привычка не выходить за пределы персональной зоны поиска. От этого происходит сужение кругозора и все новое оказывается "вне зоны доступа", потому что пользователь вполне уверен, что все нужное (и в достаточном объеме) найдется персональным поиском. Более подробно об этих проблемах можно почитать в заметке Стивена Брэдли "Опасен ли персональный поиск?".

А здесь добавим лишь, что одним из средств "лечения" когнитивной ограниченности может стать, например, политика открытых персональных поисковиков. Если ими можно будет "меняться", или даже создавать "совместные библиотеки" поисковых настроек - глядишь, и не зациклимся. Правда, то, что получится в этом случае, будет больше напоминать не персональный, а социальный поисковик. И тогда снова возникнет вопрос, кто им владеет.

разделы: Ноу-хау | Сервисы

Другие ноу-хау

Последние комментарии
об издании | тур по сайту | подписки и RSS | вопросы и ответы | размещение рекламы | наши контакты | алфавитный указатель

Copyright © 2001-2020 «Вебпланета». При перепечатке ссылка на «Вебпланету» обязательна.

хостинг от .masterhost