Самое горячее: Европа признала соцсети опасными (50); "Фобос-Грунт" уже не спасти (11); Мобильники убивают детей (26); ЕЩЕ >>
РАЗДЕЛЫ
Архив
« июль 2012  
пн вт ср чт пт сб вс
           
8
15
16 17
23 24 25 26 27 28 29
30 31          

Робот как враг народа

| 05.09.2006 14:10

В прошлом году я написал прогноз о будущем поисковиков, под названием "Покупайте, люди, изоленту!" Там упоминались довольно необычные существа и явления: Терминатор Янд-цзы и сегрегатор Сегаловича, ошустривание и курдловодство, белые и черные ашманы. Некоторые читатели, лишенные воображения, сочли мои предупреждения бредом.

Ну, давайте поглядим, как этот бред реализуется. Случившийся на днях взрыв "анти-дорвейной бомбы Яндекса", который поразил кучу вполне мирных сайтов - хорошая отправная точка, чтобы раскрутить от нее историю вспять.

Пессимизаторы, вперед!

Весной по Рунету прокатилась неприятная волна поискового спама: поиск по фразе "враг народа" стал выдавать сайт российского президента. Такие "шутки" происходят уже много лет - но это, пожалуй, одна их первых на столь высоком уровне. В ответ "Яндекс" провел масштабные карательные "зачистки" каталогов. Некоторые оптимизаторы даже заподозрили, что интернет-конференция с Путиным на Яндексе была ответным флеш-мобом: поисковик хотел доказать, что высокие технологии могут использоваться и на благо Родины.

В этом году "Яндекс" сделал еще ряд тихих шажков в сторону "гласа народа". В частности, банщики компании стали чаще появляться на оптимизаторских форумах и отвечать на вопросы о банах. А недавно поисковик выпустил тул-бар для Firefox, где есть возможность "настучать" на нехороший сайт. Раньше такая возможность была спрятана где-то в глубине сайта компании. А теперь прямо из браузера можно.

Неужели "Яндекс" включил народную пессимизацию на полную катушку, заменив больших человекоподобных роботов на маленьких роботообразных пользователей? Может быть, именно такую технологию, тайную пародию на народные рейтинги сайтов Yahoo MyWeb, имел в виду Илья Сегалович, который давно обещал включить какие-то очень крутые алгоритмы фильтрации?

Молчит, молчит секта "Яндекс", повязанная клятвой неразглашения. По поводу вчерашнего глюка - никаких пресс-релизов. В корпоративном блоге компании рассказывается лишь о путешествии по Пиренеям со словарем. И даже на наши отвлеченные вопросы об использовании данных "стука" через тулбар Firefox пресс-секретарь Михаил Ушаков отвечает уклончиво:

"Основная мера, которую мы принимаем по результатам таких жалоб - это улучшение качества поиска. То есть, мы постоянно работаем над алгоритмами поиска, и данные о том, какие страницы, по мнению наши пользователей, являются резко нерелевантными запросам - это ценная информация для исследователей и разработчиков".

Более радикально подошла к гласу народа Webalta, которая мечтает потеснить старичков-поисковичков с помощью всяких ярких трюков. Недавно Webalta открыто пригласила опытных оптимизаторов для чистки. Им разрешают не только "стучать", но и лично удалять спам из результатов поиска.

Как остроумно заметил один из читателей этой новости, приглашать для такой деятельности оптимизаторов - все равно что "поручить мышам охранять сыр". Хотя здесь возможны и более продвинутые стратегии. Например, устроить "войну мышей и крыс". Нехай бьется нечисть груди в груди и друг друга изводит - а сыр-приманка повисит сверху на веревочке и никому из них не достанется. Очень современный подход! Тем более что недавно по стране прокатилась парочка фильмов, описывающих этот алгоритм: там как раз шла война между двумя кучками психопатов, возомнивших, что они управляют миром. Типа, "Ночной дорвей" и "Дневной дорвей".

Так или иначе, подвижки в сторону массовой пессимизации начались. Но очевидно, что народное недовольство поиском гораздо сильнее, чем эти скромные меры поисковиков. Потому что для большинства нормальных людей Интернет интересен как способ получения полезной информации, а не как площадка для инфантильных игр каких-то там Темных и Светлых, сдвинутых на собственном дутом величии.

Не грузи меня, паук!

Осенью прошлого года Бретт Тэбке (Brett Tabke), владелец самого популярного сайта-форума для веб-мастеров WebmasterWorld.com, очень удивил интернет-общественность, когда запретил всем неавторизованным поисковым ботам доступ к своему сайту, изменив соответствующим образом файл robots.txt. Проблема, решенная таким простым способом, была связана не только с мошенническими ботами, которые воруют контент, но и с ботами признанных поисковиков, которые создают лишнюю нагрузку, просматривая множество страниц снова и снова, безо всякого смысла.

В результате этой акции известный сайт, содержащий более миллиона страниц, "просто исчез" из поля зрения поисковых систем. Зато, по признанию самого Бретта Тэбке, после запрета ботов сайт стал грузиться легко, как никогда, и своей популярности не потерял. В интервью-объяснении Бретт также упоминает идею стандарта для Включения роботов (вместо стандарта Исключения роботов).

Понадобился почти год, чтобы подобные мысли были озвучены в Рунете. Смелым человеком оказался Фил Кулин из "Петерхоста", который предложил запретить доступ "Вебальты" к контенту сайтов на своем хостинге. Причина та же: бешеный бот поисковика съедает очень много трафика. Вместо того, чтобы отдавать информацию реальным посетителям, серверам приходится все больше общаться с робопауком.

Под сурдинку дискуссии выяснилось, что многие хостеры уже давно втихаря давят пауков. А некоторые пауки даже сами сдаются.

Остается, правда, вопрос, кто этим должен заниматься - хостер или все-таки владелец сайта? Ответ, мне кажется, очевиден: комендант общежития имеет право и даже обязанность заботиться о своих жильцах. Что он и делает, вывешивая объявления типа "Вход рекламным агентам и сыщикам запрещен". Другое дело, когда речь идет не об общаге, а о собственном жилище (свой сервер, свой админ). Но многие ли могут позволить такую роскошь для своего сайта? Увы, пока немногие. Так что проблема все равно лежит на плечах коменданта общаги.

Паразиты семантики

В дискуссии о вреде бешеных пауков был еще один интересный момент. Представители поисковика Webalta обвинили веб-мастеров - те, оказывается, "неправильно отдают", то есть не соблюдают формат файла robots.txt. А нам, то есть "Вебпланете", даже посоветовали провести ликбез для веб-мастеров. Нашли виноватого! Выходит, люди, производящие контент, обязаны не только выкладывать его в общий доступ, но еще и выносить на блюдечке с голубой каемочкой, да прямо в рот пауку складывать кусочками удобного размера.

И вот тут полезно вспомнить, как вообще развивается поиск. По мнению Игоря Ашманова, из современного кризиса поисковиков есть несколько выходов. Это (1) более грамотный выбор и обход сайтов для индексации, (2) более умный разбор полученных данных, (3) более содержательная работа с пользовательским запросом, (4) более осмысленная выдача результатов и развитие поискового интерфейса, который до сих пор находится на уровне командной строки DOS. Ну и наконец, последний, пятый элемент (этот тезис Игорь стал продвигать только недавно) - использование живой человеческой биомассы социальных сетей для сбора и фильтрации данных. Ашманов прямо называет это "доносами".

В таком порядке тезисов заложен старинный теологический трюк. Нет, безусловно, обработка данных и интерфейс могут стать лучше даже на основе уже имеющихся данных. В этом у поисковиков еще есть фора - года на четыре, ну и потом еще будут какие-нибудь ритуальные пляски вокруг "трехмерки" (парни из Microsoft уже семь лет обещают мне сделать MS Rooms вместо плоских Windows). Но технологический предел близок. И хотя Quintura с ее визуальным поиском попала в список "лучших мировых приложений Web 2.0", на практике эта игрушка впечатляет лишь первые 10 минут. Потом возникает ощущение, будто разгадываешь кроссворд: вроде понял связь горизонтали и вертикали, вроде даже заполнил все клеточки - но что получил в итоге? Развлечение-головоломку, а не новую полезную информацию.

Потому что поиск - это прежде всего данные. И "доносы" должны стоять на первом месте в приоритетах поисковиков. И на самом деле, они именно там и стоят! Просто речь идет не о доносах на человеческом языке, которого поисковики не понимают (см. выше). Нет, им нужны доносы на языке роботов. Этого они и требуют от веб-мастеров, которые "неправильно отдают".

Тот же самый религиозно-маркетинговый фокус прокрутили в США в 80-е. Тогда это называлось "искусственный интеллект". Надо же, экспертная система может давать разумные советы! Дешевая программка на ПК! А потом посчитали получше - и прослезились. В программе-то, оказывается, никакой человеческой семантики не задерживается! Все эти "машинные знания" надо сначала выкачать из людей-экспертов, заставив их говорить на языке робота. А потом еще регулярно "подкачивать" базу. И суммарные затраты - едва ли меньше, чем на использование экспертов по прямому назначению. Без программы то есть. Надо только наладить хорошую связь с ними, вот и все.

Нынешнее воплощение того же надувательства - бесплатный поиск. Якобы одолжение, которое делают нам поисковики. И как-то уже не принято вспоминать, что за этой "бесплатностью" стоят многие человеко-часы жизни тысяч веб-мастеров. Тех, кто превращает обычный человеческий текст в удобную HTML-жвачку для паука. Эту же супер-цель преследуют и разнообразные поисковые семинары - ускорить выкачивание семантики из людей, вырастить послушную секту робоговорящих оптимизаторов.

А дальше нам обещают еще более крутую Семантическую Сеть - опять-таки умалчивая, что требуется "всего лишь" заставить миллионы людей говорить на языке роботов. Уже сейчас в зародыше этой системы, в пресловутой Web 2.0, типичный web-документ содержит всего несколько строк на человеческом - плюс целая страница машинных кодов и разметок. Но они хотят от нас еще больше: чтобы мы расставляли тэги, оценивали сайты и рейтинговали публикации, прописывали свои отношения друг с другом. А потом еще пойдут онтологии, придуманные свихнувшимся стариком Тимом...

Но что если люди не будут всего этого делать? Не потому, что глупые. Просто им это не особенно нужно. Точнее, нужно не им. Потому что поиск без контента - ничто.

А вот контентный Интернет без глобального поисковика - столь же естественная вещь, как жизнь без телевизора. Более того, именно через такой Интернет - через рассылки, ньюсгруппы, форумы, блоги, вики, социальные сети - люди решают гораздо более серьезные задачи, чем то, что позволяет всеобщий поисковик. Ну покажите мне современного пользователя, который через запрос в общий поиск "Яндекса" или "Рамблера" нашел себе хорошую работу, квартиру, подругу, врача для ребенка. Да или хотя бы хороший ресторан, на худой конец. Не по названию хороший, а по кухне.

Наверняка и такие юзеры есть, да. Как есть горе-туристы, которые сразу после приезда в чужую страну меняют всю свою валюту на вокзале - а через два дня рвут на себе волосы, обнаружив, что в двух остановках от вокзала курс обмена гораздо выгодней. Хотя сейчас даже таких туристов берегут от глупости их гиды, которые еще на границе объясняют своим группам всякие хитрости.

Но если нынешняя аудитория всеобщего поисковика состоит из прошловековых горе-туристов безо всякого гида, если бизнес построен на прошловековом лохотроне для "нового парня в городе" , то к чему весь этот пафос под лозунгами "Найдется все" или "Ты ищешь, мы находим"? История Рунета знает более честные слоганы. Вспомните хоть знаменитый ролик провайдера ROL: "Мы скачиваем рефераты!"

Перейдем на "че"

Даже не любя киборгов, надо признать, что человеко-машинные симбионты уже победили. Как минимум, в Интернете. Однако и в симбиозе есть свои правила эффективности - один партнер не должен подавлять другого.

В случае с глобальными поисковиками это не так. Вы когда-нибудь видели человека, который, не приложив никаких усилий, требовал бы от поисковика, чтобы его сайт стоял на первом месте в выдаче поиска? Да такого человека засмеют! Но никто не смеется, когда роботы-поисковики очень авторитарно наезжают на людей, требуя обеспечить им, паукам, правильную "пищу" за просто так.

В начале года Всемирная газетная ассоциация, которая объединяет более 18.000 газет со всего мира, начала масштабную кампанию против поисковых систем, обвиняя их в агрегации чужого контента и несправедливом присвоении прибыли. Один из результатов этого крестового похода - теперь Google покупает новости Associated Press.

У редакции "Вебпланеты" тоже появился шанс вернуться к человеческим приоритетам. Во время переделок на сайте мы случайно грохнули старый RSS-фид, который отдавал экспорт в "Яндекс.Новости". А наши новые фиды, как оказалось, "не соответствуют стандарту".

Само чтение "стандарта" навело меня на мысль о скором появлении таких профессий, как робофилолог и робопсихиатр. В частности, оказывается, что необязательными элементами экспорта являются имя автора (для робота все люди - на одно лицо), а также аннотация (робот не интересуется смыслом новости; он, подобно самому тупому из читателей, всего лишь ищет в тексте пару знакомых слов). Зато обязательным элементом является полный текст каждой публикации (паук любит ням-ням!), но из него должны быть исключены все тэги форматирования (глупое изобретение, рассчитанное на человеческие глаза, а не на лапки робота).

Но прежде чем удовлетворять такому стандарту, захотелось понять, что нам это дает. Ну ладно, мы не Associated Press. Но какой-то смысл должен быть? А вот такой: "Трансляция полного текста позволяет существенно улучшить качество поиска и, как следствие, повысить посещаемость издания".

Так вышло, что в прошлой жизни я был математиком. Это ужасная карма. Но иногда помогает - например, когда надо сравнить трехзначное число с пятизначным. Посещаемость, которую давали нам "Яндекс.Новости" - это и не посещаемость вовсе. Это флуктуация, рябь на воде. Она легко перешибается другими способами. Скажем, написанием еще одной новости. И именно этим мы предпочли бы заниматься - делать новости для наших читателей-людей, а не учить язык пауков ради их невнятных бенефитов.

Хотя мы пока не отказались от возможности включиться в "Яндекс.Новости". Но сейчас мы, скажем так, обдумываем нашу политику. Особенно с учетом того, что предложение транслировать полные тексты наших материалов поступило еще от пары проектов. Гораздо менее известных, чем "Яндекс.Новости". Но они тоже уверенно обещают нам "популярность". Ну, про популярность сказано выше. Однако тут возникает уже другое любопытство - а зачем им это нужно, если они так настойчивы и при этом не никому не известны?

Торговцы воздухом

В прошлом году мне довелось поболтать с одним человеком из Минобороны. Человек рассказал, что некая контора делает для них "аналитический дайджест новостей". Мой военный собеседник был достаточно вменяемым дядькой, чтобы заметить - новости в дайджесте, во-первых, не свежие, а во-вторых, взяты из бесплатных открытых источников, типа сайтов Лента.Ру и РБК. Военный дядька спросил меня, нормально ли платить за такой "дайджест"... и тут он назвал сумму. На эти деньги Минобороны могло бы завести собственную корреспондентскую сеть во всех крупных городах мира. Ну или как минимум сеть аналитиков, которые действительно занимаются data mining, а не копипейздят Ленту.Ру.

Вам понятно, кому нужны полнотекстовые трансляции? Недавно, кстати, прикрыли одну такую конторку, которая продавала бесплатные карты из Интернета под видом собственной аэрофотосъемки. Но откуда этот бесплатный контент взялся в Google Maps? Очень просто: Google купил снимки у производителей. А не то что "отдайте нам все в нашем формате".

Так что робот на самом деле не виноват. За его спиной стоит кучка людей, решивших, что машина должна служить только им, а не всем остальным людям.

Иногда мне даже жалко этого робота на службе инфократов. Например, когда я захожу на "Яндекс.Новости", набираю в поиске "Вебпланета" или "webplanet" - и вижу множество наших новостей. Хотя мы их туда не экспортируем. Это тексты, которые растаскивают с "Вебпланеты" другие сайты. Да, их экспорт соответствует стандарту. Зато новости там кастрированные - без наших гипер-ссылок на описываемые проекты, без комментариев, иногда просто вообще обрезки какие-то без указания источника... Но бедный робот вынужден собирать этот мусор, все эти новостные дорвеи вместо оригиналов, потому что так велел хозяин! И мне сразу вспоминается герой Станислава Лема, который приходит на свалку бракованных андроидов и испытывает такие же смешанные чувства. С одной стороны, в этом есть что-то человеческое, а с другой - явно глючный, зациклившийся механизм.

Но сколько не жалей киборгов, мы все-таки работаем для людей. А они, я думаю, не останутся в накладе без протухших "рефератов" и сомнительных "дайджестов". Ведь наши новости открыто опубликованы на сайте в полной версии. Плюс есть разнообразные формы персонального экспорта. Это говорит о том, что мы не против свободного обмена информацией.

Но мы против того, чтобы это превращалось в "требование стандарта" со стороны тех, кто наживается на чужом свободном контенте и при этом ленится сделать пару лишних кликов самостоятельно. В конце концов, есть еще куча агрегаторов, каталогов и поисковиков, которые ничего от нас не требуют. Вот так они и должны работать. Робот должен знать свое место - в будке на цепи. Иначе вместо робота-помощника мы получим робота-паразита. No pasaran!

разделы: мнения |

Другие мнения

Последние комментарии
об издании | тур по сайту | подписки и RSS | вопросы и ответы | размещение рекламы | наши контакты | алфавитный указатель

Copyright © 2001-2012 «Вебпланета». При перепечатке ссылка на «Вебпланету» обязательна.

хостинг от .masterhost