Самое горячее: Европа признала соцсети опасными (50); "Фобос-Грунт" уже не спасти (11); Мобильники убивают детей (26); ЕЩЕ >>
РАЗДЕЛЫ
Архив
« июль 2012  
пн вт ср чт пт сб вс
           
8
15
16 17
23 24 25 26 27 28 29
30 31          

Роман Иванов: "Я нахожу концепцию Web 2.0 довольно смешной"

Алексей Андреев
Сервисы | интервью | 11.10.2006 15:04

На прошлой неделе стартовая страница поиска по блогам "Яндекса" существенно обновилась: там появились разнообразные рейтинги и даже облако тэгов. О секретах роботов, которые за всем этим стоят, рассказал "Вебпланете" Роман Иванов, руководитель отдела коммуникационных сервисов компании.

- Для начала - что все-таки считается блогами в вашей искалке? А то в интервью под девизом "Я спросил у Воложа" тема так и не раскрылась.

- У нас есть автомат, который проводит предварительную разметку RSS-потоков. И есть контент-менеджеры, которые по определенным правилам назначают потокам типы.

Основные типы - news (новости примерно в смысле, в котором их понимают "Яндекс.Новости"), corpnews (корпоративные новости не в формате блога), nonformat (неформат - вакансии, ТВ-программа, прогноз погоды, объявления и т.д. и т.п.). Эти типы из поиска убираются, потому что у нас поиск по мнениям.

Дальше, есть типы forum (форум в обычном понимании этого слова - место публичного общения групп людей, объединённых общей темой и происходящего на форумном движке или движке «групп») и, наконец, blogs, в которые включаются дневники или сообщества на блогхостингах или персональных сайтах.

Блог в данном случае можно определить как сущность, которая удовлетворяет большинству нижеследующих правил:

- как правило, в нём высказывается личное мнение
- как правило, у него один (редко - чуть больше) авторов
- как правило, механизм на сайте подразумевает возможность комментирования или trackback
- как правило, блог работает на одном из стандартных блог-движков или хостингов (MovableType, WP, Register, Livejournal, blogs.mail.ru, etc)
- как правило, заметки (посты) в блоге располагаются в обратном хронологическом порядке
- как правило, на блоге написано, что он - блог

Отдельная категория - комментарии в блогах. Сейчас в поиск по блогам попадают комментарии с отдельных сайтов, но не с массовых блог-хостингов. И поэтому пока в качестве временной меры комментарии в блогах тоже считаются блогами. Что будет дальше - покажет будущее.

- То есть у вас есть "человеческая фильтрация"? А сколько этих контент-менеджеров? Ну и сколько их понадобится, если русская блогосфера вырастет в четыре раза через год?

- У нас есть люди, которые корректируют то, что сделали роботы. Сейчас их несколько, совсем немного. Надеюсь, что понадобится не сильно больше, потому что наши роботы тоже умнеют.

- Как ты оцениваешь размер "неучтенной блогосферы" - те блоги, которые не поддерживают RSS-трансляцию или вообще закрыты для индексации ботами?

- Процент тех, кто закрывает индексацию примерно нам известен - это около 17% для Livejournal.

RSS нету у очень маленького количества standalone-блогов. С блог-хостингами ситуация хуже - вот, например, journals.ru, в котором, кажется, единицы тысяч дневников, не имеет поддержки RSS. Ещё есть пара готских блог-хостингов, с тем же порядком дневников. Но это в сумме гораздо меньше 17% для ЖЖ.

То есть, максимальная оценка размера "неучтенной блогосферы" - 17%. В реальности меньше. Опять же, эти 17% неучтенными являются с некоторыми оговорками - мы всё равно скачиваем потоки тех, кто закрыл индексацию - мы не выдаём их в поиске. Скачиваем для показа подписчикам Яндекс.Ленты, а также для ситуации, когда человек решит галочку "не давать индексировать" снять - чтобы к этому моменту у нас уже был архив его блога.

- А ты не боишься, что усилится борьба с пауками - не только со стороны отдельных блоггеров, но и со стороны хостингов? Вот на Западе уже говорят об ограничениях на сканирование RSS...

- Это не борьба с пауками, это попытки сделать их набеги более разумными. Нам периодически жалуются владельцы блог-хостингов, что наш робот слишком рьян, и мы стараемся его попридержать. Буквально сегодня придумали способ сильно снизить его активность для крупных блог-хостингов.

- На днях у вас появились рейтинги по темам, так что стартовая страница сервиса стала похожа на блоголовки типа Blogus.ru или Bloglenta.ru. А чем ваше отличие?

- Наше принципиальное отличие от всех отечественных блоголовок в том, что нам для анализа доступны полные тексты записей более чем миллиона блогов. Это позволяет, например, выяснить, какие фильмы и сериалы сейчас чаще обсуждают; на какие СМИ больше ссылаются. Это позволяет анализировать категории (теги) не тысячи гиков, а всех тех, кто их употребляет.

Это позволяет также выделять наиболее популярные записи и даже "тему дня" - то, о чём сегодня говорят много, причём гораздо больше, чем раньше.

В принципе, у нас есть и другие идеи о том, что интересного можно извлечь из этого огромного массива данных. Надеюсь, что скоро это увидят все.

Ещё раз, возвращаясь к ответу на вопрос. Картина дня на "Блогусе" строится автоматически по паре тысяч источников, картина дня на "Блогленте" строится вручную людьми, у которых есть свои убеждения и мнения. В этих подходах несомненно есть своя ценность. "Яндекс" предпочитает строить картину дня автоматически на основе анализа всех мнений, которые можно проиндексировать.

- Погоди, давай уточним: как именно происходит сортировка по категориям? Люди же в блогах не делают маркировку "Сериалы", "Театры", "СМИ". То есть категории присваивают ваши контент-менеджеры? Или робот такой умный, что сам собирает все тексты о театрах?

- Ага, именно что "робот умный". Если ты нажмёшь на название конкретного фильма или сериала, ты увидишь те записи, которые отзываются об этом фильме или сериале по мнению робота.

- Но так получаются не все записи: человек мог дать интересную рецензию, но не употребить ключевых слов из сферы кино или театра.

- Мог не употребить, конечно. Но подход ко всем фильмам одинаковый, так что получается репрезентативно. Кроме того, мы стараемся учить роботов новым словам и методикам.

- А с другой стороны, кучу ключевых слов мог специально употребить спаммер. На Западе, говорят, уже каждый пятый блог - спаммерский, причем они лезут в первые строки выдачи поиска.

- Пока в русскоязычных блогах спамеры только ссылочные, которые надеются проспамить ссылками на свои сайты поисковые системы типа большого поиска "Яндекса". Таких мы довольно успешно баним специальными роботами - при поиске по блогам спам, если и прорывается иногда, то только в форумах, не в блогах.

На Западе наверняка ровно та же картина со спам-блогами, потому что основной траффик не с блогоискалок, а с больших поисковых систем.

- Но вы уже думали про блогопоисковую оптимизацию? Наняли какого-нибудь Блогопетренко?

- Теперь, с введением рейтингов, наверняка появятся попытки проспамить эти рейтинги. Это неизбежно, и мы готовы с этим бороться.

Кроме того, мы наняли и сделали руководителем Поиска по блогам самого успешного блогооптимизатора - Антона Волнухина, автора проекта Toster - блога в ЖЖ, который в целях исследования русской части Livejournal за счёт умелых манипуляций списком друзей сумел за 2-3 месяца раскрутиться так, что попал в двадцатку самых читаемых пользователей ЖЖ.

- Почему в рейтинг "Обсуждаемые новости" идут только те новости, которые есть в "Яндекс.Новостях"? Например, новостей "Вебпланеты" там нету, хотя в другом вашем же рейтинге - "СМИ" - наше издание стоит в первой тридцатке. То есть получается скорее реклама "Яндекс.Новостей", чем реальная картина новостных интересов. В отличие от "Блогленты", где люди могут выбрать действительно интересные новости независимо от "формата экспорта".

- "Обсуждаемые новости" сейчас рейтинг не без недостатков.

Про формат экспорта - ты, наверное, про то, что для того, чтобы стать партнёрами "Яндекс.Новостей", нужно сделать RSS-поток с полными текстами записей и подписать договор? Да, нужно. Полторы тысячи онлайн-СМИ и сайтов-представительств оффлайн-СМИ это сделали, так что новостная картина в сервисе представлена со всех возможных точек зрения, и все интересные новости туда попадают - если не в оригинале, то в виде перепечатки, как в случае с новостями с "Вебпланеты".

Впрочем, это в некотором роде оффтопик - "Яндекс.Новости" это соседний отдел, контент-сервисов, а я отвечаю за коммуникационные сервисы.

- Зачем нужно облако тэгов, кроме вступительного теста в Ассоциацию Анонимных Андроидов? Какую информацию можно извлечь, например, из того, что в блогах популярны тэги "фото" и "жизнь"? Или это действительно лишь нездоровая мода?

- Оно смешное. Я вообще нахожу "концепцию вебдваноль" довольно смешной (отчего она не перестаёт быть "хорошей"). А поскольку повеселиться любят все, в том числе и в Яндексе, то почему бы и нет?

Что такое облако тегов? Это способ компактно представить информацию о том, о чём пишут. А клик на тег даёт возможность сделать срез блогосферы и увидеть, что у неё там внутри. Можно на основании этого пытаться делать какие-то глубокомысленные выводы о блоггерах или о людях вообще, либо просто радоваться.

- ...либо породить новую развлекуху для окружающих - "тэговый спам"?

- Вряд ли. Во-первых, как я уже сказал, спамеров мы нещадно баним, а во-вторых, туда будут кликать немногие, так что особого смысла спамить именно теги нет.

- В рейтингах предполагается какая-то "историчность"? Сейчас там все только "за сутки", как понимаю?

- В "культурных" рейтингах - фильмы, театры, сериалы, выставки - история уже есть, и будет продолжать накапливаться каждый день. Мы думаем над соотношением трудоёмкости и целесообразности, возможно, что и сделаем историю - но не везде. Для рейтинга блоггеров сохранять полную историю всего миллиона довольно накладно, и вряд ли сильно востребовано.

- Что ты думаешь о заработках на блогах? Тут у нас куча разных моделей постоянно озвучивается - начиная от прямого заработка на личном контенте и кончая бизнесом блог-хостингов как захвата аудитории (но не понятно, для чего). Вот ты как человек, причастный к аналитике блоговой жизни, можешь сказать - где там деньги-то?

- Автономный (standalone) блоггер вполне сможет зарабатывать на контекстной рекламе в своём блоге, если он пишет на темы, на которые есть достаточное количество рекламодателей.

Соответственно, блог-хостинг может зарабатывать на контекстной рекламе тогда, когда есть тематика, и на медийной, когда под "лытдыбр" тематику подобрать не удалось. А уж захочет ли владелец блог-хостинга делиться с авторами блогов, зависит от него самого.

- Последний вопрос: ты не жалеешь, что забросил НПЖ из-за перехода в Яндекс? Ведь где-нибудь в США с таким социальным стартапом ты бы уже был миллионером. А так приходится работать простым менеджером роботов...

- Это был в основном стартап Коли Яремко и Алексея Кулакова, а не мой. Я лишь поучаствовал. НПЖ во многом не рассчитан на простого человека, и это главный design flaw. Сложнее и интереснее делать то, чем смогут пользоваться все.

Иными словами - нет, не жалею. Задач стало больше и они стали интереснее. Роботов не надо "менеджерить", надо помогать разработчикам придумывать и писать этих самых роботов.

разделы: интервью | Сервисы
теги: Web2.0

Другие интервью

Последние комментарии
об издании | тур по сайту | подписки и RSS | вопросы и ответы | размещение рекламы | наши контакты | алфавитный указатель

Copyright © 2001-2012 «Вебпланета». При перепечатке ссылка на «Вебпланету» обязательна.

хостинг от .masterhost