|
РАЗДЕЛЫ
Архив
|
Роман Иванов: "Я нахожу концепцию Web 2.0 довольно смешной"Алексей Андреев На прошлой неделе стартовая страница существенно обновилась: там появились разнообразные рейтинги и даже облако тэгов. О секретах роботов, которые за всем этим стоят, рассказал "Вебпланете" Роман Иванов, руководитель отдела коммуникационных сервисов компании. - Для начала - что все-таки считается блогами в вашей искалке? А то в интервью под девизом "Я спросил у Воложа" тема так и не раскрылась. - У нас есть автомат, который проводит предварительную разметку RSS-потоков. И есть контент-менеджеры, которые по определенным правилам назначают потокам типы. Основные типы - news (новости примерно в смысле, в котором их понимают "Яндекс.Новости"), corpnews (корпоративные новости не в формате блога), nonformat (неформат - вакансии, ТВ-программа, прогноз погоды, объявления и т.д. и т.п.). Эти типы из поиска убираются, потому что у нас поиск по мнениям. Дальше, есть типы forum (форум в обычном понимании этого слова - место публичного общения групп людей, объединённых общей темой и происходящего на форумном движке или движке «групп») и, наконец, blogs, в которые включаются дневники или сообщества на блогхостингах или персональных сайтах. Блог в данном случае можно определить как сущность, которая удовлетворяет большинству нижеследующих правил: - как правило, в нём высказывается личное мнение Отдельная категория - комментарии в блогах. Сейчас в поиск по блогам попадают комментарии с отдельных сайтов, но не с массовых блог-хостингов. И поэтому пока в качестве временной меры комментарии в блогах тоже считаются блогами. Что будет дальше - покажет будущее. - То есть у вас есть "человеческая фильтрация"? А сколько этих контент-менеджеров? Ну и сколько их понадобится, если русская блогосфера вырастет в четыре раза через год? - У нас есть люди, которые корректируют то, что сделали роботы. Сейчас их несколько, совсем немного. Надеюсь, что понадобится не сильно больше, потому что наши роботы тоже умнеют. - Как ты оцениваешь размер "неучтенной блогосферы" - те блоги, которые не поддерживают RSS-трансляцию или вообще закрыты для индексации ботами? - Процент тех, кто закрывает индексацию примерно нам известен - это около 17% для Livejournal. RSS нету у очень маленького количества standalone-блогов. С блог-хостингами ситуация хуже - вот, например, journals.ru, в котором, кажется, единицы тысяч дневников, не имеет поддержки RSS. Ещё есть пара готских блог-хостингов, с тем же порядком дневников. Но это в сумме гораздо меньше 17% для ЖЖ. То есть, максимальная оценка размера "неучтенной блогосферы" - 17%. В реальности меньше. Опять же, эти 17% неучтенными являются с некоторыми оговорками - мы всё равно скачиваем потоки тех, кто закрыл индексацию - мы не выдаём их в поиске. Скачиваем для показа подписчикам Яндекс.Ленты, а также для ситуации, когда человек решит галочку "не давать индексировать" снять - чтобы к этому моменту у нас уже был архив его блога. - А ты не боишься, что усилится ... - Это не борьба с пауками, это попытки сделать их набеги более разумными. Нам периодически жалуются владельцы блог-хостингов, что наш робот слишком рьян, и мы стараемся его попридержать. Буквально сегодня придумали способ сильно снизить его активность для крупных блог-хостингов. - На днях у вас появились рейтинги по темам, так что стартовая страница сервиса стала похожа на блоголовки типа Blogus.ru или Bloglenta.ru. А чем ваше отличие? - Наше принципиальное отличие от всех отечественных блоголовок в том, что нам для анализа доступны полные тексты записей более чем миллиона блогов. Это позволяет, например, выяснить, какие фильмы и сериалы сейчас чаще обсуждают; на какие СМИ больше ссылаются. Это позволяет анализировать категории (теги) не тысячи гиков, а всех тех, кто их употребляет. Это позволяет также выделять наиболее популярные записи и даже "тему дня" - то, о чём сегодня говорят много, причём гораздо больше, чем раньше. В принципе, у нас есть и другие идеи о том, что интересного можно извлечь из этого огромного массива данных. Надеюсь, что скоро это увидят все. Ещё раз, возвращаясь к ответу на вопрос. Картина дня на "Блогусе" строится автоматически по паре тысяч источников, картина дня на "Блогленте" строится вручную людьми, у которых есть свои убеждения и мнения. В этих подходах несомненно есть своя ценность. "Яндекс" предпочитает строить картину дня автоматически на основе анализа всех мнений, которые можно проиндексировать. - Погоди, давай уточним: как именно происходит сортировка по категориям? Люди же в блогах не делают маркировку "Сериалы", "Театры", "СМИ". То есть категории присваивают ваши контент-менеджеры? Или робот такой умный, что сам собирает все тексты о театрах? - Ага, именно что "робот умный". Если ты нажмёшь на название конкретного фильма или сериала, ты увидишь те записи, которые отзываются об этом фильме или сериале по мнению робота. - Но так получаются не все записи: человек мог дать интересную рецензию, но не употребить ключевых слов из сферы кино или театра. - Мог не употребить, конечно. Но подход ко всем фильмам одинаковый, так что получается репрезентативно. Кроме того, мы стараемся учить роботов новым словам и методикам. - А с другой стороны, кучу ключевых слов мог специально употребить спаммер. На Западе, говорят, уже каждый пятый блог - спаммерский, причем они лезут в первые строки выдачи поиска. - Пока в русскоязычных блогах спамеры только ссылочные, которые надеются проспамить ссылками на свои сайты поисковые системы типа большого поиска "Яндекса". Таких мы довольно успешно баним специальными роботами - при поиске по блогам спам, если и прорывается иногда, то только в форумах, не в блогах. На Западе наверняка ровно та же картина со спам-блогами, потому что основной траффик не с блогоискалок, а с больших поисковых систем. - Но вы уже думали про блогопоисковую оптимизацию? Наняли какого-нибудь Блогопетренко? - Теперь, с введением рейтингов, наверняка появятся попытки проспамить эти рейтинги. Это неизбежно, и мы готовы с этим бороться. Кроме того, мы наняли и сделали руководителем Поиска по блогам самого успешного блогооптимизатора - , автора проекта - блога в ЖЖ, который в целях исследования русской части Livejournal за счёт умелых манипуляций списком друзей сумел за 2-3 месяца раскрутиться так, что попал в двадцатку . - Почему в рейтинг "Обсуждаемые новости" идут только те новости, которые есть в "Яндекс.Новостях"? Например, новостей "Вебпланеты" там нету, хотя в другом вашем же рейтинге - - наше издание стоит в первой тридцатке. То есть получается скорее реклама "Яндекс.Новостей", чем реальная картина новостных интересов. В отличие от "Блогленты", где люди могут выбрать действительно интересные новости независимо от "формата экспорта". - "Обсуждаемые новости" сейчас рейтинг не без недостатков. Про формат экспорта - ты, наверное, про то, что для того, чтобы стать партнёрами "Яндекс.Новостей", нужно сделать RSS-поток с полными текстами записей и подписать договор? Да, нужно. Полторы тысячи онлайн-СМИ и сайтов-представительств оффлайн-СМИ это сделали, так что новостная картина в сервисе представлена со всех возможных точек зрения, и все интересные новости туда попадают - если не в оригинале, то в виде перепечатки, как в случае с новостями с "Вебпланеты". Впрочем, это в некотором роде оффтопик - "Яндекс.Новости" это соседний отдел, контент-сервисов, а я отвечаю за коммуникационные сервисы. - Зачем нужно облако тэгов, кроме вступительного теста в Ассоциацию Анонимных Андроидов? Какую информацию можно извлечь, например, из того, что в блогах популярны тэги "фото" и "жизнь"? Или это действительно лишь нездоровая мода? - Оно смешное. Я вообще нахожу "концепцию вебдваноль" довольно смешной (отчего она не перестаёт быть "хорошей"). А поскольку повеселиться любят все, в том числе и в Яндексе, то почему бы и нет? Что такое облако тегов? Это способ компактно представить информацию о том, о чём пишут. А клик на тег даёт возможность сделать срез блогосферы и увидеть, что у неё там внутри. Можно на основании этого пытаться делать какие-то глубокомысленные выводы о блоггерах или о людях вообще, либо просто радоваться. - ...либо породить новую развлекуху для окружающих - "тэговый спам"? - Вряд ли. Во-первых, как я уже сказал, спамеров мы нещадно баним, а во-вторых, туда будут кликать немногие, так что особого смысла спамить именно теги нет. - В рейтингах предполагается какая-то "историчность"? Сейчас там все только "за сутки", как понимаю? - В "культурных" рейтингах - фильмы, театры, сериалы, выставки - история уже есть, и будет продолжать накапливаться каждый день. Мы думаем над соотношением трудоёмкости и целесообразности, возможно, что и сделаем историю - но не везде. Для рейтинга блоггеров сохранять полную историю всего миллиона довольно накладно, и вряд ли сильно востребовано. - Что ты думаешь о заработках на блогах? Тут у нас куча разных моделей постоянно озвучивается - начиная от прямого заработка на личном контенте и кончая бизнесом блог-хостингов как захвата аудитории (но не понятно, для чего). Вот ты как человек, причастный к аналитике блоговой жизни, можешь сказать - где там деньги-то? - Автономный (standalone) блоггер вполне сможет зарабатывать на контекстной рекламе в своём блоге, если он пишет на темы, на которые есть достаточное количество рекламодателей. Соответственно, блог-хостинг может зарабатывать на контекстной рекламе тогда, когда есть тематика, и на медийной, когда под "лытдыбр" тематику подобрать не удалось. А уж захочет ли владелец блог-хостинга делиться с авторами блогов, зависит от него самого. - Последний вопрос: ты не жалеешь, что забросил из-за перехода в Яндекс? Ведь где-нибудь в США с таким социальным стартапом ты бы уже был миллионером. А так приходится работать простым менеджером роботов... - Это был в основном стартап Коли Яремко и Алексея Кулакова, а не мой. Я лишь поучаствовал. НПЖ во многом не рассчитан на простого человека, и это главный design flaw. Сложнее и интереснее делать то, чем смогут пользоваться все. Иными словами - нет, не жалею. Задач стало больше и они стали интереснее. Роботов не надо "менеджерить", надо помогать разработчикам придумывать и писать этих самых роботов. комментарии(9) | Материалы по теме "Яндекс" раскрутит популярных блоггеров Другие интервьюНовости наших партнеров |
Последние комментарии
Гость про Милиция выключила сервера "Агавы" без разбора (19)
Bitonic про Как не пропасть на сайте знакомств (7)
Гость про Детское порно не умрет без стукачей (70)
Игорь Крейн про 20 уроков программирования (16)
все комментарии Гость отвечает: ЯРОСТЬ Fand отвечает: Мамба - мошенники?! Гость отвечает: Как получить снимок местности со спутника\ Гость отвечает: Как создать браузерную игру? Ульяна отвечает: уже месяц не могу зайти в контакт. Гость19.03.2010.Людмила.2 отвечает: почему я не могу зайти на сайт одноклассники Ambassador отвечает: Что нужно для создания торрент-сервера? Гость отвечает: Вконтакте ворует деньги юзеров?? |
Copyright © 2001-2010 «Вебпланета». При перепечатке ссылка на «Вебпланету» обязательна. Техническая поддержка и дизайн: Sterno.ru