РАЗДЕЛЫ
Архив
|
Роман Иванов: "Я нахожу концепцию Web 2.0 довольно смешной"Алексей Андреев На прошлой неделе стартовая страница - Для начала - что все-таки считается блогами в вашей искалке? А то в интервью под девизом "Я спросил у Воложа" тема так и не раскрылась. - У нас есть автомат, который проводит предварительную разметку RSS-потоков. И есть контент-менеджеры, которые по определенным правилам назначают потокам типы. Основные типы - news (новости примерно в смысле, в котором их понимают "Яндекс.Новости"), corpnews (корпоративные новости не в формате блога), nonformat (неформат - вакансии, ТВ-программа, прогноз погоды, объявления и т.д. и т.п.). Эти типы из поиска убираются, потому что у нас поиск по мнениям. Дальше, есть типы forum (форум в обычном понимании этого слова - место публичного общения групп людей, объединённых общей темой и происходящего на форумном движке или движке «групп») и, наконец, blogs, в которые включаются дневники или сообщества на блогхостингах или персональных сайтах. Блог в данном случае можно определить как сущность, которая удовлетворяет большинству нижеследующих правил: - как правило, в нём высказывается личное мнение Отдельная категория - комментарии в блогах. Сейчас в поиск по блогам попадают комментарии с отдельных сайтов, но не с массовых блог-хостингов. И поэтому пока в качестве временной меры комментарии в блогах тоже считаются блогами. Что будет дальше - покажет будущее. - То есть у вас есть "человеческая фильтрация"? А сколько этих контент-менеджеров? Ну и сколько их понадобится, если русская блогосфера вырастет в четыре раза через год? - У нас есть люди, которые корректируют то, что сделали роботы. Сейчас их несколько, совсем немного. Надеюсь, что понадобится не сильно больше, потому что наши роботы тоже умнеют. - Как ты оцениваешь размер "неучтенной блогосферы" - те блоги, которые не поддерживают RSS-трансляцию или вообще закрыты для индексации ботами? - Процент тех, кто закрывает индексацию примерно нам известен - это около 17% для Livejournal. RSS нету у очень маленького количества standalone-блогов. С блог-хостингами ситуация хуже - вот, например, journals.ru, в котором, кажется, единицы тысяч дневников, не имеет поддержки RSS. Ещё есть пара готских блог-хостингов, с тем же порядком дневников. Но это в сумме гораздо меньше 17% для ЖЖ. То есть, максимальная оценка размера "неучтенной блогосферы" - 17%. В реальности меньше. Опять же, эти 17% неучтенными являются с некоторыми оговорками - мы всё равно скачиваем потоки тех, кто закрыл индексацию - мы не выдаём их в поиске. Скачиваем для показа подписчикам Яндекс.Ленты, а также для ситуации, когда человек решит галочку "не давать индексировать" снять - чтобы к этому моменту у нас уже был архив его блога. - А ты не боишься, что усилится - Это не борьба с пауками, это попытки сделать их набеги более разумными. Нам периодически жалуются владельцы блог-хостингов, что наш робот слишком рьян, и мы стараемся его попридержать. Буквально сегодня придумали способ сильно снизить его активность для крупных блог-хостингов. - На днях у вас появились рейтинги по темам, так что стартовая страница сервиса стала похожа на блоголовки типа Blogus.ru или Bloglenta.ru. А чем ваше отличие? - Наше принципиальное отличие от всех отечественных блоголовок в том, что нам для анализа доступны полные тексты записей более чем миллиона блогов. Это позволяет, например, выяснить, какие фильмы и сериалы сейчас чаще обсуждают; на какие СМИ больше ссылаются. Это позволяет анализировать категории (теги) не тысячи гиков, а всех тех, кто их употребляет. Это позволяет также выделять наиболее популярные записи и даже "тему дня" - то, о чём сегодня говорят много, причём гораздо больше, чем раньше. В принципе, у нас есть и другие идеи о том, что интересного можно извлечь из этого огромного массива данных. Надеюсь, что скоро это увидят все. Ещё раз, возвращаясь к ответу на вопрос. Картина дня на "Блогусе" строится автоматически по паре тысяч источников, картина дня на "Блогленте" строится вручную людьми, у которых есть свои убеждения и мнения. В этих подходах несомненно есть своя ценность. "Яндекс" предпочитает строить картину дня автоматически на основе анализа всех мнений, которые можно проиндексировать. - Погоди, давай уточним: как именно происходит сортировка по категориям? Люди же в блогах не делают маркировку "Сериалы", "Театры", "СМИ". То есть категории присваивают ваши контент-менеджеры? Или робот такой умный, что сам собирает все тексты о театрах? - Ага, именно что "робот умный". Если ты нажмёшь на название конкретного фильма или сериала, ты увидишь те записи, которые отзываются об этом фильме или сериале по мнению робота. - Но так получаются не все записи: человек мог дать интересную рецензию, но не употребить ключевых слов из сферы кино или театра. - Мог не употребить, конечно. Но подход ко всем фильмам одинаковый, так что получается репрезентативно. Кроме того, мы стараемся учить роботов новым словам и методикам. - А с другой стороны, кучу ключевых слов мог специально употребить спаммер. На Западе, говорят, уже каждый пятый блог - спаммерский, причем они лезут в первые строки выдачи поиска. - Пока в русскоязычных блогах спамеры только ссылочные, которые надеются проспамить ссылками на свои сайты поисковые системы типа большого поиска "Яндекса". Таких мы довольно успешно баним специальными роботами - при поиске по блогам спам, если и прорывается иногда, то только в форумах, не в блогах. На Западе наверняка ровно та же картина со спам-блогами, потому что основной траффик не с блогоискалок, а с больших поисковых систем. - Но вы уже думали про блогопоисковую оптимизацию? Наняли какого-нибудь Блогопетренко? - Теперь, с введением рейтингов, наверняка появятся попытки проспамить эти рейтинги. Это неизбежно, и мы готовы с этим бороться. Кроме того, мы наняли и сделали руководителем Поиска по блогам самого успешного блогооптимизатора - - Почему в рейтинг "Обсуждаемые новости" идут только те новости, которые есть в "Яндекс.Новостях"? Например, новостей "Вебпланеты" там нету, хотя в другом вашем же рейтинге - - "Обсуждаемые новости" сейчас рейтинг не без недостатков. Про формат экспорта - ты, наверное, про то, что для того, чтобы стать партнёрами "Яндекс.Новостей", нужно сделать RSS-поток с полными текстами записей и подписать договор? Да, нужно. Полторы тысячи онлайн-СМИ и сайтов-представительств оффлайн-СМИ это сделали, так что новостная картина в сервисе представлена со всех возможных точек зрения, и все интересные новости туда попадают - если не в оригинале, то в виде перепечатки, как в случае с новостями с "Вебпланеты". Впрочем, это в некотором роде оффтопик - "Яндекс.Новости" это соседний отдел, контент-сервисов, а я отвечаю за коммуникационные сервисы. - Зачем нужно облако тэгов, кроме вступительного теста в Ассоциацию Анонимных Андроидов? Какую информацию можно извлечь, например, из того, что в блогах популярны тэги "фото" и "жизнь"? Или это действительно лишь нездоровая мода? - Оно смешное. Я вообще нахожу "концепцию вебдваноль" довольно смешной (отчего она не перестаёт быть "хорошей"). А поскольку повеселиться любят все, в том числе и в Яндексе, то почему бы и нет? Что такое облако тегов? Это способ компактно представить информацию о том, о чём пишут. А клик на тег даёт возможность сделать срез блогосферы и увидеть, что у неё там внутри. Можно на основании этого пытаться делать какие-то глубокомысленные выводы о блоггерах или о людях вообще, либо просто радоваться. - ...либо породить новую развлекуху для окружающих - "тэговый спам"? - Вряд ли. Во-первых, как я уже сказал, спамеров мы нещадно баним, а во-вторых, туда будут кликать немногие, так что особого смысла спамить именно теги нет. - В рейтингах предполагается какая-то "историчность"? Сейчас там все только "за сутки", как понимаю? - В "культурных" рейтингах - фильмы, театры, сериалы, выставки - история уже есть, и будет продолжать накапливаться каждый день. Мы думаем над соотношением трудоёмкости и целесообразности, возможно, что и сделаем историю - но не везде. Для рейтинга блоггеров сохранять полную историю всего миллиона довольно накладно, и вряд ли сильно востребовано. - Что ты думаешь о заработках на блогах? Тут у нас куча разных моделей постоянно озвучивается - начиная от прямого заработка на личном контенте и кончая бизнесом блог-хостингов как захвата аудитории (но не понятно, для чего). Вот ты как человек, причастный к аналитике блоговой жизни, можешь сказать - где там деньги-то? - Автономный (standalone) блоггер вполне сможет зарабатывать на контекстной рекламе в своём блоге, если он пишет на темы, на которые есть достаточное количество рекламодателей. Соответственно, блог-хостинг может зарабатывать на контекстной рекламе тогда, когда есть тематика, и на медийной, когда под "лытдыбр" тематику подобрать не удалось. А уж захочет ли владелец блог-хостинга делиться с авторами блогов, зависит от него самого. - Последний вопрос: ты не жалеешь, что забросил - Это был в основном стартап Коли Яремко и Алексея Кулакова, а не мой. Я лишь поучаствовал. НПЖ во многом не рассчитан на простого человека, и это главный design flaw. Сложнее и интереснее делать то, чем смогут пользоваться все. Иными словами - нет, не жалею. Задач стало больше и они стали интереснее. Роботов не надо "менеджерить", надо помогать разработчикам придумывать и писать этих самых роботов. комментарии(9) | Материалы по теме "Яндекс" раскрутит популярных блоггеров Другие интервью
|
Последние комментарии
Гость про Суд велел "Твиттеру" сдать сторонников WikiLeaks (12)
Гость про Книгоиздатели начали судиться с торрентами (2)
l_e_x_a про "ВКонтакте" принудительно протестирует пользователей (35)
andrey_kadetov про Google назвал Facebook "ловушкой без выхода" (6)
volv про День папуасского робошахтёра (14)
l_e_x_a про Русские кликботы признаны самыми активными (11)
все комментарии looli спрашивает: Земля вампиров смотреть онлайн в HD качестве looli спрашивает: Зеленый Фонарь смотреть онлайн в HD качестве looli спрашивает: Защитник смотреть онлайн в HD качестве looli спрашивает: Запретная зона смотреть онлайн в HD качестве looli спрашивает: Закон доблести смотреть онлайн в HD качестве looli спрашивает: Вышибала смотреть онлайн в HD качестве looli спрашивает: Встречный ветер смотреть онлайн в HD качестве looli спрашивает: Все любят китов смотреть онлайн в HD качестве |
Copyright © 2001-2020 «Вебпланета». При перепечатке ссылка на «Вебпланету» обязательна.