Самое горячее: Европа признала соцсети опасными (50); "Фобос-Грунт" уже не спасти (11); Мобильники убивают детей (26); ЕЩЕ >>
РАЗДЕЛЫ
Архив
« июль 2020  
пн вт ср чт пт сб вс
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30          

Илья Сегалович: Яндекс - это всерьез и надолго

| архивная статья | 04.12.2001 22:49

По сути, это лог разговора в аське Gray`я (автор и создатель SearchEngines.ru) с Ильей Сегаловичем, главным программистом Яндекса, из которого выдраны даты сообщений и переформатирован текст.

Как получилось, что Вы начали заниматься вопросами поиска? Возникла очередная задача или сознательно решили работать именно в этом направлении?

В лингвистику и поисковые системы я сначала пришел ради приработка, и относился к этой деятельности поверхностно и снисходительно (до этого я занимался интегральными уравнениями второго рода в геофизике). Позвал меня сначала на мелкие, а потом на более крупные вещи мой школьный друг – Аркаша. Постепенно я втянулся и понял, что это всерьез и надолго.

Аркаша - это Волож?

:) воложок

А приходя в лингвистику, Вы какое-то представление о сфере деятельности имели, или Вы учились в бою - есть задание, надо его выполнять?

Когда мне Волож рассказал про их с Борковским идею искать со словоформами, я решил, что это заезжено и тривиально потом стал писать, влез в коды, увидел что можно все ускорить в 5 раз, ускорил, стало интересней и т.д. и т.д. Потом, мы решили переделать морфологию Борковского (a.k.a. Lexicon-Ortodok) и я познакомился с Апресяном и Ко. Стало еще интересней :)

И когда в итоге интерес достиг высшей точки?

Надеюсь что это еще впереди. Хотя периодически меня посещают мысли типа: "ну что, наконец, ты сделал то, что тебя просил Волож лет 7 назад, можно уже спокойно вернуться в геофизику". Может, я так и сделаю, когда-нибудь, пока мне здесь интересно.

А в чем вопрос? Геофизика тянет?

Если бы не было веба, то поисковые системы - сильно вычерпанная тема. Слава богу, появился веб и задача сразу стала бесконечной. Заодно и востребованность (социальная значимость) выросла на порядки - это случилось как-то вдруг, в 1995-1996 годах.

Т.е. развитие Интернета поставило задачу поиска по бесконечной (теоретически) базе, чем оживило разработку алгоритмов поиска? Я правильно понял?

Да. Началась война с размерами, спаммерами, зеркалами и т.д. и т.п. Появилась жуткая конкуренция - стало очень интересно жить.

И именно это держит Вас в Яндексе?

Ну, зачем же так упрощать :) Зарплата еще хорошая :)

Понятно, т.е. понятно, что начало поиску, скажем, положил Волож. А все дальнейшее развитие? Неужели это только борьба со спаммерами?

Ну почему же. Это масса интересных задач как технического, так и социального смысла: mirrors mirrors on the web, каталог и его связь с поиском, размеры большие, да много чего еще. Вообщем, не только и не столько спаммеры, сколько просто обеспечение свежести, полноты, точности в масштабах веба - очень интересная задача.

В развитии Яндекса Вы как-то оглядываетесь на опыт других поисковиков? Скажем, технология PageRank, применяемая Google, учитывается в Яндексе?

Pagerank - это не технология, а классический алгоритм расчета "взвешенной цитируемости" - простая задача из теории графов. В интернете можно найти учебники по теории графов с очень похожими задачами (определение победителя в шахматном турнире по швейцарке и т.п.) Да, мы считаем взвешенный индекс цитирования - но "бес кроется в деталях".

Google прямо говорит, что наличие ссылок необходимо для индексации документа, т.е. PageRank - это основной фактор в поиске.

Он хитрит. Это "ПиАр" их собственного алгоритма, не более того. В запросах из двух и более слов PageRank играет подчиненную роль, а таких запросов большинство.

<Илья, а вообще что-то глобальное в развитии поиска на Яндексе планируется или пока только шлифовка, устранение глюков и т.д.?

Глобального мало. В основном глюки, ошибки и т.д. Поиск по картинкам вот делаем новый.

А какие вообще теоретически есть возможности модернизации поиска? Т.е. что можно сделать, но оно пока не имеет смысла или нерентабельно?

Я пытался на это отвечать в вопроснике украинцам - более широкое и глубже осмысленное использование "внетекстовых" критериев (то есть, инфомации "вне" текста индексируемого документа) - это надо раскрывать подробнее:

- более широкое применение P2P;

- умная кластеризация выдачи;

- развитие контекстно-зависимого аннотирования.

Т.е. в целом это можно назвать созданием искусственного интеллекта на сервере, который бы анализировал запрос и искал по доступной базе по тем же критериям, что и человек?

Ни за что на свете - я ненавижу сочетание «искусственный интеллект». У нас оно используется, в основном, в издевательском смысле. Посмотрите, как напыщенно переводится information retrieval на русский - никто не пишет "поиск", самое скромное - "интеллектуальные системы" :). Оставим "интеллект" конторам типа гербалайф-эскалибур, мы же просто ищем.

Ну, это вопрос личных симпатий. Реализация этих планов - дело далекого будущего или что-то будет реализовываться в скором будущем?

Кое-что в ближайшем, кое-какие внетекстовые критерии мы добавим очень скоро, увидите. Скоро будет сделан шаг в сторону того, что я называл «контекстно-ориентированным аннотированием», движемся также и в сторону новой кластеризации (по запросам).

Понятно. Яндекс выглядит одной из немногих успешных интернет-компаний. Это так на самом деле?

По секрету (хотя, наверное, начальство еще доложит) последний месяц был минус 20 тысяч. Это большое достижение по сравнению с временами, когда было минус 100.

Долларов?

Конечно.

Какая атмосфера царит внутри компании - элемент гонок на выживание имеется?

Атмосфера, по-моему, хорошая. Элемент гонок есть, но, в основном, у старых лошадок - сидим до полуночи, хотя и среди молодежи есть люди, работающие не только за зарплату.

Но, если серьезно, кроме Вас, у меня в аське еще есть Алексей Амилющенко, и он тоже постоянно в онлайне. Это признак хорошего тона - сидеть допоздна? В компании имеется понятие распорядка рабочего дня?

У техподдеркжи - да, у секретарей -да, у продавцов - да, в какой-то мере, у программистов и менеджеров рабочий день ненормирован.

Т.е. свободное посещение?

Есть пара ребят - студентов полставочников, у них более менее свободное. Остальные приходят каждый день часов на 8-12 (кто как) от 10-11-12-13-14 до 8-9-10-11-12-1. Некоторые приходят и в 9 (Волож, иногда я).

А выговоры в Яндексе объявляют?

Выгоняют иногда. Одного вот выгнали и он устроил нам хакерскую атаку :)

Возможна ли в Яндексе ситуация, аналогичная ситуации в Рамблере в начале года, когда оттуда ушла вся команда, занимающаяся поиском?

Ситуация в Рамблере случилась в июне-сентябре. Собственно я неплохо себе представляю, что там случилось, но наше интервью ведь про Яндекс? :) Не думаю что возможен уход команды - хотя бы потому, что ядро ее - люди, которые придумали и слово яндекс и программу (она много старше и портала и компании), очень преданы Яндексу. Покупателей же с мешком денег, которые могли бы, купив яндекс, распустить разработчиков, как это случилось в Рамблере - не видно, да и планов по продаже у руководства нет.

Т.е. появление в руководстве людей, которые начнут перестраивать компанию - маловероятно?

Маловероятно. Хотя какие-то реструктурирующие моменты возможны, но сокращений не предвидится, особенно в ядре группы.

А контакты с другими поисковиками в Рунете Яндекс поддерживает? К примеру, упоминавшиеся с иронией на форуме посиделки с пивом имеют место?

Не случились :(. Хотя Кеву я знаю с 1998 года - очень симпатичный человек. Из апорта я знаю Женю Киреева и пиво с ним пил в Питере году примерно в 1999.

Теперь личные вопросы. Илья, вы курите?

Курил лет в 12, залезая на деревья, потом бросил - не смог найти смысл.

У Вас довольно большая семья, насколько я помню - как дети и Маша относятся к сидению на работе допоздна?

Отрицательно. Звонят, зовут, но понимают. На прошлой неделе я смог с ними съездить в Питер попрощаться с клоунами, по выходным ходим вместе в кино, по утрам я детей в школу развожу, в общем - не так уж все плохо. Раньше (до того, как стал начальником) было намного больше свободного времени.

Это всегда так. Но в этом есть свои хорошие стороны. Какого рода светская жизнь у вас случается?

Дружу с хорошими джазменами, хожу в ОГИ с детьми по воскресным утрам. Иногда Машу (и меня, как ее мужа) зовут в разные посольства - недавно был в канадском, на ужине у посла, там были разные знаменитости. В Питере тусуюсь у Коли Васина довольно часто, знаю некоторых питерских и московских музыкантов. Наверное, что-то еще, не помню.

А какую музыку предпочитаете?

Каждый день разную. Сейчас кубинскую в версии от Putumayo и Marc Ribot, Cesaria Evora, разные блюзовые и госпельные гиганты, Джеймс Браун - The hardest woarking man in show business, Tom Waits, в общем, много чего из русского, аукцЫон... и не люблю электронные ударные.

Обрисуйте свое естественное состояние. Скажем, за компьютером, с чашкой кофе или в виде клоуна, играя с детьми.

Кофе последнее время пью "декаф", чтобы исключить ненужное искусственное стимулирование. Самое естественное состояние - "muse" - читать, раздумывать - жаль, редко удается. Очень естественно чувствую себя играя в разные театральные игрища. Люблю кодировать (точнее, воображать, как вот это надо кодировать).

Зачем Вы ходите на SearchEngines.ru?

Читать что пишут :). Полезный хороший ресурс. Но, как бы это сказать поточнее - направленность у вас такая, что не позволяет там представителю Яндекса фигурировать в виде группы поддержки, агента влияния и т.д., а то получится, что:

- мы поддерживаем/связаны/дружим с "оптимизаторами";

- мы оказываем преференции одним оптимизаторам в ущерб другим и т.д.

Вообще на ваш форум я попал за месяц до вашего приглашения (ребята из addurl нашли вас и показали всем, как "спаммерское гнездо". И у меня сразу сложилось очень отрицательное отношение. Писать я начал только после того, как вы затащили Ашманова и он в течении месяца непрерывно поливал Яндекс. Заметьте, что мы ничего на тему оптимизации не пишем, только по поиску/технологиям, плюс базовые сведения о том, как работает Яндекс. На эти темы нам интересно писать и за них мы вас полюбили. И все же, соблюдается определенное дистанцирование, согласитесь.

Ну, естественно, что ноухау вы раскрывать не будете. Я этого и не жду, и не для этого приглашал, но в любом случае ни вам, ни "апортовцам", ни Шабанову, например, не отделаться от того, что вы участвуете в форуме.

Это понятно. Я надеюсь, вы на меня не обижаетесь за некоторую резкость – резкость, скорее в силу профессионального долга. Вы оптимизируете, мы придумываем как с этим бороться - то есть, ничего личного

в этой борьбе нет.

Абсолютно не обижаюсь. Тем более, что я давно уже не оптимизирую :). Спасибо за интервью, Илья.

Не за что. Вам спасибо.

разделы:

Другие

Последние комментарии
об издании | тур по сайту | подписки и RSS | вопросы и ответы | размещение рекламы | наши контакты | алфавитный указатель

Copyright © 2001-2020 «Вебпланета». При перепечатке ссылка на «Вебпланету» обязательна.

хостинг от .masterhost