Самое горячее: Европа признала соцсети опасными (50); "Фобос-Грунт" уже не спасти (11); Мобильники убивают детей (26); ЕЩЕ >>
РАЗДЕЛЫ
Архив
« июнь 2020  
пн вт ср чт пт сб вс
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30          

"Яндекс" научился искать "в реальном времени"

Сервисы | Новости | 09.07.2010 15:35

"Яндекс" сообщил о запуске робота "Orange Crawler" и "Real-Time поиска". По заверениям разработчиков, новинки дают возможность индексировать новые документы в считанные минуты. Однако, как оказалось, на практике это не совсем так.

Собственно, так называемый "быстрый робот" работал у "Яндекса" уже несколько лет, но минимальная задержка все равно составляла более 20 минут и была неустранимой. С "Orange Crawler" и "Real-Time поиском", разработанными в калифорнийском отделении компании, подобные задержки как бы должны кануть в Лету.

"Orange познает ссылочную структуру интернета. Для этого ему достаточно скачивать и переобходить только часть "старых" страниц — хоть и достаточно большую, - поясняют разработчики. - Полученные знания позволяют Orange обнаруживать почти все новые страницы, выбирать из огромного их количества все хоть сколько-нибудь интересные и мгновенно рассчитывать для них ссылочные факторы ранжирования. Вслед за роботом Orange документы обрабатывает Real-Time поиск — он подхватывает выбранные документы, индексирует их и за секунды выкладывает на поиск."

Поскольку рунетчики уже давно выработали стойкое критическое отношение к любой громкой презентации такого плана, "разоблачения черной магии" не пришлось ждать долго. Блогеры "Хабрахабра" просто-напросто попытались воспользоваться поиском "Яндекса", чтобы найти хотя бы тот же пресс-релиз о "поиске в реальном времени". Однако в выдаче не отыскалось ни оригинального пресс-релиза, ни его копии на "Хабрахабре" (и то, и другое сообщение появились в результатах поиска лишь через 40-50 минут). А вот в результатах поиска "Google" эти публикации отобразились почти моментально.

Впрочем, в официальной публикации о новинке есть небезынтересная оговорка: "Новый апельсиновый робот не прокачивает все страницы интернета, а извлекает из него свежий и сочный контент. Количество страниц в интернете бесконечно, поэтому важно их обходить в определенном порядке, чтобы в первую очередь были скачаны страницы с ценной информацией". Из чего следует, что страницы с никому не нужной информацией индексируются в последнюю очередь, что, по-видимому, и объясняет, почему пресс-релиз о "поиске в реальном времени" попал в выдачу с опозданием.

разделы: Новости | Сервисы

Другие новости

Последние комментарии
об издании | тур по сайту | подписки и RSS | вопросы и ответы | размещение рекламы | наши контакты | алфавитный указатель

Copyright © 2001-2020 «Вебпланета». При перепечатке ссылка на «Вебпланету» обязательна.

хостинг от .masterhost