"Яндекс" научился искать "в реальном времени"

≡ Сервисы | Новости | 09.07.2010 15:35

"Яндекс" сообщил о запуске робота "Orange Crawler" и "Real-Time поиска". По заверениям разработчиков, новинки дают возможность индексировать новые документы в считанные минуты. Однако, как оказалось, на практике это не совсем так.

Собственно, так называемый "быстрый робот" работал у "Яндекса" уже несколько лет, но минимальная задержка все равно составляла более 20 минут и была неустранимой. С "Orange Crawler" и "Real-Time поиском", разработанными в калифорнийском отделении компании, подобные задержки как бы должны кануть в Лету.

"Orange познает ссылочную структуру интернета. Для этого ему достаточно скачивать и переобходить только часть "старых" страниц — хоть и достаточно большую, - поясняют разработчики. - Полученные знания позволяют Orange обнаруживать почти все новые страницы, выбирать из огромного их количества все хоть сколько-нибудь интересные и мгновенно рассчитывать для них ссылочные факторы ранжирования. Вслед за роботом Orange документы обрабатывает Real-Time поиск — он подхватывает выбранные документы, индексирует их и за секунды выкладывает на поиск."

Поскольку рунетчики уже давно выработали стойкое критическое отношение к любой громкой презентации такого плана, "разоблачения черной магии" не пришлось ждать долго. Блогеры "Хабрахабра" просто-напросто попытались воспользоваться поиском "Яндекса", чтобы найти хотя бы тот же пресс-релиз о "поиске в реальном времени". Однако в выдаче не отыскалось ни оригинального пресс-релиза, ни его копии на "Хабрахабре" (и то, и другое сообщение появились в результатах поиска лишь через 40-50 минут). А вот в результатах поиска "Google" эти публикации отобразились почти моментально.

Впрочем, в официальной публикации о новинке есть небезынтересная оговорка: "Новый апельсиновый робот не прокачивает все страницы интернета, а извлекает из него свежий и сочный контент. Количество страниц в интернете бесконечно, поэтому важно их обходить в определенном порядке, чтобы в первую очередь были скачаны страницы с ценной информацией". Из чего следует, что страницы с никому не нужной информацией индексируются в последнюю очередь, что, по-видимому, и объясняет, почему пресс-релиз о "поиске в реальном времени" попал в выдачу с опозданием.

комментарии(1) |

разделы: Новости | Сервисы

Материалы по теме

"Яндекс" и "Рамблер" показали детям кисок
"Яндекс" отделил западный поиск от кириллоидного
"Яндекс" отстоял негатив в поиске и пиво у школы
"Яндексу" разрешили порочить, но запретили травить