Самое горячее: Европа признала соцсети опасными (50); "Фобос-Грунт" уже не спасти (11); Мобильники убивают детей (26); ЕЩЕ >>
РАЗДЕЛЫ
Архив
« июнь 2020  
пн вт ср чт пт сб вс
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30          

«Рамблер» о Кубке Кубков eHouse

Вебпланета
| архивная статья | 10.12.2004 19:01

Недавно холдинг eHouse объявил о проведении Кубка Кубков по поиску в интернете. Руководитель группы разработчиков компании «Рамблер» Влад Шабанов прислал «Вебпланете» комментарий по этому поводу.

1. Корректна ли процедура сравнения поисковых машин.

Для того, чтобы сравнивать оперативность обновления базы разными поисковыми машинами, необходимо прежде всего проверить, что все роботы получают одну и ту же информацию. Если это не так, то эксперимент измеряет не оперативность поисковых машин, а предпочтения разработчиков веб-сервера.

Итак, возьмем один из адресов, на которых размещены ключевые слова кубка.

Скачаем его несколько раз, каждый раз передавая разные значения поля user-agent.

а) Представимся Google

$ curl -D /dev/stdout -o /dev/null -A
’Googlebot/2.1 
+http://www.googlebot.com/bot.html)’
’http://www.pcbox.ru/index.php?level=4&pid=29993929’

HTTP/1.1 200 OK
Date: Fri, 10 Dec 2004 13:30:14 GMT
Server: Apache/2.0.52 (Gentoo/Linux) PHP/4.3.8 
X-Powered-By: PHP/4.3.8 
Expires: Mon, 26 Jul 1997 05:00:00 GMT
Cache-Control: private
Pragma: no-cache
Last-Modified: Fri, 10 Dec 2004 13:30:14 GMT
Set-Cookie:
PHPSESSID=2895ca4f5ff83ea4f7c0fa652ee4b772; path=/
Vary: Accept-Encoding
Transfer-Encoding: chunked
Content-Type: text/html; charset=windows-1251

Google получает страницу с ключевым словом.

б) Представимся Рамблером

$ curl -D /dev/stdout -o /dev/null -A
’StackRambler/2.0 (MSIE incompatible)’
’http://www.pcbox.ru/index.php?level=4&pid=29993929’

HTTP/1.1 302 Found
Date: Fri, 10 Dec 2004 13:31:21 GMT
Server: Apache/2.0.52 (Gentoo/Linux) PHP/4.3.8 
X-Powered-By: PHP/4.3.8 
Expires: Mon, 26 Jul 1997 05:00:00 GMT
Cache-Control: private
Pragma: no-cache
Last-Modified: Fri, 10 Dec 2004 13:31:21 GMT
Set-Cookie:
PHPSESSID=9896c4caa1a11463c782189a0731ecca; path=/
Set-Cookie:
PHPSESSID=6d4ee64810d42ac2bb48374f3cf8778e; path=/
Set-Cookie:
COOKIE_OID=7bf52803dc403818e810314338bbae51; expires=Sat, 17-Dec-05 13:31:21 GMT; path=/ Set-Cookie:
PHPSESSID=6d4ee64810d42ac2bb48374f3cf8778e; expires=Sat, 17-Dec-05 13:31:21 
GMT; path=/ Location:
42ac2bb48374f3cf8778e...
Vary: Accept-Encoding
Content-Length:
Content-Type: text/html; charset=windows-1251

«Рамблер» вместо страницы получает редирект на новый URL. Видно что новый адрес содержит случайное число.

в) Теперь представимся «Яндексом»:

$ curl -D /dev/stdout -o /dev/null -A
’Yandex/1.01.001 (compatible; Win16; I)’
’http://www.pcbox.ru/index.php?level=4&pid=29993929’

HTTP/1.1 200 OK
Date: Fri, 10 Dec 2004 12:34:10 GMT
Server: Apache/2.0.52 (Gentoo/Linux) PHP/4.3.8 
X-Powered-By: PHP/4.3.8 
Expires: Mon, 26 Jul 1997 05:00:00 GMT
Cache-Control: private
Pragma: no-cache
Last-Modified: Fri, 10 Dec 2004 12:34:10 GMT
Set-Cookie:
PHPSESSID=7c75a943c7562d286435cfeaa7cf1b32; path=/
Vary: Accept-Encoding
Transfer-Encoding: chunked
Content-Type: text/html; charset=windows-1251

Итак, «Яндексу» выдана страница с ключевым словом.

Таким образом, данный сайт устроен так, что «Рамблер», в отличие от двух других рассмотренных поисковых машин, при каждом заходе видит на нем URL с новыми случайными числами. Размер сайта с точки зрения нашего робота становится бесконечным, а задача обнаружения искомой страницы — ощутимо усложняется. По всей видимости, это происходит из-за того, что на веб-сервере есть код, который отключает генерацию случайных URL для Google и Yandex, а применить этот код к «Рамблеру» разработчики просто забыли.

2. Почему быстрая база «Рамблера» не «видит» страниц с ключевыми словами eHouse.

Быстрая база «Рамблера» раз в 2–3 часа добавляет в поиск страницы, которые по нашим оценкам могут быть интересны пользователям Сети. Мы каждые два часа сканируем наиболее интересные форумы Рунета (сейчас в списке десяток тысяч разделов на 2,5 тысячах форумов), каждые 4 часа — несколько тысяч блогов. Кроме того, специальный робот автоматически ищет ссылки на новую информацию в Сети и тут же добавляет такие страницы в поиск.

Описания товаров, на которых размещены ключевые слова кубка кубков, в интернете есть, причем в достаточном количестве. Например, по запросу Transceiver, LC 3Ком 3CSFP91 можно найти предложения с этим товаром, причем в двух случаях он стоит на несколько десятков долларов дешевле, чем на странице, которую мы только что несколько раз скачивали. Таким образом, нет большого смысла в специальном фокусировании робота быстрой базы так, чтобы он ежедневно обходил такие сайты.

разделы:

Другие

Последние комментарии
об издании | тур по сайту | подписки и RSS | вопросы и ответы | размещение рекламы | наши контакты | алфавитный указатель

Copyright © 2001-2020 «Вебпланета». При перепечатке ссылка на «Вебпланету» обязательна.

хостинг от .masterhost