РАЗДЕЛЫ

Архив

"Яндекс" и прочие секс-шопы

≡ Безопасность | обзор | 26.07.2011 14:42

Не успело утихнуть бурление вокруг "Мегафона" и его утекших СМС-ок, как разразился новый скандал, да почище прежнего.

Внезапно в поисковой выдаче обнаружилось великое множество пользовательских страниц с заказами, сделанными в целом ряде интернет-магазинов. Конечно, детской одеждой, компьютерной техникой и электронными сигаретами нас уже не удивишь. А вот столь полезные в хозяйстве вещи как маскарадный костюм "Прилежная горничная" или эротический корсет "Гильда" встретишь далеко не в каждом супермаркете. И это если умолчать о "трусах мужских без лямок с белой окантовкой и пятнистым рисунком" или "мужском монокини черного цвета".

Особую пикантность новой утечке придает то, что все страницы с заказами содержат фамилию и имя заказчика, электронный адрес, IP-адрес, полный домашний адрес, метод оплаты заказа, а также, в ряде случаев, переписку с продавцом.

Похоже на то, что все слившиеся магазины функционируют на одном и том же скрипте - об этом говорит хотя бы единообразность всех засвеченных URLов (вроде такого - _www.blabla.bla/index.php?ukey=order_status&orderID=378&code=bWlsXSXicmFpdEBnbWFpbC5jb20=&hash=6x50544ab612772d7f498xxx1c973639). Заметим, что на сайте продавца данного скрипта вывешена вполне внятная инструкция о том, какие разделы сайта следует запретить к индексированию при помощи robots.txt. При этом ни на одном из сайтов, попавших ~~под раздачу~~ в выдачу, эти рекомендации, разумеется, не выполнены.

Как отмечает Lenta.ru, на сей раз, в отличие от эпизода с "Мегафоном", пользовательская информация утекла не только в "Яндекс", но и в другие популярные у россиян поисковики - Google.ru, Mail.ru, Bing. Правда, по нашим собственным наблюдениям, это заявление "Ленты" верно лишь в отношении Google, а вот в выдаче Mail.ru и Bing по соответствующим поисковым запросам мы не увидели ничего значимого.

Казалось бы, всё яснее ясного:

а) создатели скрипта - криворукие альтернативно одаренные существа (защита конфиденциальности обеспечивается только с помощью robots.txt и уникальных URLов, позволяющих входить в "закрытую" область сайта автоматически без логина и пароля);
б) создатели сайтов - безграмотные недоучки (не хватило способностей даже на то, чтобы переписать robots.txt с сайта разработчика)
в) владельцы сайтов - жадные торгаши (не хотят платить специалистам, которые могли бы оперативно перекрыть доступ к таким страничкам и исправить прочие ошибки);
г) все поисковики - белые и пушистые (делают то, что не запрещено, оперативно выполняя свою работу).

А если это так, то и ситуация с "Мегафоном" окончательно проясняется: оператор - подлец, "Яндекс" - молодец. И пусть возьмет с полки пирожок.

Однако при более пристальном рассмотрении начинают возникать разные провокационные вопросы.

Цифры. Первая порция

Для начала давайте примерно подсчитаем, куда, чего и сколько утекло.

По запросу inurl:ukey=order_status IP покупателя Google в данный момент выдает ровно сто страниц. По тому же самому запросу "Яндекс" находит ни много ни мало 240 страниц - и это без учета того, что по многим пунктам поисковик предлагает, кликнув по линку "Ещё", получить дополнительные результаты (от 5 до 30 дополнительных страничек на каждый пункт).

Mail.ru по указанному запросу бодренько выдает единственную ссылку на незамысловатый заказ в магазине специфического белья. Bing данный запрос вообще не отрабатывает, а на его упрощенный вариант не выдает ничего вразумительного.

По более конкретизированному запросу вида inurl:ukey=order_status IP покупателя site:Sexyz.Ru Google выдает 13 пунктов, "Яндекс" - 31 пункт, а Mail.ru опять-таки выдает одну-единственную ссылку - ту же самую, на заказ любителя трусов без лямок.

На запрос inurl:ukey=order_status IP покупателя site:Mag-Online.ru Google не выдает совсем ничего, "Яндекс" выдает 9 результатов.

По запросу inurl:ukey=order_status IP покупателя site:VegaComp.ru в выдаче Google ничего не отображается, а в выдаче "Яндекса" можно наблюдать 20 пунктов.

По прочим запросам такого плана сохраняются аналогичные пропорции.

Еще несколько десятков таких же ссылок на заказы "Яндекс" выдает по другому запросу - inurl:0 inurl:b inurl:1 inurl:c статус заказа, но имеются ли между этими множествами переcечения, мы не вникали.

Из этих цифр поклонники Google могут сделать ошибочный вывод о том, что "корпорация добра" хапает меньше чужого добра, чем "Яндекс". Несколько позже мы расставим точки и над этими буквами "ё". А пока попытаемся разобраться, в чем же причина такого удивительного явления - присутствия в поисковой выдаче огромного количества страничек, ссылки на которые никто не публиковал в открытом доступе.

Слово "Яндексу"

Давайте послушаем, что говорят по этому поводу сотрудники российского поисковика. Как раз нынешней ночью некто Владимир Иванов с "Яндекса" накатал впечатляющую телегу на тему "Почему находится всё". Помимо стандартного бла-бла-бла по поводу robots.txt, автор весьма многословно описывает, откуда поисковики узнают о подобных страничках.

Позволим себе процитировать ключевой пассаж практически целиком, с незначительными купюрами.

На страничку не зашел еще ни один живой человек, но про нее уже могут знать тысячи программ по всему интернету: поисковые системы, куда вебмастер отправил ссылку вручную, блог-платформы и сокращатели ссылок, поисковые системы, которые переиндексировали страницы с ссылками на эту [...], всевозможные анализаторы и подписчики RSS [...], компании-владельцы интернет-мессенджеров и провайдеры почтовых сервисов...

Про нее могут знать интернет-провайдеры всех тех систем, которые мы перечислили выше, провайдер самого сайта и все провайдеры по пути. Не в последнюю очередь про нее могут знать сотрудники спецслужб, использующие системы СОРМ. Иначе говоря, к этому моменту про новую страницу знает уже половина "роботной" части мирового интернета.

Например, сидя в интернет-кафе, человек кликнул по ссылке в Твиттере и перешел на страницу. Конечно, этот клик зафиксировал javascript системы статистики сайта - в данном случае, Твиттера. Как правило, пользователь попадает на страницу через сервис сокращения ссылок, и переход осядет в логах этого сервиса. Дальше браузер открывает страницу и начинает загружать объекты - картинки, анимацию, скрипты, css, рекламу, коды счетчиков и систем статистики. Если в браузере установлен антифишинговый или антивирусный плагин [...], он отправляет адрес посещенной страницы на проверку. В браузер могут быть встроены и другие плагины. Например, Яндекс.Бар или Google.Бар показывают ранг страницы, для чего передают ее адрес на сервер. Бывает так, что трафик пользователей в публичных местах пропускается через прокси-сервер — для защиты от атак, экономии IP-адресов или ускорения загрузки страниц. В этом случае все указанные взаимодействия пройдут через прокси-сервер, и он тоже узнает о странице.

Если на страничке есть картинки или flash-объекты с других ресурсов, то о странице будут знать все эти ресурсы... Если вебмастер использовал скрипты из внешней библиотеки, счетчики и системы сбора статистики, то о новой страничке будут знать все эти сервисы и их провайдеры. Данные получат прокси-серверы и серверы антивирусной и антифишинговой систем, встроенных в браузер. А также юноша, сидящий в кафе за соседним столиком и недавно прочитавший в молодежном журнале, как просматривать чужой трафик в публичных Wi-Fi-сетях.

Из этой мини-лекции мы узнаем массу интересного, но так и не получаем внятного ответа на прямой вопрос: "Доктор, откуда у вас такие картинки?" В смысле, где конкретно "Яндекс" надыбал столь обширный набор уникальных ссылок, которые нигде и никогда в открытую не публиковались.

Вы же не хотите сказать, уважаемый господин Иванов, что покупатель "Прилежной горничной" добровольно опубликовал в "Твиттере" линк на свою персональную страничку c заказом, чтобы его жена поскорее узнала, какой очаровательный костюмчик он заказал для своей любовницы?

А может быть, вы намекаете, что антивирусные компании открыто публикуют в общем доступе списки страниц, посещенных ее клиентами? Или вы пытаетесь донести до нас мысль, будто спецслужбы напрямую подключены к "Яндексу" в качестве источника информации (хотя эта идея чудо как хороша)? А может быть, молодые симпатичные сотрудницы "Яндекса" в рабочее время ходят по кафешкам и, радостно улыбаясь окружающим, прослушивают весь трафик в поисках интересных ссылок?

Как известно, лист лучше всего прятать в лесу, а камешек - на берегу моря. Возможно, реальный ответ на интересующий нас вопрос припрятан под этой словесной шелухой. Методом исключения можно предположить, что основных источников подобных "конфиденциальных ссылок" у "Яндекса" как минимум два: это "Яндекс.Бар" и "Яндекс.Метрика".

Что касается шпионских функций "Яндекс.Бара", то о них компания заявляет вполне открыто, достаточно лишь внимательно изучить пользовательское соглашение, особенно его пятый пункт. Но если этого текста кому-то будет недостаточно, то вот здесь можно найти результаты анализа трафика, которым "Бар" обменивается с "Яндексом".

Цифры. Вторая порция

Ну а сейчас мы введем всё тот же самый поисковый запрос, а затем заглянем в код каждого сайта из топа выдачи и попытаемся понять, что же такого есть в этих страничках, что так привлекает поисковики.

Оговоримся, что нижеприведенная информация не претендует на точность и репрезентативность. Просто мы ввели все тот же поисковый запрос в обоих крупнейших поисковиках и открыли во вкладках браузера первые 15 сайтов. В случае, если какой-то сайт долго не открывался или открывшаяся страница не содержала ожидаемой информации, мы закрывали вкладку и открывали следующий результат поиска. После чего мы просматривали исходный код на предмет наличия "подозрительного" кода - Google Analytics, "Яндекс.Метрика", "Яндекс.Директ", и др.

Таким образом, данный отчет является лишь сводкой по первым 15 сайтам, работоспособным на момент тестирования. Также в ходе исследования мы решили пренебречь наличием на многих сайтах счетчика Liveinternet ввиду отсутствия явных указаний на его причастность к рассматриваемой ситуации.

Итак, inurl:ukey=order_status IP покупателя, Google. Встречайте!

Из таблицы вроде бы всё понятно. Отметим лишь, что на одном из найденных в "Гугле" сайтов обнаружилась только реклама от "Бегуна" - российского партнера Google. Не будем настаивать на том, что "Бегун" непременно сливает информацию о страничках "старшему братишке", но упомянуть об этом факте имеет смысл.

В коде двух из этих пятнадцати сайтов мы не углядели никаких особых признаков слежки "Гугла" - там были только скрипты от "Яндекса". Однако не будем забывать о том самом "антифишинговом плагине", который по умолчанию включен в браузере Google Chrome.

Теперь "Яндекс".

Вроде бы почти то же самое. Однако сравнивая это с первой порцией цифр, у нас возникло острое желание прокрутить этот текст вверх и еще раз перечитать слова Владимира Иванова о методах слежки. И становится ясным, что российский поисковик по возможности старается охватить все перечисленные способы - здесь вам и флэшовые часики, и API картёжного сервиса, и кнопка установки виджета на главную страницу "Яндекса, и скрипт кнопочки "Поделиться", не говоря уже о поиске "Яндекса" по сайту (кнопочка со скриптом), "Метрике" и "Директе". И все это - реально востребованные в Рунете инструменты.

Это вполне может служить одним из возможных объяснений, почему российский поисковик победил в этом мини-соревновании по числу найденных страничек с пользовательскими заказами. Хотя отставание "Гугля", вероятно, объясняется не его добрыми намерениями, а какими-то техническими причинами либо попросту меньшим размахом "агентурной сети" в Рунете.

Еще раз подчеркнем, что в этой части наше импровизированное исследование не претендует на точность, однако имеющихся данных вполне достаточно, чтобы составить примерную картину.

Но это исследование никак не объясняет, что же вся эта жуткая хренотень делает в выдаче, в то время как сайты нормальных вебмастеров ждут своей очереди на обновление неделями. Зато на этот вопрос вполне доходчиво ответил яндексоид Иванов в своем ночном выступлении.

Все ссылки поисковая система пропускает через фильтры, чтобы определить, нужно индексировать конкретную ссылку или нет. Некоторые ссылки отфильтровываются. Из полученного списка формируется очередь для обхода поисковым роботом. Порядок обхода может быть разным, он зависит от многих факторов. Важно, что робот старается отобрать и проиндексировать в первую очередь самые востребованные ссылки.

Ну, теперь вы знаете настоящую причину. Ваши никчемные сайтики подождут, пока поисковик индексирует действительно важные вещи - пятнистые трусы с полными контактными данными их покупателя. Ведь оперативный доступ к этим сведениям необходим каждому интернетчику как воздух.

Что делать и кто виноват?

Пока мы работали над этим текстом, нас не покидало стойкое ощущение дежа-вю. И только потом мы откопали в архиве "Вебпланеты" нашу же статью 2009 года, написанную после памятной утечки сорока тысяч пользовательских паролей от "ВКонтакте".

С одной стороны, мы тогда удивлялись тому факту, что "вконтактёры" пользуются простыми, легко подбираемыми паролями. Но с другой стороны, слишком бросалось в глаза и то, что администрация социальной сети отказывалась предпринять те или иные очевидные шаги для повышения уровня безопасности.

Но что общего может быть у пользователей "ВКонтакте" и горе-сайтостроителей, неспособных скопировать robots.txt с сайта поставщика скрипта? Ведь предполагается, что разработкой сайтов должны заниматься какие-никакие, но специалисты, а для пользования "ВКонтактиком" никакой специальной подготовки не требуется.

Увы, профессиональному снобизму здесь больше не место. Еще в первой половине прошлого десятилетия создатели самопальных CMS охмуряли потенциальных заказчиков заверениями типа: "Вам больше не нужен администратор сайта! Если ваша секретарша умеет пользоваться "Вордом" - она сможет управлять вашим магазином!"

Плоды подобной маркетинговой политики мы теперь и пожинаем.

Когда-то давным-давно компьютерами пользовались одни лишь специалисты. Теперь ими пользуются дети, пенсионерки, домохозяйки, гопники и политики. Аудитория Рунета изначально также представляла собой кучку гиков. Но потом в Сеть пришли те же политики, гопники и домохозяйки, с трудом представляющие, где у компьютера кнопка выключения и к какому месту прикручивается файерволл.

Сегодня со всех концов Рунета раздаются крики о том, какой же молодец "Яндекс" и какие же идиоты владельцы этих сайтов, не пожелавшие обратиться к настоящим профессионалам. Но давайте признаем свершившийся факт: в области сайтостроения давно произошло всё то же самое, а потому нелепо ожидать от этой категории публики какого бы то ни было профессионального подхода. Они научились вставлять шпионские инструменты в свои страницы - потому что это безумно просто и преимущества очевидны, - но никто не позаботился об их безопасности.

В прошлой статье мы пришли к выводу, что социальные сети и прочие сервисы должны отвечать за тех, кого они приручили. Сейчас о том же самом должны подумать и поисковики.

Обновление 1. "Яндекс" признался, что сливал страницы поисковому роботу через "Метрику" и предложил вебмастерам возможность отключения этой шпионской фичи.

Обновление 2. Роскомнадзор поддержал нашу идею и официально попросил "Яндекс" задуматься о том, каким образом можно ограничить выдачу персональных данных онлайн-покупателей, пострадавших от утечки.

Обновление 3. "Яндекс" согласился подумать о том, как можно защитить пользовательские данные от утечек.

Обновление 4. В очередной раз подтвердилось, что наличие правильного robots.txt не спасает от попадания страниц в выдачу.

комментарии(19) |

разделы: обзор | Безопасность

Материалы по теме

Союз потребителей судится с "Мегафоном"
"Яндекс" и прочий шпионский бизнес
"Мегафон" заплатит за "утекшие" SMS?
"Яндекс" показал тысячи персональных SMS

"ВКонтакте" с фишерами и без
Юзер - это диагноз?