Биоинформатика используется для борьбы со спамом

Анатолий Ализар

≡ Архив | архивная статья | 25.08.2004 18:07

Техника, первоначально предназначенная для анализа последовательностей ДНК, нашла применение для фильтрации спама. Новый алгоритм под названием Chung-Kwei разработан в недрах компании IBM и показал эффективность 97%.

Как сообщает журнал New Scientist, спам-фильтр Chung-Kwei базируется на алгоритме Teiresias, который был разработан группой биотехнологов в Научно-исследовательского центра Томаса Уотсона компании IBM. Алгоритм Teiresias предназначался для поиска в цепочках ДНК и других аминокислотах повторяющихся последовательностей (паттернов), которые часто оказываются генетическими структурами, играющими важную роль в организме.

Именно на этоих алогритмах основан самообучающийся спам-фильтр Chung-Kwei, названный в честь талисмана, который защищает жилище от злых духов в древнекитайском искусстве гармонни фэн шуй. И спам-фильтр Chung-Kwei вполне оправдывает свое название: первая версия программы во время тестирования отфильтровала 96,56% спама и, что еще более важно, ошибочно идентифицировала в качестве спама всего лишь 1 из 6000 писем.

Исследователи из IBM «натравили» алгоритм для анализа цепочек ДНК на базу данных из 65 тыс. экземпляров спама. Каждое письмо трактовалось как длинная последовательность символов — в этом ее сходство с записью структуры ДНК. В коллекции спама алгоритм Teiresias нашел 6 млн отдельных паттернов. Каждый паттерн представлял собой последовательность букв и цифр, которая встречалась более чем в одном письме. Как и в случае с самообучающимися байесовскими фильтрами, на втором этапе обучения алгоритм обработал коллекцию писем, которые заведомо не являлись спамом. Здесь тоже была составлена база паттернов. Затем базы паттернов сравнили друг с другом и удалили из «базы признаков спама» паттерны, которые встречались в обеих группах. Оставшиеся последовательности использовались для идентификации спама.

Как видим, принцип действия алгоритма прост. Он напоминает байесовский фильтр, но принципиальное отличие состоит в том, что Chung-Kwei работает не со словами, а с последовательностями символов, что делает его более эффективным. Разработчики заявляют, что Chung-Kwei — это единственный в мире спам-фильтр, который способен работать с паттернами на уровне отдельных символов, что делает его практически нечувствительным к замене букв. Например, для обхода байесовских фильтров спамеры часто заменяют русские "у", "о", "а" на соответствующие латинские или английских гласные, что порождает огромное количество новых «слов». С Chung-Kwei такое не проходит — в него изначально можно заложить базу символов-"синонимов", потому что в генетических последовательностях наблюдается абсолютно такие же аномалии.

Благодаря своим уникальным особенностям во время испытаний алгоритм корректно идентифицировал 64.665 из 66.697 спаммерских писем, а в процессе обработки 60 тыс. нормальных писем ошибся только однажды.

Сразу же после демонстрации возможностей Chung-Kwei компания IBM объявила о включении этого фильтра в свой коммерческий продукт — программу SpamGuru, а Джастин Мейсон (Justin Mason), разработчик популярной программы SpamAssassin, сказал, что «фэншуйский талисман» выглядит очень многообещающе. Но наибольшее восхищение у него вызывает не определенный алгоритм, а то, что компания IBM пытается использовать биоинформатику для борьбы со спамом.

комментарии(0)

разделы: Архив