Тысяча мух распознают отсканированную книгу

≡ Сервисы | Новости | 28.05.2007 10:26

Исследователи из университета Карнеги-Меллона предлагают использовать тест Тьюринга и энергию толпы на пользу электронным библиотекам.

Для отличия людей от ботов на многих современных сайтах используется автоматический тест CAPTCHA, разработанный в стенах того же университета Карнеги-Меллона в 2001 году. На данный момент ежедневно проводится 60 млн. таких проверок в Сети, что выливается в ежедневные 150 тыс. человекочасов, пишет Associated Press.

Бессмысленное расходование человеческих ресурсов предложено заменить на решение полезной прикладной задачи - распознавание книг для электронных библиотек. Ни одна система распознавания текста (OCR) на данный момент не может обеспечить абсолютно точное распознавание всех слов - на книгах может находиться грязь, буквы могут быть частично стерты или зашумлены. Прочитать такой участок может лишь человек.

Университет разработал программное обеспечение, которое разделяет нераспознанный участок текста на отдельные слова и отдает на веб-страницы, вместо обычных "картинок с кодовым словом". Тонкость заключается в том, что во время теста пользователю нужно ввести два слова. Одно из них, уже известное системе, используется для проверки, робот это или человек (как обычная CAPTCHA), а второе слово - действительно "зашумленное". Распознавание этого слова и идет на благо библиотек. Наиболее распространенный вариант распознавания система принимает как верное значение распознаваемого слова.

Решение имеет законченный вид и уже подготовлено все программное обеспечение для размещения reCaptcha на веб-сайтах. Модуль выполнен с поддержкой всех современных средств CAPTCHA - обновлением нечитаемой картинки и озвучкой изображения.

Сразу же после рассмотрения проекта возникает закономерный вопрос борьбы с ботами, которые уже проходят простые тесты Тьюринга. Если с заранее известным словом они справятся успешно, а на втором они будут указывать неверное значение, то весь проект станет бессмысленным - количество обращений роботов к CAPTCHA в разы выше, чем настоящих пользователей.

комментарии(0) |

разделы: Новости | Сервисы

Материалы по теме

Феномены интернета: обратный тест Тьюринга
Обратный тест Тьюринга взломан