Самое горячее: Европа признала соцсети опасными (50); "Фобос-Грунт" уже не спасти (11); Мобильники убивают детей (26); ЕЩЕ >>
РАЗДЕЛЫ
Архив
« июнь 2020  
пн вт ср чт пт сб вс
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30          

Тысяча мух распознают отсканированную книгу

Сервисы | Новости | 28.05.2007 10:26

Исследователи из университета Карнеги-Меллона предлагают использовать тест Тьюринга и энергию толпы на пользу электронным библиотекам.

Для отличия людей от ботов на многих современных сайтах используется автоматический тест CAPTCHA, разработанный в стенах того же университета Карнеги-Меллона в 2001 году. На данный момент ежедневно проводится 60 млн. таких проверок в Сети, что выливается в ежедневные 150 тыс. человекочасов, пишет Associated Press.

Бессмысленное расходование человеческих ресурсов предложено заменить на решение полезной прикладной задачи - распознавание книг для электронных библиотек. Ни одна система распознавания текста (OCR) на данный момент не может обеспечить абсолютно точное распознавание всех слов - на книгах может находиться грязь, буквы могут быть частично стерты или зашумлены. Прочитать такой участок может лишь человек.

Университет разработал программное обеспечение, которое разделяет нераспознанный участок текста на отдельные слова и отдает на веб-страницы, вместо обычных "картинок с кодовым словом". Тонкость заключается в том, что во время теста пользователю нужно ввести два слова. Одно из них, уже известное системе, используется для проверки, робот это или человек (как обычная CAPTCHA), а второе слово - действительно "зашумленное". Распознавание этого слова и идет на благо библиотек. Наиболее распространенный вариант распознавания система принимает как верное значение распознаваемого слова.

Решение имеет законченный вид и уже подготовлено все программное обеспечение для размещения reCaptcha на веб-сайтах. Модуль выполнен с поддержкой всех современных средств CAPTCHA - обновлением нечитаемой картинки и озвучкой изображения.

Сразу же после рассмотрения проекта возникает закономерный вопрос борьбы с ботами, которые уже проходят простые тесты Тьюринга. Если с заранее известным словом они справятся успешно, а на втором они будут указывать неверное значение, то весь проект станет бессмысленным - количество обращений роботов к CAPTCHA в разы выше, чем настоящих пользователей.

разделы: Новости | Сервисы

Другие новости

Последние комментарии
об издании | тур по сайту | подписки и RSS | вопросы и ответы | размещение рекламы | наши контакты | алфавитный указатель

Copyright © 2001-2020 «Вебпланета». При перепечатке ссылка на «Вебпланету» обязательна.

хостинг от .masterhost