Максим Мошков: "Оцифровка словарей куда сложнее сканирования худлита"

≡ Сервисы | Новости | 05.09.2006 11:35

Крупнейший российский поисковый портал открывает программу по созданию общедоступной электронной библиотеки справочной литературы. В течение двух лет «Яндекс.Словари» пополнятся наиболее интересными справочниками по разным отраслям знания. На приобретение прав и оцифровку книг портал потратит около миллиона долларов.

Каждое издание при публикации становится доступным не только через «Яндекс.Словари», но и при поиске с первой страницы портала. Пользователь может начать запрос словами «что такое» или «кто такой» и тогда ссылка на соответствующую словарную статью появится над результатами поиска по сети.

Оцифровку словарей и сверку электронного текста с бумажным изданием обеспечивает партнер проекта, ФГУП НТЦ «Информрегистр» — государственный центр по электронным информационным ресурсам, один из создателей Фундаментальной электронной библиотеки, по технологии которой готовятся электронные версии словарей.

Максим Мошков, создатель крупнейшей в России электронной библиотеки Lib.ru, рассказал «Вебпланете» о том, насколько сложную работу взял на себя «Яндекс»:

«Возьмем, к примеру, какой-нибудь научный справочник, выпущенный в 1969 году с редакционной коллегией, 15-ю переводчиками и тремя десятками авторов отдельных статей. Как собрать права на такое чудо? Кого-то просто не найти, не опознать, кто-то умер, у кого-то 10 наследников, кто-то уехал на запад, какие-то работы - в соавторстве... Если начать использовать такой сборник, не собрав всех прав - рискуешь получить проблемы с копирайтами.

Оцифровка - это отдельная песня. Одно дело - оцифровать гладкий художественный текст, это пара часов работы OCR-программы, а затем 10-20 часов корректуры. Другое дело - справочник-энциклопедия. Тут тебе и формулы, и сотни иллюстраций, которые надо выделять как отдельные объекты, и перекрестные ссылки - которые надо опознавать, расставлять маркера, вносить управляющую разметку - тут уже может уйти и 10 и 30 человеко-дней, а то и несколько месяцев. Где в художественной литературе все заканчивается, в технической - это только фундамент для нескольких этапов последовательной обработки текста.

В помощь тем, кто занимается оцифровкой текста, существуют программы-спеллчекеры. Также имеется кое-какой наработанный сканировщиками софт, исправляющий типичные ошибки распознавания. Но дальше - ручная работа - садится человек, и в текстовом редакторе работает с файлом. Чудес не бывает».

«Вебпланета» также поинтересовалась у Максима Мошкова, какая еще литература, помимо словарей, может быть востребована в Рунете, что может содержать следующий проект подобного рода. Вот что он ответил: «Подготовить общедоступное хранилище учебной литературы для средней и высшей школы - вполне осмысленная задача, которую, по идее, должно бы профинансировать государство».

В любом случае, работа «Яндекса» радует хотя бы тем, что вместо модных в последнее время тенденций заработка на чужом контенте (всевозможные агрегаторы новостей, рецензий, записей в блогах) появился проект, в рамках которого Рунет получит труднодоступную ранее информацию. Сейчас в «Яндекс.Словарях» насчитывается 2 963 476 словарных статей из 49 словарей. В день знаний, 1 сентября, проект пополнился энциклопедией символов, словарем современных географических названий, философским словарем и справочником по джазу.

комментарии(0) |

разделы: Новости | Сервисы

Материалы по теме

Как интернет грамоте учили
В библиотеке ФЭБ — новый раздел
Яндекс анонсировал поиск по определениям и переводам
Словари@Mail.ru расширили словарный запас