IMPACT оцифрует редкие книги
26 августа 2010, Баранова Светлана
0
|
Корпорация IBM совместно с Европейским Союзом запустила исследовательский проект IMPACT (IMProving ACcess to Text — "улучшение доступа к тестам"), направленный на оцифровку редких исторических и культурно значимых текстов. Инициатива предусматривает размещение оцифрованных документов в Интернете для поиска и онлайн-редактирования. В проекте участвуют порядка тридцати национальных библиотек, научно-исследовательских институтов, университетов и организаций со всей Европы.
IMPACT сочетает возможности инновационного веб-ориентированного программного обеспечения для адаптивного оптического распознавания символов (OCR) с технологией "crowd computing", основанной на совместном использовании коллективных знаний, навыков и опыта многочисленных групп людей для расширения, углубления и совершенствования процесса с целью коренного улучшения его качества и эффективности.
Объединение этих технологий позволит участникам проекта адаптировать процедуры оцифровки и распознавания текста к особенностям древних шрифтов, к искажениям и аномалиям, и даже к специфическим терминологиям и лексиконам. Это сократит частоту появления ошибок на 35%, а вероятность замещения и подстановки символов и сочетаний символов — на 75%.
"Единственным способом осуществления крупномасштабного проекта по преобразованию текстов в цифровую форму является коренное улучшение качества первоначального оптического распознавания текста и максимально возможное сокращение последующей ручной обработки, — подчеркивает Хильделиз Балк (Hildelies Balk), руководитель отдела европейских проектов Национальной библиотеки Нидерландов (Koninklijke Bibliotheek) и координатор проекта IMPACT. — С помощью IMPACT мы надеемся достичь значимого улучшения продуктивности процесса оцифровки текстов".
В основе проекта оцифровки лежит уникальная система коллективной корректуры, разработанная IBM. Она обладает интерактивным веб-интерфейсом, что облегчает для добровольцев-корректоров со всего континента проверку правильности обработки текста и исправление ошибок оптического распознавания. Кроме того, система обладает способностью обучаться на обнаруженных OCR-ошибках и автоматически адаптироваться к специфике шрифтов.
Технология IMPACT оптимизирует, упрощает и ускоряет процесс исследования отсканированного текста и отбора спорных (сомнительных) участков, предоставляя корректорам возможность эффективно править текст. Вместо отображения полного текста оцифрованной страницы корректоры видят только буквы или слова, помеченные как спорные.
Например, комбинация букв "r" и "n" ("rn") может быть неотличима от буквы "m". В подобных случаях система отбирает многие встречающиеся в тесте варианты использования буквы "m" и размещает эти примеры рядом со "спорными" буквами. Данная методика существенно облегчает правильное определение букв в словах текста.
В случаях, когда неочевидным является целое слово, оно добавляется в специальный словарь спорных выражений, которые сортируются в алфавитном порядке. Корректор может принять или отклонить предлагаемые замены-подставновки одним щелчком мыши. Кроме того, система использует метод адаптивного расширения словаря, когда новые слова добавляются в основной словарь на основе кросс-идентификации и правки другими пользователями.
Так, например, текст небольшой книжки, который набирается вручную на компьютере, в среднем, за четыре часа, можно оцифровать с помощью стандартной OCR-технологии и вручную откорректировать за час. Внедрение новой технологии коллективной корректуры сокращает этот процесс до 30 минут, а новая адаптивная система оптического распознавания текста IBM может ускорить его еще на 15 минут.
Рекомендуем также почитать
- Компания IBM
- Новость IBM купит Datacap
- Новость Медицинские данные будут получать из облака
- Новость IBM разработает мобильный интерфейс для малограмотных
- Новость IBM помогла изучить бактерии из Мариинской впадины
- Новость IBM купила Coremetrics
- Новость В Польше создадут Центр облачных вычислений
- Видео:
Свежие новости раздела
Акция от F1CD.ru и "Лаборатории Касперского"
На кону жёсткий диск и другие приятные призы от "Лаборатории Касперского".
Осознанное отношение к бюджету: от теории к практике
Разумный подход к тратам и другие полезные приемы позволяют оптимизировать семейный бюджет.
Техника Samsung и Apple опять дорожает
Выросли цены на флагманские смартфоны Samsung и планшеты Apple.
Softline подвела итоги 2014 года
Компания рассказала о своих финансовых достижениях в минувшем году и поделилась планами на будущее.
Apple – всё ещё самый дорогой бренд
По подсчетам Forbes, яблочный бренд стоит вдвое дороже любого другого.
OCS и UPVEL сотрудничают
Дистрибьютор будет продвигать сетевое оборудование UPVEL в розничном и оптовом каналах.
Все свежие новости
Apple обменивается исками с Ericsson, в 2022-м году сохранится дефицит микросхем
Apple обменивается исками с Ericsson, в 2022-м году сохранится дефицит микросхем
Google готовит Android 11 и думает о запуске собственного процессора
Google хочет, чтобы новый дизайн платформы напоминал медиаадаптер Chromecast
ТОП-3 тарифов на интернет для загородных домов и коттеджей
ТОП-3 выгодных тарифов на интернет для загородных домов и коттеджей от провайдеров
ZenFone Max Pro (M1) – новый смартфон от ASUS
ZenFone Max Pro – смартфон с высокой емкостью аккумулятора
ONYX BOOX Note – новый ридер с экраном 10,3"
Букридер с ридер с экраном 10,3" весит всего 325 граммов
Отзывы
0 Оставить отзывДобавить отзыв