Оптическое распознавание символов для русского языка







29.03.2024

Пожалуйста, добавьте эту страницу в закладки.



Оптическое распознавание символов (OCR) представляет собой электронное или механическое преобразование изображений печатного, рукописного или печатного текста в машинно-кодированный текст, будь то из отсканированного документа, фотографии документа, фотографии сцены (например, текст на вывесках и рекламных щитах в ландшафте). фотографии) или из текста подзаголовка, наложенного на изображение (например, из телепередачи).

Широко используемый для ввода данных из печатных бумажных документов — будь то паспорта, счета-фактуры, банковские выписки, компьютеризированные квитанции, визитные карточки, почта, распечатки статических данных или любая другая подходящая документация — это распространенный метод оцифровки печатных текстов, чтобы их можно было редактироваться в электронном виде, выполнять поиск, храниться в более компактном виде, отображаться в режиме онлайн и использоваться в машинных процессах, таких как когнитивные вычисления, машинный перевод и (извлечение) преобразования текста в sp. компьютерное зрение.

Более ранние версии требовали обучения с фотографиями отдельных персонажей и работали с одним шрифтом за раз. Усовершенствованные системы, способные обеспечить высокую степень точности идентификации большинства шрифтов, в настоящее время широко доступны, равно как и системы, принимающие в качестве входных данных ряд форматов файлов цифровых изображений. Некоторые системы способны копировать отформатированный вывод, который максимально похож на исходную страницу, включая графику, столбцы и другие нетекстовые компоненты.