Системы перевода и распознавания текста

Основные методы работы с текстом заключаются не только в создании, редактировании и оформлении текстового материала, которые реализуются текстовыми редакторами. Существует ряд специальных приложений, автоматизирующих действия по обработке текста. Кратко о системах перевода и распознавания текста можно прочитать в этой статье.

Что такое системы перевода и распознавания текста

Для простоты работы с текстом работодатели Программного аппечения создали специальные приложения, позволяющие автоматизировать ввод больших объемов текстовых данных. Также текст больших объемов можно не только вводить, но и переводить. Для автоматизации обработки текста используются системы перевода и распознавания текста.

Системы распознавания текста

Вводить информацию в компьютер можно не только с клавиатуры, но и с помощью специального устройства – сканера. В процессе сканирования текст из журнала или книги из бумажного формата преобразуется в электронный. Изначально отсканированный текст имеет вид графического изображения, которое воспринимается компьютером как картинка. Для получения из картинки текстового формата и дальнейшей работы с ним как с текстом используются специальные программы, выполняющие распознавание текста.

Процесс распознавания происходит следующим образом. Программа анализирует полученное изображение, выделяя в нем текстовые, табличные и графические области. Затем строки в текстовых блоках разбиваются на отдельные слова, слова – на символы. А затем каждый символ сравнивается с изображением букв, цифр или специальных символов в базе данных. Найдя оптимальный вариант, программа выдает его пользователю в виде распознанного текста.

Самым популярным программным продуктом, выполняющим распознавание текста, является Fine Reader от компании ABBYY.

Компания ABBYY на современном рынке программных продуктов является лидером мирового масштаба в разработке программных решений, использующих технологию распознавания документов. Более 1000 компаний в 150 странах сотрудничают с ABBYY, включая таких мировых лидеров, как Fujitsu, Panasonic, Microsoft, Sharp, Samsung, Xerox.

Системы перевода и распознавания текста

Инжир. 1. Логотип ABBYY Fine Reader.

Приложение Fine Reader преобразует изображения в электронные редактируемые форматы. В качестве графических объектов можно использовать фотографии, PDF-файлы и копии бумажных документов, полученные в результате сканирования. После преобразования результаты можно сохранить в форматах приложений Microsoft Word, Excel, Powerpoint, а также в текстовом формате RTF и в формате гипертекстовой разметки HTML. Новейшие версии данного программного продукта позволяют сохранять результаты распознавания в формате DJVU.

Преимуществом данного программного продукта является распознавание более 190 символов, а также встроенная проверка орфографии.

Системы перевода и распознавания текста

Инжир. 2. Интерфейс программного приложения ABBYY Fine Reader.

Системы перевода

Высокий уровень развития технологий, обеспечивающий реализацию информационных процессов хранения и поиска информации, способствовал популяризации программ-трансляторов.

Программа переводчик – это программный продукт, позволяющий переводить с одного языка на другой отдельные слова, словосочетания и предложения. Работа таких систем перевода основана на применении правил построения словосочетаний и предложений естественного языка. Переводчик анализирует текст на языке оригинала, а затем компилирует тот же текст на новом языке.

Как правило, такие программные продукты можно установить на персональный компьютер как отдельные приложения (например, ABBYY Lingvo), но чаще всего они используются в онлайн-режиме в сети Интернет. Свои услуги по переводу предлагают Яндекс-переводчик, Google-переводчик. Объем переводимого текста в Google может достигать до 5000 символов, программа позволяет переводить со 103 языков.

С 2017 года компания Google использует технологию перевода, основанную на применении нейросетей. Такой механизм позволяет предлагать более точные по смыслу, с учетом различных тонкостей языков, варианты слов.

Системы перевода и распознавания текста

Инжир. 3. Логотип переводчика Google Translate.

Что мы узнали?

Для работы с текстом разработчики программных решений предлагают ряд специальных программных продуктов, предназначенных для машинного перевода и распознавания текста. Приложения для распознавания текста конвертируют фотографии, документы PDF и другие изображения в электронные редактируемые форматы doc, xlsx, pptx, rtf, html. Программы-переводчики предназначены для перевода текстовых документов с одного языка на другой.