Копипаст хотя бы раз выручал каждого. Копирование удачной формулировки или данных в свой текст экономит время на создание документа. Но иногда оказывается, что эта самая удачная мысль или цифра изображены на картинке. В этом случае время на ввод информации не сокращается, а удлиняется. На помощь приходит функция «Распознавание текста»..
Технологиям OCR, то есть оптическому распознаванию символов, уже не один десяток лет, так что было бы странно не встраивать их в современные рабочие инструменты. В текстовом редакторе «Р7-Офис» такая возможность реализована.
Чтобы ею воспользоваться, откройте вкладку «Плагины» в верхней панели инструментов. Там есть кнопка «Распознавание текста» (иконка с буквами OCR). При нажатии открывается лаконичное диалоговое окно, в котором всего несколько полей и кнопок.
Распознавание текста выполняется в несколько шагов:
- нажмите на кнопку «Загрузить файл» и выберите нужно изображение на вашем компьютере,
- в выпадающем списке «Выбрать язык» найдите и кликните подходящий вариант,
- нажмите кнопку «Распознать»,
- на экране отобразится результат распознавания, который вы можете оценить,
- нажмите кнопку «Вставить в текст».
Для теста мы специально попробовали текст в нескольких вариантах форматирования на разном фоне. Результаты вполне предсказуемы:
- Крупный текст всегда распознается хорошо.
- Хуже всего обстоит дело с мелким бледным текстом на сером фоне.
- Цифры распознаются хорошо, а вот со знаком равенства возникли проблемы.
- Если текст на разных языках, нужно проводить распознавание для каждого отдельно.
- Форматирование нужно поправить руками отдельно.
Функция распознавания текста работает на движке Tesseract с открытым исходным кодом. Это старое проверенное решение, которое стало чуть ли не самой популярной OCR-библиотекой. Работает с файлами в формате png и jpg.
Попробуйте функцию для решения своих задач прямо сейчас. Или почитайте, как работают другие плагины: