Шаг 11 - Создание OCR-слоя
на основе страниц текста
Создание OCR-слоя
на основе страниц текста, полученных на шаге
5, и его внедрение в djvu-книгу,
полученную на предыдущем шаге 10.
Этот шаг состоит из операций распознавания страниц текста,
редактирования полученного текста и его добавления в djvu-книгу.
Вообще данный шаг можно
выполнить двумя способами, разными по сложности:
1) самый простой и
быстрый – это воспользоваться функцией автоматического создания
текстового слоя в программе DEE.
Для этого необходимо в программе открыть djvu-книгу, в меню
выбрать команду Service (Сервис)
– OCR – OCR document
(OCR документа),
дождаться окончания выполнения операции, затем сохранить книгу
нажатием Ctrl+S
или в меню File
(Файл)
– Save
(Сохранитьнигу
ого необходимо в программе открыть го слояа в программе ипа.
39393939393939393939393939393939393939393939393939393939393939393939393939393939393939393939393939393939393939393939393939);
2) более трудоемкий, но
и более качественный – провести распознавание, а также по
возможности редактирование («вычитку» на предмет поиска
ошибок) текста в программе FineReader,
7-й версии и выше, а затем внедрить полученный текстовый слой в
djvu-книгу с помощью программы
DjvuOCR.
Таким образом, с помощью этого способа вы можете проконтролировать
качество текстового слоя в отличие от первого; следует заметить, что
алгоритм распознавания в программе DEE
проще, чем в программе FineReader,
и потому он допускает гораздо больше ошибок (например, русская буква
«г» распознается как латинская «r»).
Итак, для реализации
данного способа необходимо выполнить следующее:
– в программе
FineReader
добавить все страницы текста (полученные на шаге
5), сохранить пакет со страницами во временную папку (с
помощью команды Файл – Сохранить пакет как…),
затем настроить пару параметров:
а) в меню Сервис
– Опции на вкладке Сканирование/Открытие в
разделе Обработка изображений снять все галочки,
б) проверить язык
распознавания на соответствующей вкладке Распознавание –
он должен соответствовать содержанию текста распознаваемой книги.
Например, если книга на русском языке, но в тексте могут встречаться
латинские символы, то поставьте Русско-Английский язык;
в) нажать ОК.
– далее следует
запустить процесс распознавания в меню Процесс –
Распознать все
(или клавишами Ctrl+Shift+R),
который займет продолжительное время;
– после окончания
распознавания настает черёд редактирования полученного текста –
исправление орфографических ошибок, опечаток, типа «уменыпение»
вместо «уменьшение» и т. п. Можете также
исправлять параметры шрифта текста. Этого будет достаточно.
Отредактированный текст автоматически сохраняется, не нужно
периодически сохраняться. После завершения редактирования можно
сохранить все страницы в формат Microsoft Word
– *.doc (команда Файл
– Передать все страницы в –
Microsoft Word),
полученный документ сохранить и в дальнейшем использовать, например,
для составления описания книги и электронного оглавления;
– пакет с
распознанным и отредактированным текстом готов для внедрения в
djvu-книгу. Запускаем программу
DjvuOCR
(см. раздел Пример), внизу слева выберите язык
интерфейса Russian (Русский),
далее выбираем режим Ручной режим OCR
manager. Появится окно, в
котором необходимо указать 3 параметра:
1) папку пакета с
распознанными страницами (которую сохранили ранее во временную папку)
с помощью кнопки Обзор. Для проверки пакета на правильность нажмите
ниже кнопку Тест проекта. Если сообщений не появится,
значит ошибок нет, переходим к следующему параметру. В случае
возникновения ошибок смотрите примечание;
2) в поле
Какая первая страница в DJVU
указываем номер страницы в финальном djvu-файле
(полученном на шаге 10),
которая соответствует первой распознанной странице пакета. Как
правило, это первая страница;
3) указываем
финальный djvu-файл, в который будет
добавлен текстовый слой из пакета со страницами кнопкой Обзор.
После чего жмем кнопку
Обработка и ожидаем пару минут окончания процесса.
Результат:
финальный djvu-файл с OCR-слоем.
Пример:
пример работы с программой DjvuOCR
иллюстрирован ниже.
Рис. 34. Программа DjvuOCR.
Красными точками указаны поля и кнопки, используемые при внедрении
OCR-слоя в djvu-книгу
Полезные
советы:
– для
перелистывания страниц в программе FineReader
используйте сочетание клавиш Alt+Стрелка вверх
или Alt+Стрелка вниз;
– при сохранении
пакета со страницами по возможности задавайте его название латинскими
буквами, например, «suda».
Примечание:
качество распознавания текста зависит от ваших личных притязаний,
требований и навыков работы с программой FineReader.
К примеру, вы можете использовать настраиваемые профили,
редактировать словари и т.д., что облегчит работу и улучшит качество
конечного текстового слоя.
Ошибки в программе
DjvuOCR
при тестировании пакета со страницами, как правило, возникают, если
неверно отредактирована какая-либо страница в программе FineReader
– вернее, превышены рамки дозволенного, например, добавлены
абзацы и т. п.
Если вы сохранили
распознанный текст в формате *.doc,
то необходимости в пакете нет – его можно смело удалить. |