Программы для конвертации DjVu формата и
руководство по самостоятельному созданию книг

Введение
Шаг 1
Шаг 2
Шаг 2А
Шаг 2Б
Шаг 3
Шаг 4
Шаг 5
Шаг 6
Шаг 7
Шаг 8
Шаг 9
Шаг 10
Шаг 11
Шаг 12
Шаг 13

Стандарты на форматы бумажных изданий и размеры изображений их страниц

Примеры последовательности шагов для различного типа бумажных изданий

Шаг 11 - Создание OCR-слоя на основе страниц текста

Создание OCR-слоя на основе страниц текста, полученных на шаге 5, и его внедрение в djvu-книгу, полученную на предыдущем шаге 10. Этот шаг состоит из операций распознавания страниц текста, редактирования полученного текста и его добавления в djvu-книгу.

Вообще данный шаг можно выполнить двумя способами, разными по сложности:

1) самый простой и быстрый – это воспользоваться функцией автоматического создания текстового слоя в программе DEE. Для этого необходимо в программе открыть djvu-книгу, в меню выбрать команду Service (Сервис) – OCR – OCR document (OCR документа), дождаться окончания выполнения операции, затем сохранить книгу нажатием Ctrl+S или в меню File (Файл) – Save (Сохранитьнигу ого необходимо в программе открыть го слояа в программе ипа. 39393939393939393939393939393939393939393939393939393939393939393939393939393939393939393939393939393939393939393939393939);

2) более трудоемкий, но и более качественный – провести распознавание, а также по возможности редактирование («вычитку» на предмет поиска ошибок) текста в программе FineReader, 7-й версии и выше, а затем внедрить полученный текстовый слой в djvu-книгу с помощью программы DjvuOCR. Таким образом, с помощью этого способа вы можете проконтролировать качество текстового слоя в отличие от первого; следует заметить, что алгоритм распознавания в программе DEE проще, чем в программе FineReader, и потому он допускает гораздо больше ошибок (например, русская буква «г» распознается как латинская «r»).

Итак, для реализации данного способа необходимо выполнить следующее:

– в программе FineReader добавить все страницы текста (полученные на шаге 5), сохранить пакет со страницами во временную папку (с помощью команды Файл – Сохранить пакет как…), затем настроить пару параметров:

а) в меню Сервис – Опции на вкладке Сканирование/Открытие в разделе Обработка изображений снять все галочки,

б) проверить язык распознавания на соответствующей вкладке Распознавание – он должен соответствовать содержанию текста распознаваемой книги. Например, если книга на русском языке, но в тексте могут встречаться латинские символы, то поставьте Русско-Английский язык;

в) нажать ОК.

– далее следует запустить процесс распознавания в меню Процесс – Распознать все (или клавишами Ctrl+Shift+R), который займет продолжительное время;

– после окончания распознавания настает черёд редактирования полученного текста – исправление орфографических ошибок, опечаток, типа «уменыпение» вместо «уменьшение» и т. п. Можете также исправлять параметры шрифта текста. Этого будет достаточно. Отредактированный текст автоматически сохраняется, не нужно периодически сохраняться. После завершения редактирования можно сохранить все страницы в формат Microsoft Word – *.doc (команда Файл – Передать все страницы в – Microsoft Word), полученный документ сохранить и в дальнейшем использовать, например, для составления описания книги и электронного оглавления;

– пакет с распознанным и отредактированным текстом готов для внедрения в djvu-книгу. Запускаем программу DjvuOCR (см. раздел Пример), внизу слева выберите язык интерфейса Russian (Русский), далее выбираем режим Ручной режим OCR manager. Появится окно, в котором необходимо указать 3 параметра:

1) папку пакета с распознанными страницами (которую сохранили ранее во временную папку) с помощью кнопки Обзор. Для проверки пакета на правильность нажмите ниже кнопку Тест проекта. Если сообщений не появится, значит ошибок нет, переходим к следующему параметру. В случае возникновения ошибок смотрите примечание;

2) в поле Какая первая страница в DJVU указываем номер страницы в финальном djvu-файле (полученном на шаге 10), которая соответствует первой распознанной странице пакета. Как правило, это первая страница;

3) указываем финальный djvu-файл, в который будет добавлен текстовый слой из пакета со страницами кнопкой Обзор.

После чего жмем кнопку Обработка и ожидаем пару минут окончания процесса.

Результат: финальный djvu-файл с OCR-слоем.

Пример: пример работы с программой DjvuOCR иллюстрирован ниже.

Рис. 34. Программа DjvuOCR. Красными точками указаны поля и кнопки, используемые при внедрении OCR-слоя в djvu-книгу

Полезные советы:

– для перелистывания страниц в программе FineReader используйте сочетание клавиш Alt+Стрелка вверх или Alt+Стрелка вниз;

– при сохранении пакета со страницами по возможности задавайте его название латинскими буквами, например, «suda».

Примечание: качество распознавания текста зависит от ваших личных притязаний, требований и навыков работы с программой FineReader. К примеру, вы можете использовать настраиваемые профили, редактировать словари и т.д., что облегчит работу и улучшит качество конечного текстового слоя.

Ошибки в программе DjvuOCR при тестировании пакета со страницами, как правило, возникают, если неверно отредактирована какая-либо страница в программе FineReader – вернее, превышены рамки дозволенного, например, добавлены абзацы и т. п.

Если вы сохранили распознанный текст в формате *.doc, то необходимости в пакете нет – его можно смело удалить.