DJVU  
  Программы для конвертации DjVu формата и
    руководство по самостоятельному созданию книг
 

    DJVU Конвертер Создание djvu книги  
Введение
Шаг 1
Шаг 2
Шаг 2А
Шаг 2Б
Шаг 3
Шаг 4
Шаг 5
Шаг 6
Шаг 7
Шаг 8
Шаг 9
Шаг 10
Шаг 11
Шаг 12
Шаг 13

Стандарты на форматы бумажных изданий и размеры изображений их страниц

Примеры последовательности шагов для различного типа бумажных изданий

Создание книг в djvu формате

Соколов Д.С.

Используемые программы:

Adobe Photoshop (7.0 и выше) – графический редактор, Document Express Editor  (6.0.1, DEE) – djvu-редактор, Abbyy FineReader (7.0 и выше) – программа распознавания изображений – коммерческие;

ScanKromsator (v. 5.92, СканКромсатор, СК) – программа обработки сканированных изображений (сканов), Djvu Smalldjvu-кодер, DjvuOCR – редактор OCR-слоя в djvu-книгах, Djvu Bookmarker (1.0.15) – редактор оглавлений в djvu-книгах, IrfanView – графический просмотрщик с функциями редактирования изображений – бесплатные.

Материал: страницы с черно-белыми (ч/б), полутоновыми и/или цветными (далее – полутоновыми/цветными) иллюстрациями.

Описание. В данном руководстве сделана попытка проинструктировать весь процесс по созданию полноценной djvu-книги, начиная с обработки отсканированных изображений (сканов) страниц и заканчивая созданием электронного оглавления. Рассматриваются вопросы разделения текстовой и графической составляющих посредством программы ScanKromsator, обработки, djvu-кодирования и внедрения иллюстраций в готовый djvu-файл с текстами согласно разработанной методики вклейки иллюстраций (МВИ, метод разделенного кодирования). Данная методика позволяет добиться качественного сохранения иллюстративного материала и компактности djvu-книги за счет оптимального кодирования текстовой и графической составляющих обрабатываемых книг (журналов). Подробно ознакомиться с понятиями, методами djvu-кодирования, а также МВИ можно на сайте http://sourceforge.net [1].

В общих чертах суть создания качественного и компактного djvu-файла выражается в раздельном кодировании (сжатии) одноцветного текста, рисунков И растровых иллюстраций (полутоновых, цветных) соответствующими алгоритмами. При этом информация об одноцветном тексте и рисунках заносится в слои mask и foreground, а информация о растровых изображениях – в слой background. В каждом слое информация максимально сжата благодаря разработанным и усовершенствованным алгоритмам. На сегодняшний момент проблема корректного автоматизированного разделения текста и изображений и их кодирования в соответствующих слоях djvu-книги полностью не решена. Согласно МВИ предлагается использовать ручное разделение слоя текста и иллюстраций с последующей обработкой и вставкой иллюстраций в слой background. Одна из сопутствующих проблем – наличие растра в изображениях и выбор метода его удаления. Однозначного решения в выборе доступного и качественного метода удаления растра пока нет, существующие методы размытия растра требуют визуального контроля и смекалки в подборе оптимальных параметров и последовательности действий. Но об этом позже.

Приведу средние размеры получаемых по МВИ djvu-страниц в зависимости от типа содержания: текста, ч/б рисунков, полутоновых или цветных иллюстраций (см. табл.). В расчетах условно предполагается, что текст, рисунки и иллюстрации занимают равные части страницы, например 50% текста+50% ч/б рисунков=15-35 Кб. Отмечу, что размер кодированных иллюстраций во многом зависит как от характеристики цветовой палитры, так и параметров применяемого размывания.

Таблица размеров djvu-страницы с различным наполнением, Кб

только текст

ч/б рисунки

полутоновые иллюстрации

цветные иллюстрации


5-20

15-35

77-150

77-260

только текст


25-50

87-150

87-275

ч/б рисунки



150-250

150-375

полутоновые иллюстрации




150-500

цветные иллюстрации

Так, кодированная в djvu научно-техническая книга с черно-белыми рисунками (10% всей книги) размером примерно 300 стр. будет «весить» ([5-20]*0,9 + [25-50]*0,1)*300 = 2,1-6,9 Мб. Иллюстрированный журнал (например, «Сабрина») с текстом (40%) и количеством в 50 стр. закодируется в ([150-500]*0,6 + [5-20]*0,4)*50 = 4,6-15,4 Мб, т.е. в среднем – 10 Мб, что подтверждается практикой.

Данная методика применима к сканам бумажных изданий с черно-белыми, полутоновыми или цветными рисунками или без таковых вообще (см. рис. 1).

Рис. 1. Пример типичного скана разворота книги, на котором имеется ч/б рисунок и полутоновая иллюстрация

Подразумевается, что исходные сканы имеют разрешение 300 dpi, хотя могут иметь и другие значения – 400, 600 dpi. После обработки и кодирования в формат djvu на выходе получаем файл, состоящий из изображений текста, имеющих разрешение 600 dpi, и внедренных в них изображений рисунков, которые имеют первоначальное разрешение в 300 dpi. Автор предпочитает сканировать бумажную литературу с разрешением в 300 dpi поскольку: 1) качество текста и иллюстраций сохраняется на должном уровне; 2) достигается оптимальное время сканирования и сканы изображений занимают приемлемый объем памяти на жестком диске (книга, имеющая 300 стр., сканируется на весь разворот в среднем 3 часа и занимает около 1,5 Гб). Уменьшая разрешение изображений рисунков, илллюстраций, с первоначальных 300 dpi до 200 и ниже, мы тем самым заметно ухудшаем их конечное качество, поскольку изображения в процессе кодирования претерпевают сильное размытие, затираются мелкие детали, которые и так были уменьшены до нельзя. Помните – хорошa та djvu-книга, которая практически неотличима от оригинала!

Методика состоит из шагов, которые имеют четкий порядок следования:

Шаг 1. Подготовка к обработке сканов в СК. На данном этапе назначаются задания на обработку сканов и указываются их параметры:

– оформление и параметры страницы – задание выходного формата, цветовой палитры, размера, названия файла, разрешения, размещения содержимого страницы (т. е. полей), поворота, разрезания разворотов на отдельные страницы;

– обработка изображений текста с целью приведения его к ч/б виду с максимальным сохранениям оригинальности и четкости контуров текста. Используются операции: очистка от мелкого мусора, размывание, сглаживание, увеличение резкости, настройка освещения, изменение контраста и яркости и т. д. Согласно требованиям пользователя выбираются необходимые операции и для них настраиваются параметры.

Шаг 2. Выделение иллюстраций (ч/б, полутоновых, цветных) в зоны для настройки параметров индивидуальной обработки. К зонам можно применить те же самые действия – очистку от мелкого мусора, размывание и т. д.

Шаг 3. Автоматическая обработка всех страниц программой СК.

Шаг 4. Объединение зон ч/б рисунков с текстом.

Шаг 5. «Косметическая» постобработка обработанных страниц.

Шаг 6. Обработка полутоновых/цветных иллюстраций (размывание, корректировка тонального, закрашивание мусора, белых пятен и прочее).

Шаг 7. Формирование страниц только с полутоновыми/цветными иллюстрациями.

Шаг 8. Djvu-кодирование всех страниц, кроме страниц-иллюстраций.

Шаг 9. Приведение страниц-иллюстраций к изначальному разрешению (разрешению сканирования).

Шаг 10. Djvu-кодирование страниц и их объединение (склеивание) с djvu-страницами текста.

Шаг 11. Создание OCR-слоя на основе страниц текста и его внедрение в djvu-книгу.

Шаг 12. Создание обложки, ее djvu-кодирование и внедрение в djvu-книгу.

Шаг 13. Создание электронного оглавления в финальной djvu-книге с помощью программы Djvu Bookmarker.

Схема следования шагов изображена на рис. 2. Также указан тип шага с точки зрения автоматизации.

В зависимости от типа бумажного носителя, его содержания, а также требований пользователя некоторые шаги методики могут пропускаться. В Приложении приведены шаги обработки распространенных типов бумажного издания: научно-технической литературы, иллюстрированных журналов, книг без каких-либо рисунков и др.

Статья иллюстрируется примерами, сопровождается советами и ориентирована на начинающих пользователей-энтузиастов и будет, надеюсь, интересной опытным умельцам.

Успехов в ваших начинаниях и экспериментах!


Рис. 2. Общая схема создания djvu-книги в зависимости от наличия в ней иллюстраций различного типа. Указаны примерные временные затраты на выполнение различных этапов (для компьютера с процессором 2,3 Гц, оперативной памятью 1 Гб)

Все пожелания, советы и критику просьба направлять на почту danilka23sds@mail.ru, на ру-борде (forum.ru-board.com, никнейм melodan) или пишите на сайте Инфаната в личку: http://www.infanata.com/user/bookoman/.

Примечание: для наглядного просмотра больших рисунков следует сразу переключиться в режим просмотра Веб-документ (в меню Вид).

 
Hosted by uCoz