DJVU  
  Программы для конвертации DjVu формата и
    руководство по самостоятельному созданию книг
 

    DJVU Конвертер Создание djvu книги  
Введение
Шаг 1
Шаг 2
Шаг 2А
Шаг 2Б
Шаг 3
Шаг 4
Шаг 5
Шаг 6
Шаг 7
Шаг 8
Шаг 9
Шаг 10
Шаг 11
Шаг 12
Шаг 13

Стандарты на форматы бумажных изданий и размеры изображений их страниц

Примеры последовательности шагов для различного типа бумажных изданий

Шаг 1 - Подготовка к обработке сканов

Подготовка к обработке сканов в СК – составление плана обработки сканов в виде различного рода заданий (команд, операций) и указания их параметров. Все задания можно разделить на категории:

– оформление и параметры страницы – задание выходного формата, цветовой палитры, размера, названия файла, разрешения, размещения содержимого страницы (т.е. полей), поворота, разрезания разворотов на отдельные страницы;

– обработка изображений текста с целью приведения его к ч/б виду с максимальным сохранениям оригинальности и четкости контуров текста. Для этого, как показывает практика, чаще всего применяют следующие операции: указание порога преобразования к ч/б виду (порога бинаризации) (Convert to b/w threshold), очистку от мелкого мусора (Despeckle), размывание (Blur), сглаживание (Smooth), увеличение резкости (Sharpen), настройку освещения (Illumination), изменение контраста (Contrast) и яркости (Brightnes). Пользователю необходимо выбрать нужные операции (в зависимости от качества изображения, личных предпочтений) и настроить для них параметры. Настройка (подбор) параметров проводится «на глаз» путем предварительной обработки ( или нажатием клавиш Ctrl+P) наиболее «проблемных» изображений с текстом.

Большинство заданий настраиваются индивидуально на каждую страницу или зону, но чтобы выбранное задание распространить на все объекты, при назначении задания необходимо удерживать клавишу Ctrl (например, для назначения операции сглаживания). Кроме того, все или часть заданий можно унифицировать и применять к последующим проектам. Это реализуется с помощью профилей (меню FileProfiles). Задайте необходимые значения параметров обработки и примените их на текущем профиле default кнопкой Save (Сохранить) и, по желанию, экспортируйте в файл кнопкой Export… (Экспортировать..). Для загрузки профиля используйте кнопку Import…(Импортировать…) и не забудьте его применить на текущем профиле.

Опишу в общем всё действо, происходящее на первом шаге.

На скане выделяется полезная область (с помощью линий-резаков) – текст и иллюстрации, всё остальное отсекается – мусор, черные полосы и т.д. Эта полезная область впоследствии будет скопирована и помещена на чистый (белый) шаблон. Как будет располагаться этот блок на шаблоне – указываете вы: размеры шаблона, отступы блока от границ шаблона, его выравнивание. Далее необходимо настроить порог, при котором серый текст станет черно-белым с минимальными потерями в качестве. Также можно применить по необходимости различные операции и эффекты:

– сглаживание и размытие – для удаления неровностей шрифта текста, затиранию очень мелких точек (размером 1-2 пикселя) – это повысит читабельность книжки;

– осветление – помогает избавляться от затемненных участков, например, на развороте книги;

– удаление мелкого мусора – точек, черточек и пр.;

– исправление ориентации скана – служит для горизонтального выравнивания текстовых блоков скана.

Настройка параметров выполняется, как правило, методом «научного тыка» – установили значение для одного параметра, обработали страницу, оценили результат, подкорректировали значение параметра.

Далее следует указать параметры сохранения обработанных сканов: задать директорию сохранения, формат файла, какое будет выходное разрешение, указать, что это будет черно-белый скан. По необходимости можно указать, какое будет иметь конечное имя обработанное изображение, будут ли страницы следовать друг за другом или они будут четными/нечетным и т.п.

На этом выполнение шага 1 заканчивается.

Краткая инструкция по работе резаков

Рассмотрим основные задания подробнее:

– расстановка резаков. С их помощью определяется полезная область содержимого страницы – текст и иллюстрации. Эта полезная область будет скопирована и помещена на чистый (белый) шаблон, размер которого можно задать автоматически или вручную (в полях). Сначала резаки предварительно автоматически устанавливаются программой СК согласно указанным пользователем правилам, затем их неверное конечное расположение корректируется самим пользователем. Эти правила задаются в окне Draft cromsate, которое вызывается с помощью кнопки . Самое простое – это поставить галочки напротив Split images и Safe top/bottom. Об использовании других параметров вы можете узнать в дополнительной литературе (см. Приложение). После нажатия кнопки ОК запускается автоматическое определение позиций резаков;

– указание размеров выходных страниц (на вкладке Book в полях Page width и Page height) – см. рис. 3, в центре;

Рис. 3. Установка основных операций и параметров обрабатываемых страниц:
слева – разрезанию, повороту, очищению от мусора, расположения, автоотступов,
в центре – размеров результирующих страниц и отступов,
справа – формата страниц, разрешения, цветовой палитры и места сохранения

Рис. 4. Установка основных операций и параметров обрабатываемых страниц:
слева – методов поворота и очищения от мусора,
в центре – порога преобразования к ч/б виду,
справа – значений сглаживания и размытия

– настройка параметров обработки (яркости, освещение, сглаживания и т. д.) – рис. 4, справа.

Рис. 5. Настройка параметров обработки страниц. Установка значений контраста (Contrast) – слева, и осветления (Illumination) – справа

Полезные советы:

– после обработки книги, если было задано Page Width=Page Height=auto (т.е. СК сам определял итоговые размеры книги с учетом заданных полей gaps), СК сам подставляет получившиеся размеры в соответствующие поля. После обработки нужно обязательно сменить auto на fixed, чтобы при переделке каких-то отдельных страниц их размер выдерживался равным итоговому размеру книги;

– можно следовать специальным стандартам на размеры страниц согласно заданному формату книги (см. Приложение). Например, для книги формата 84?108/32 размер выходной страницы, имеющей разрешение 600 dpi, следует поставить равным 3070?4724 пикс. Автор рекомендует устанавливать размеры, кратные 100 или 10 (не спрашивайте, почему ?, так нужно). Большие поля у выходных страниц практически не влияют на конечный размер результата их кодирования в djvu;

– выдержка из пособия по Кромсатору: «Основная обработка по кнопке Process! – это автоматический алгоритм распознавания контура текста на скане. В процессе этой обработки программа автоматически анализирует область внутри резаков, находит контур текста, и обрезает по нему. Попутно к скану применяются Despeckle, Deskew и т.п. Получается т.н. «голый текст», без полей. Далее рассчитываются средние ширина и высота голых текстов (и заносятся в поля Page width и Page height на вкладке Book), создаётся пустой шаблон с этими размерами, каждый голый текст копируется на копию этого шаблона (с относительным выравниванием, задаваемым в полях ввода Page h.align и Page v.align на вкладке Pages), а затем к этой копии добавляются поля заданного размера (размеры берутся из полей ввода H.Gap value и V.Gap value на вкладке Book). Так и получаются конечные обработанные сканы…»;

– если отсканированные страницы получились с наклоном, то для их успешного выравнивания необходимо установить на вкладке Page флажки Deskew и Art для обеих половин страниц (L и R). Это немного увеличит время обработки сканов, но и уменьшит количество страниц с неверно исправленной ориентацией. В любом случае будут страницы, которым придеться вручную исправлять ориентацию (подробнее об этом см. на шаге 5);

– не забывайте тестировать устанавливаемые параметры на сканах путем их предварительной обработки, причем желательно выбирайте разные сканы – как по яркости, так и содержанию, чтобы оценить результат обработки и соотнести его на все остальные страницы;

– если скан после обработки содержит мелкий мусор, то установите на вкладке Options в поле Despeckle значение Fine+Normal (вместо значения Normal) – это самый лучший («сильный») чистящий алгоритм. Однако он удаляет мелкие точки, штрихи и т.п. Для их сохранения выбирайте значение Safe;

– значения порога преобразования к ч/б виду могут варьироваться в широком диапазоне, скажем, от 160 до 230, в зависимости от качества скана. Например, часто для бледного изображения страницы достаточно установить значение, равное 180. Путем предварительной обработки пробных страниц, старайтесь достичь идеального соответствия толщины символов на исходном скане с соответствующими символами на обработанной странице. Если шрифт получается слишком тонким, необходимо увеличить порог бинаризации, слишком жирным – уменьшить. На величину порога влияет функция Illumination, которая несколько осветляет изображение страницы;

– навык умения работы с резаками, а также понимание механизма отступов (работа с полями Automargins, Page h. align, Page v. align, Spec. gaps) напрямую влияют на затраты сил и времени по сохранению точного расположения страниц в книге. Например, любой резак можно заранее зафиксировать в определенной позиции и применить его ко всем страницам или группе; обрезать только части страниц – например, только на развороте и т. д..

Пример: проиллюстрирован на рис. 6.

Рис. 6. Правильно расставленные резаки на одном из сканов-разворотов

 
Hosted by uCoz