Как я перевожу шахматную литературу в формат ДЕЖАВЮ

  • Предисловие
  • Сканирование
  • Обработка сканов
  • Компиляция DJVU
  • Предисловие

    Более шести лет назад я написал статью "Перевод шахматной книги в формат ДЕЖАВЮ", основанную на девятимесячном опыте по обработке шахматной литературы. За это время мои взгляды, равно как и средства обработки несколько изменились, поэтому я решил описать процесс обработки мной шахматной литературы по состоянию на начало 2013 г.

    Сразу же хочу сказать, что по моему мнению обработка шахматной литературы более сложный процесс по сравнению с обработкой художественной или технической литературы, т.к. наряду с текстом и рисунками/фотографиями в шахматной литературе отдельной обработки требуют диаграммы.
    Поэтому описываемые мной приемы и способы обработки применимы и к упомянутым мной выше типам литературы.
    В этой статье вы не найдете подробного описания ни одной из программ, которые я использую, а будут упомянуты лишь только те параметры программ, которые используются мной при обработке.

    Прежде чем перейти к детальному рассмотрению процесса обработки, хочу изложить мое общее понимание этого процесса.
    Вся обработка распадается на три этапа: сканирование исходного материала, обработка сканов и компиляция обработанных сканов.
    Первый этап - сканирование - может заменяться импортом сканов, если сканирование производится кем-то другим, а сканы передаются либо непосредственно в виде архива, либо предварительно помещаются в pdf, который в этом случае является контейнером для передачи сканов. Во втором случае значительно уменьшается объем передаваемой (как правило через Интернет) информации.

    Главная мысль в понимании процесса перевода:
    Каждый из вышеперечисленных этапов обработки является крайне важным.

    Сканы, полученные после не совсем качественного сканирования невозможно нормально обработать, неважно обработанные сканы не исправит никакая компиляция, и, наконец, неудачно выбранные параметры компиляции могут напрочь испортить все предыдущую проделанную работу.

    Из вышесказанного не следует, что описываемые мной в дальнейшем действия по обработке обязательно приведут к идеальному результату. Рекомендую относиться к моим последующим советам только как к указателям на правильное направление обработки (естественно в моем понимании правильности :)), иметь в виду, что при всем моем желании я не смогу охватить всех ньюансов обработки, поэтому быть готовым к творческому осмыслению и самостоятельному расширению методов и приемов, используемых на каждом из этапов.

    Какие инструменты обработки я буду рассматривать в этой статье?

    На этапе сканирования - только программу vuescan.
    Не хочу ее сравнивать с другими программами сканирования, могу лишь только сказать, что она меня идеально устраивает для сканирования любых шахматных материалов, как собственно книг, так и всевозможных шахматных журналов и бюллетеней.

    Для обработки полученных сканов я использую только программу ScanKromsator (СК), возможно упомяну о своем видении на использование для обработки шахматной литературы альтернативной программы Scantailor (СТ).

    На этапе компиляции мной будут рассмотрены программы DocumentExpressEnterprise (DEE), DJVU Small, DocumentEditor (DE) и уже упомянутый выше ScanKromsator.

    Сканирование

    Просмотрел написанное о сканировании в предыдущей моей статье и обнаружил, что изменения коснулись этого этапа в меньшей степени по сравнению с другими этапами. Я до сих пор использую старую неруссифицированную версию программы vuescan (v. 8.4.76), которая меня устраивает больше русских версий, поэтому я не буду искать русских аналогов наименованиям параметров, приводимым мной в предыдущей статье. Желающие могут это сделать сами.
    Перехожу к изменениям и добавлениям в мое предыдущее описание сканирования.
    Периодически сталкиваюсь с настоятельной рекомендацией сканировать в 600dpi. На основании своего семилетнего опыта уверен, что в подавляющем большинстве случаев для нормальной обработки вполне годится сканирование в сером или в цвете в 300dpi. Считаю, что 600dpi стоит применять только в случае обработки качественных книг, содержащих отличные фотографии и репродукции, а также книг, содержащих множество мелких графических фрагментов.
    При предварительном просмотре использую разрешение не 75, а 150dpi.
    Несколько изменились мои взгляды на тип выходного файла (file type).
    Я выбираю file type в зависимости от сканируемого материала. Если предполагается, что в дальнейшем сканы будут переводиться в СК в черно-белый вид (так называемая бинаризация), то я выбираю Raw file, если же обрабатываемый материал будет помещен в дежавю в сером или цветном виде, то выбираю Tiff file.
    В чем разница между этими двумя вариантами?
    В первом случае (Raw file) получаются сканы наиболее приближенные к исходным. Они легче поддаются дальнейшей обработке в СК. Этот вариант я использую при обработке шахматных книг.
    Второй вариант (Tiff file) использую при обработке журналов и бюллетеней, если не предполагаю перевод текста в черно-белый вид. При создании Tiff file vuescan производит дополнительную обработку скана, после чего он становится более яркого цвета. В случае Raw file сканы получаются более темными, зато они лучше бинаризуются.
    Кстати, желающие могут сравнить эти два вида сканов, т.к. vuescan позволяет задать одновременно оба (и даже более!) типа сразу и получать за один проход сразу два (или больше!) скана.
    В заключение могу добавить, что vuescan позволяет в пакетном режиме перевести сканы типа Raw file в Tiff file, но не наоборот.

    Обработка сканов

    Наиболее сложная часть статьи!
    Для обработки я использую программу ScanKromsator (СК).
    Я встречал много жалоб на трудность освоения этой программы из-за отсутствия толкового описания ее работы, а уже имеющиеся описания (включая и мое шестилетней давности) страдают неполнотой описания и давно устарели, так как не охватывают новые возможности программы.
    В определенной степени я могу с этим согласиться, но надо иметь в виду несколько аспектов.
    Программа создавалась автором для его конкретных целей, но на определенном этапе он дал возможность другим воспользоваться ее возможностями. Такое тестирование и одновременно обсуждение на форуме необходимости реализации дополнительных возможностей привело к увеличению функциональности программы.
    Составление качественного описание программы это отдельное искусство, которое не имеет никакого отношения к программированию. Я могу это утверждать, так как всю свою трудовую жизнь провел в программировании и говорю об этом не понаслышке.
    Таким образом, найти в этой статье что-то, похожее на такое описание, по меньшей мере наивно.
    Повторю еще раз, описываю, как я обрабатываю сканы в СканКромсаторе.
    Если кто-то думает, что работа в СК сводится к выбору параметров обработки, а дальше программа сама все сделает, то он глубоко заблуждается. Потребуется много ручной работы для получения приличного результата.
    Мое описание основывается на последней на момент написания версии программы 5.96.2.
    Для расширения функциональных возможностей программы автор предусмотрел подключение нескольких других программ, но я специально для обработки взял только саму программу, а упоминать о поключении (и как это делать) других программ буду по мере возникновения такой необходимости.
    Для иллюстрации обработки в СК я взял сканы небольной брошюры, содержащей почти все необходимые элементы, подлежащие обработке (текст, фотографии, диаграммы и обложки).
    Качество полиграфии 20-х годов не позволяет получить достойный вариант обработки (я не думаю, что подобные сканы нужно обрабатывать в черно-белом варианте, в цветном они выглядят гораздо приличнее), но я и не ставлю здесь такой задачи. Моя цель - показать, какими приемами и параметрами я пользуюсь при обработке похожих (не по качеству полиграфии, а по присутствующим элементам обработки) сканов.
    Сразу хочу сказать, что количество обрабатываемых сканов влияет не на методику их обработки, а на длительность их обработки.
    Чтобы показать, что сам процесс обработки в СК не так уж сложен, постараюсь описывать только действия, которые я буду производить, а более подробное описание этих действий, а также описание дополнительных возможностей буду выносить в комментарии по отдельным ссылкам, чтобы не загружать основной текст описания
    [Комментарий].

    Настоятельно рекомендую ознакомиться с разделом Обработка сканов моей старой инструкции, так как я не буду здесь описывать то, что описал ранее, а только буду указывать на добавления и изменения в использовании параметров СК.

    В своем описании по возможности постараюсь придерживаться русской терминологии автора программы, которую он приводит в подсказках на пиктограммах и других объектах программы.

    Для процесса обработки требуются сканы, которые я получу в СК из заранее подготовленного pdf (4,96 MB), который можно скачать по ссылке.
    Чтобы импортировать сканы из pdf, запускаю СК, выбираю в меню File->Import->PDF..., а в появившемся окне Open выбираю Grenen3.pdf.
    В следующем окне PDF Import убираю галочку в окошке Add prefix to file names и жму ОК [Комментарий].
    Как теперь найти на диске директорию с извлеченными сканами?
    Смотрю в меню File->Options..., что стоит на вкладке Main win в поле Temp folder. Если (default), то рядом с программой СканКромсатор должна появиться поддиректория Tempsk, а в ней поддиректория Grenen3 (при извлечении сканов из pdf с помощью СК имя директории со сканами всегда равна имени файла pdf). Если же нужно, чтобы директория со сканами находилась в другом месте, в поле Temp folder нужно прописать путь к этому месту.
    После извлечения сканов слева в окне СК появится список из 11-и тифов, пронумерованных от 0001.tif до 0011tif.
    Просмотрев их, легко заметить (слева внизу в основном окне СК), что первый и последний сканы сделаны с разрешением 150dpi, остальные сканы - в 300dpi. Кроме того, 1, 2, 10 и 11 сканы сделаны в цвете (16777216 color), остальные сканы в сером (grey - 256 color).
    Первое действие в СК - Draft kromsate (Edit->Draft kromsate...) [Комментарий].
    В появившемся окне Draft kromsate ставлю галочку в окошке Split pages и жму ОК.
    После завершения процесса в окошке левее каждого файла в списке файлов появятся зеленые галочки, что означает, что файлы помечены (marked), то есть они готовы к обработке. Но сначала надо расставить правильно некоторые параметры.
    Сначала я решаю, с каким разрешением я буду обрабатывать текст.
    Так как я собираюсь бинаризовать текст в 600dpi, то я перехожу на вкладку СК Files и в списке DPI выбираю 600dpi, а в списке Color уже стоит B/W.
    На вкладке Options в списке Despecle выбираю значение Fine [Комментарий].
    На вкладке Binarization в списке Left page: при нажатой клавише Ctrl выбираю порог бинаризации Auto и в появившемся окне Warning жму Yes [Комментарий].
    На вкладке Book в поле H.Gap value прописываю 160 Warning жму Yes [Комментарий].
    При просмотре исходных сканов вижу, что нумерация страниц ведется вверху, обычно страницы с нумерацией я выравниваю поверху. Но в этом примере как по горизонтали, так и по вертикали я буду выравнивать по центру.Для этого перехожу на любой скан-разворот (файлы со 2 по 10) и на вкладке Page при нажатой клавише Ctrl в обоих списках поля Page H.align выбираю С, а в обоих списках поля Page V.align также выбираю С.

    Теперь надо настроить правильную обработку цветных обложек, фотографий и диаграмм.
    Для этого я буду использовать picture-зоны.
    В дополнительных меню над изображенным сканом жму на черный треугольник правее пиктограммы с кругом (подсказка - Mouse-Up mode), внутри которого белый прямоугольник , в появившемся списке выбираю Create picture zone, после чего пиктограмма принимает вид , и перехожу на первый скан.
    Создаю зону, содержащую всю область первого скана, ограниченную синими резаками.
    Для этого нажимаю левую клавишу мыши (ЛКМ) левее и выше левого верхнего перекрестья резаков и, удерживая ее нажатой, тащу ее правее и ниже правого нижнего перекрестья резаков. После прекращения нажатия на ЛКМ на изображении скана появится прямоугольная зона, ограниченная пунктирными линиями розоватого цвета.


    Двойным щелчком ЛКМ на зоне попадаю в окно Picture zone properties.
    На вкладке Format в списке DPI выбираю значение 600, в списке Color - B/W, а в появившемся списке Thr - Auto.
    На этой же вкладке нажимаю на пиктограмму , в результате вкладка Format будет выглядеть так:

    Перехожу на вкладку Filters, в окошке левее слова Despecle ставлю галочку, а в списке чуть ниже выбираю значение Fine:

    Наконец, на вкладке Paint на изображении выделенной зоны отыскиваю область с однородным фоном (без черноты) и заключаю ее в прямоугольник:

    После этого в блоке Background в окошке Enable ставлю галочку, в результате на пиктограмме выше в этом блоке появляется рисунок , после нажатия на эту пиктограмму вкладка окончательно примет вид:

    Свойства этой зоны заданы, закрываю окно, нажав на ОК.
    В главном окне на вкладке Page меняю значение списка Page V.align на С (выравнивание по середине), такое же действие произведу на последнем тифе.
    Надо отметить, что СК запомнила свойства этой зоны, поэтому перехожу на другие, схожие с первым тифом страницы (левая страница второго тифа, правая страница десятого тифа, одиннадцатый тиф) и делаю на них такие же зоны, как на первом тифе. Желающие могут проверить, что все выставленные на первой зоне свойства сохраняются для последующих зон.
    При выставлении зоны на втором тифе вижу, что на левой странице разворота правый резак отрезает часть нужного текста:

    поэтому сдвигаю его правее колонки с нумерацией страниц.

    Пока же я делаю перерыв, а чтобы не потерять сделанное, выбираю в меню File->Save task... и сохраняю задание с именем Grenen3.spt. При возобновлении задания мне будет достаточно его загрузить.

    Через некоторое время загрузив задание в СК, вижу, что все (почти!) сделанное ранее сохранилось. Так как я не закончил расставлять зоны, устанавливаю Mouse-Up mode (см.выше) на Create picture zone (это то, что теряется при выходе из задания).
    Мне нужно поставить зоны на несколько диаграмм и две фотографии, причем диаграммы и фотографии будут обрабатываться с разными параметрами. Можно сначала заключить в зоны все диаграммы, а за следующий просмотр сканов - фотографии, но уже с другими параметрами зоны. Для данного примера это не принципиально. Но если книга имеет несколько сотен страниц, множество диаграмм и фотографий, повторный просмотр сканов может занять много времени.
    Я сделаю расстановку зон для диаграмм и фотографии за один проход следующим образом.
    Создаю зону на диаграмме разворота 0003.tif, захожу в свойства зоны двойным щелчком ЛКМ на зоне и устанавливаю параметры обработки зон с диаграммами, а именно:
    Вкладка Format: DPI = 600, Color = B/W, Thr = Auto.
    Вкладка Filters: ставлю три галочки левее полей Smooth, Blur, Sharpen, затем правее поля Sharpen ставлю значение 5 и убираю галочку (если она есть) в окошке левее Despecle.
    Закрываю окно свойств, нажав на ОК.
    Делаю зону вокруг фотографии Капабланки на этом же развороте и помечаю (mark) эту зону. Для этого захожу в свойства этой зоны и на вкладке Format ставлю галочку в поле Marked. После закрытия окна свойств зоны сама зона в главном окне имеет желтоватый цвет.
    На развороте 0004.tif в зоны заключаю диаграмму и фотографию Алехина, причем зону на фотографии также помечаю.
    Так как фотография расположена с некоторым наклоном, зону создаю следующим образом:
    На дополнительном меню сверху жму пиктограмму , включая Режим полигонального выделения.
    Щелкаю ЛКМ чуть левее и выше левого верхнего угла фото, затем перемещаю мышь к левому нижнему углу. За ней тянется непрерывная черная линия. Щелкаю (однократно) ЛКМ левее и ниже левого нижнего угла, и черная непрерывная линия превращается в пунктирную красную.
    Затем перемещаю мышь правее и ниже правого нижнего угла и делаю один щелчок ЛКМ. И, наконец, перемещаю мышь правее и выше правого верхнего угла и делаю двойной щелчок ЛКМ, после чего вокруг фотографии создается зона.
    Далее образую зоны вокруг диаграмм на разворотах 0005.tif-0007.tif и 0009.tif, не забыв предварительно отключить Режим полигонального выделения.
    Теперь нужно установить свойства для обработки зон с фотографиями. У меня таких две, обе выделены желтым цветом.
    Захожу в свойства одной из них (можно выбрать любую) и меняю значения некоторых параметров.
    Вкладка Filters: убираю три галочки левее полей Smooth, Blur, Sharpen.
    Вкладка Format: DPI = Original, Color = Original.
    На этой же вкладке жму клавишу Copy to group..., в появившемся окне


    ставлю галочку в окошке Apply to marked zones only, жму ОК, а затем закрываю окно.

    Черновой вариант обработки сканов подготовлен, осталось сделать последний штрих.
    В основном меню выбираю Process и щелкаю по строчке Do not finalize.
    Наконец, жму на пиктограмму (Обработать все файлы задания).
    В появившемся окне предупреждения


    жму Yes и жду завершения процесса.

    После завершения процесса появляется информационное окно:


    а следом за ним окно предупреждения:

    Нажав YES, попадаю в окно Result view, в котором вижу первую, заглавную страницу брошюры.

    Что мне дал режим Do not finalize?
    Так как программа еще не создала реально выходные сканы вычисленного ее размера (их можно посмотреть на вкладке Books главного окна в полях Page width и Page height), я могу просмотреть, устраивает ли меня размер полей вокруг текста, а также исправить ошибки программы при определении текстового блока на странице.
    Исправив все это, я могу дать программе задание пересчитать общий размер страницы с учетом исправления положения текстового блока на отдельных страницах, затем завершить финализацию, в результате чего получу выходные сканы устраивающего меня размера.

    Начинаю просматривать выходные страницы.
    Первые три страницы меня устраивают, но четвертая почти вся покрыта чернотой. Это неправильная обработка программой порога бинаризации Auto, подобное будет наблюдаться и на некоторых других страницах.
    Хочу сказать, что на данном примере эта ошибка проявилась гораздо чаще, чем на других книгах.
    Автор о ней знает и обещает исправить ее в следующих версиях программы.
    Как я поступаю в таких случаях?
    Захожу на предыдущую нормально выглядящую страницу (в данном случае стр.33) и перехожу в основное окно. В нем на вкладке Binarization запоминаю число, стоящее правее списка Right page: (соответствующего стр.33) - 165.
    Здесь же в главном окне перехожу на 3-й разворот, страница которого стала черной, и вижу, что на той же вкладке правее списков Left page: и Right page: стоят числа 225, то есть порог бинаризации для обеих страниц этого разворота сильно завышен программой.
    Выбираю в списке Left page: значение Custom и меняю значение 225 на 165. Одновременно оно поменяется и для списка Right page:.
    Нажав на пиктограмму (Обработать текущий файл), получаю исправленные страницы этого разворота.
    Аналогичные действия я делаю на разворотах 0004.tif и 0005.tif.
    на развороте 0006.tif чернота проявляется только на правой странице, поэтому на вкладке Binarization я в списке Left page: выбираю значение Custom, после чего пропадает галочка в окошке The same for left & right, а после простановки снова этой галочки значения левой и правой страницы выравниваются, и мне остается только нажать пиктограмму и заново обработать правую страницу разворота.
    Аналогично поступаю с разворотами 0007.tif и 0009.tif.

    Последняя проблема у меня с задней обложкой (разворот 0011.tif), она связана с грязью на полях вне выбираемого блока, а также есть чернота слева. Чтобы ее убрать, заменяю на вкладке Binarization значение Auto на Custom - 160 и повторно обрабатываю.
    Однако блок текста не находится посредине из-за грязи на полях. Становлюсь на маленький синий квадратик в середине левой синей пунктирной линии, а когда курсор превратится в двухстороннюю стрелку, нажав ЛКМ, подтягиваю левую вертикальную линию в сторону блока с текстом, добиваясь, чтобы этот блок находился посредине страницы по горизонтали.
    Таким же способом выравниваю по вертикали.

    Для получения обработанных выходных сканов выбираю в меню Process->Finalize->All.

    Далее приступаю к постобработке.
    Все четыре обложки имеют белые поля по краям скана, на примере последней обложки показываю, что я в этом случае делаю.
    Находясь в RV, нажимаю на пиктограмму (Последняя страница), попадая тем самым на последнюю обложку.
    Что из себя представляет этот скан, можно посмотреть следующим образом.
    Щелкаем ЛКМ на цветном фрагменте, в результате чего по границам цветной зоны появляются 8 черных квадратиков, а курсор превращается в перекрестье горизонтальной и вертикальной двухсторонних стрелок.
    Затем нажимаем ЛКМ и, удерживая ее, двигаем цветную зону в разные стороны. Таким образом видно, что скан в RV состоит из двух сканов: цветного (который мы двигаем) и находящегося за ним черно-белого (по размерам все скана), на котором находится масса грязи, которую нужно удалить.
    Перехожу в режим очистки, нажав на пиктограмму (режим mouse-up очистки). Отодвинув указанным выше способом цветную зону сначала вправо вниз, очищаю левую и верхнюю части нижнего скана. Затем также чищу справа и внизу, а затем размещаю цветную зону в середине скана.
    Для продолжения знакомства с этим сканом перехожу в вид отображения Zones, выбрав это значение в списке


    Появляется сообщение,

    предлагающее сохранить сделанные изменения в скане. Нажимаю Yes и попадаю в вид отображения Zones.
    Чтобы В дальнейшем не повторять такие подтверждения, нажимаю на пиктограмму (режим автосохранения изображений).
    В левой половине экрана вижу предыдущее изображение страницы, правая половина состоит из двух частей: верхней, в которой показаны маленькие изображения зон на этой странице (в нашем случае это одна зона), и нижней, в которой показана выбранная вверху зона.
    В Status bar можно увидеть реквизиты сканов этой страницы , показывающие, что скан всей страницы назван 0020.tif (в квадратных скобках приведены его линейные размеры, совпадающие со значениями на вкладке Book), а зона имеет имя pic.0006.tif.
    Оказывается, что якобы цветная зона (так она видна в левой половине экрана) на самом деле при выбранном мной способе обработки зоны хранится в черно-белом виде (поэтому ее можно обрабатывать как черно-белый скан прямо в этом окне; для удобства можно увеличить размеры показа зоны).
    То, что это цветная зона и каким именно цветом она заливается, знает программа. Чтобы получить окончательный (цветной) вид страницы, нужно выполнить команду Merge.
    Для этого делаю щелчок ЛКМ на цветной зоне правой половины окна, а затем нажимаю правую клавишу мыши (ПКМ).
    В появившемся меню

    выбираю строку Merge, после чего скан 0020.tif действительно становится цветным, в чем легко убедиться, посмотрев его в папке out.
    Но надо решить проблему с белыми полями вокруг цветного фрагмента.
    Для этого нужно выйти из режима mouse-up очистки, отбив пиктограмму или нажав клавишу Х английская.
    Затем сообщаю программе, каким цветом я собираюсь заливать белые поля. Для этого с помощью ЛКМ на цветном фрагменте создаю пунктирный прямоугольник, стараясь по возможности выбрать область без черных точек и фрагментов, после чего нажимаю на пиктограмму (Задать цвет как среднее в текущем выделении).
    Далее заменяю тип чистящего цвета с White на Magic, нажав одновременно клавиши Ctrl и 3, при этом вид пиктограммы (Тип чистящего цвета) изменится на .
    Устанавливаю режим mouse-up очистки, нажав клавишу Х, и закрашиваю белые поля (а заодно и грязные места на цветных полях как вокруг рамки, так и внутри ее) выбранным цветом.
    Возвращаюсь в вид отображения One page и вижу, что вся страница залита одним цветом.
    Аналогичные действия я делаю с оставшимися тремя обложками.

    Качество диаграмм в этом примере плохое, поэтому вряд ли их удастся заметно улучшить.
    Покажу, что еще можно сделать с фотографиями на примере фотографии Алехина (7-й выходной скан). Находясь в виде изображения Zones на 7-ом выходном скане, имею справа зону с фото Алехина.
    Вокруг фотографии есть небольшая серая полоса, которая на фоне белой страницы будет выглядеть некрасиво. Устанавливаю режим mouse-up очистки и тип чистящего цвета White и при нажатых одновременно клавишах Ctrl и Shift щелкаю ЛКМ в любом месте этой полосы, в результате чего она становится белой. Осталось только немного почистить грязь слева от фото.

    Тот же трюк не проходит с фотографией Капабланки на 4-м выходном скане, т.к. одновременно с очисткой в белый цвет полей вокруг фото очистится и часть фотографии.
    Приходится поступать по-другому.
    Щелкаю ЛКМ в левом верхнем углу зоны, затем в левом нижнем, потом в правом нижнем, следом в правом верхнем и далее щелкаю так, чтобы получилось как на этой картинке:


    Дойдя до верхней части левого верхнего полукружья, делаю на ней двойной щелчок, в результате чего получаю следующее:

    Аналогично убираю оставшуюся сверху часть серой полосы.
    На этом я заканчиваю обработку в СканКромсаторе этой брошюры, хотя, конечно, еще многое можно попытаться сделать, чтобы улучшить результат. Впрочем это не входит в задачу данной статьи, но возможно я что-то добавлю в будущих комментариях.

    Компиляция DJVU

    Моя следующая (и окончательная) задача - получить DJVU на основе обработанных в СК сканов.
    Здесь есть два принципиально разных способа компиляции.
    Как я уже упоминал выше, если на странице есть зоны, то СК создает один основной тиф по размеру страницы, куда попадает вся информация, не охваченная зонами, а также несколько дополнительных тифов (по количеству picture-зон на странице), размеры которых естественно равны размеру созданной зоны.
    Объединить все эти тифы в один в СК можно с помощью команды Merge.
    В этом заключена разница в указанных выше способах компиляции.
    Первый способ это, не объединяя тифы одной страницы в один, в рамках СК произвести компиляцию. Я буду его рассматривать, но по ряду причин сделаю это позже.

    Второй способ компиляции требует предварительного объединения всех сканов одной страницы в один серый/цветной скан для всех страниц, содержащих зоны. В результате этой операции в СК получаются выходные сканы по числу обрабатываемых страниц книги. Компиляция в дальнейшем будет производиться программой DjVu Small, которая является лишь графической оболочкой для программы DocumentExpressEnterprise, а точнее его модуля documenttodjvu.exe.
    Именно этот модуль использует СК при компиляции первым способом, требуется только правильно прописать путь к этому модулю в свойствах СК.

    Те, кто в дальнейшем хочет попробовать первый способ компиляции, сейчас должен проделать определенную работу, чтобы сохранить эту возможность, так как процесс объединения зон с основным сканом страницы изменяет как эти основные сканы, так и само задание.
    Для этого я сначала сохраняю текущее состояние задания в старом имени задания, а затем его же с именем Grenen3Merge.spt, а также в отдельную директорию основные обработанные сканы страниц (они пронумерованы в директории out от 0001.tif до 0020.tif. Конечно, не все они будут изменены при выполнении команды Merge (а на сканах обложек она уже выполнена!), но проще сохранить все, чтобы не разбираться, какие сканы будут изменены.

    Теперь выполняю команду Merge сразу для всего задания, для этого выбираю в меню Zones->Picture zone->Merge zones... и в появившемся окне Merge zones нажимаю ОК. В окне предупреждения жму Yes и жду окончания процесса объединения.
    После завершения можно сравнить размеры сохраненных файлов и файлов после объединения и увидеть, какие сканы увеличились за счет добавления зон.

    В программе DjVu Small, нажав клавишу Open file(s) (Открыть файл(ы)), в появившемся окне Open выбираю директорию out, а в ней файлы от 0001.tif до 0020.tif. Затем, нажав клавишу Browse (Обзор), устанавливаю путь к директории out (именно туда программа поместит откомпилированный djvu). В списке Select encoding profile: (Выберите профиль кодирования) выбираю значение Scanned (600dpi).


    После нажатия на клавишу Options (Опции) попадаю в окно Options (Опции).

    На вкладке General (Общие) в поле Output DjVu-file name (Имя вых. DjVu-файла) задаю имя файла Grenen3.


    Перехожу на вкладку Encode to DjVu (Кодировать в DjVu).

    Ставлю галочки в окошках Resolution multiplier (Умножитель разрешения) и Bg subsample (Пониж. ресемплинг ЗФ), кроме того правее второго наименование выбираю значение 3.


    Далее перехожу на вкладку Encode to DjVu(2) (Кодировать в DjVu(2)).

    Ставлю галочки в окошках Text quality (Сохранение деталей), Page per dict (Страниц в словаре) и Jb2 format (Формат Jb2), а также выбираю значения этих полей соответственно aggressive (Агрессивное), 20 и Color (Цветной).

    Закрываю окно свойств, нажав в правом верхнем углу Х, и попадаю в главное окно программы.
    После нажатия клавиши Convert (Пуск) жду завершения процесса компиляции и получаю дежавю размером 842 991 байт.

    На этом завершаю краткое :) описание процесса перевода в электронный вид.
    В дальнейшем в этот текст в виде ссылок будут добавляться в определенные места комментарии, объясняющие или дополняющие сказанное в основном тексте.

    Всячески приветствуются любые конструктивные замечания и пожелания.

    shch_vg@inbox.ru апрель 2013 г.