Якщо на книжку збіг термін дії авторських прав (у мене в черзі дещо видання 1918-1919 років, Вінниця, Полтава, авторам, як от Олелькові Островському, навіть до Голодомору дожити не дали), то можна (і треба!) просто завантажити архів із зображеннями на archive.org. Воно перепакує, прожене через OCR і вийде щось таке BibleOhienko, де є купа різних форматів вулючно з djvu з підкладеним розпізнаним текстом.
Звісно, зі сканами краще повозитися, щоб була максимальна якість.
Інакше можна спробувати image magick, його convert вміє збирати в pdf (хоча у свіжих убунтах чомусь комизиться, просить явно дозволити).
Цей makefile (у нас форум програмістів чи хто?) розрахований на добре вирівняні і контрастовані скани нот, які можна перегнати в 1-бітове представлення, після чого стиснути факсовим стисканням, це дає дуже малий розмір pdf.
.SILENT :
TARGET := result-make.pdf
AREA := 70mb
TMPDIR := ./tmp
MONITOR := # -monitor
INFO := # echo AREA = $(AREA) ; convert --version ; uname -a
all : begin $(TARGET) printok
begin: directories
echo ======== Beginning of $(TARGET) processing. ; $(INFO)
printok: $(TARGET)
echo ======== All OK: ; ls -l $<
SRC := $(wildcard *.jpg)
TMPTIFF := $(addprefix $(TMPDIR)/,$(SRC:.jpg=.tiff))
result-make.pdf : $(TMPTIFF)
echo ==== Creating $@
convert $^ $@
$(TMPDIR)/%.tiff : %.jpg
convert -limit area $(AREA) $(MONITOR) $< -resize 1728x1728 -monochrome -compress fax $@
directories:
if [ ! -d $(TMPDIR) ] ; then \
echo ==== Creating working directories ; \
mkdir -p $(TMPDIR) ; \
fi
clean:
echo ==== Erasing working directories
-rm -f $(TMPTIFF)
Для попередньої обробки сканів є unpaper (воно десь на гітхабі чи ще десь лежить, я 5 років тому збирав сам, бо в убунті була дуже стара версія, повільна і тупувата). Саме ним я перед завантаженням на archive.org ділив розвороти Біблії Огієнка на окремі сторінки, чистив і вирівнював, контрастував, ...
Але там треба почаклувати з параметрами, хоча часу зекономило немало, вручну то було б важко робити. До нього наче є якась оболонка, як ото doxywizard для doxygena, але я без неї обійшовся.