Mettiamo di avere una cartella piena di immagini numerate, una per pagina, possiamo ottenere un pdf con img2pdf
img2pdf * > output.pdf
Tuttavia nel caso in cui mi sono imbattuto oggi ogni immagine conteneva due pagine, e quindi andavano divise, ho usato ImageMagick con il comando (adattato da StackOverflow), sostituendo subfolder_name con il nome di una sottocartella esistente a nostro arbitrio, in modo da tenere separate le immagini divise da quelle originali.
ls -1 *.png | sed 's,.*,& subfolder_name/&,' | xargs -n 2 convert -crop 50%x100% +repage
Spostandomi nella sottocartella, ho riallineato le pagine, togliendo la copertina che era stata erroneamente divisa in due, e inserendone un’ulteriore copia per mantenere l’allineamento degli spread. Quindi ho ricreato il pdf con img2pdf, di default le immagini vengono inserite in ordine alfabetico.
L’ultimo passaggio è stato un grossolano tentativo di riconoscimento automatico dei caratteri, usando OCRmyPDF
ocrmypdf input.pdf output.pdf
Per mia fortuna oggi lavoravo su un testo in inglese, ma si possono installare altre lingue