Manipolazione PDF da linea di comando

Mettiamo di avere una cartella piena di immagini numerate, una per pagina, possiamo ottenere un pdf con img2pdf

img2pdf * > output.pdf

Tuttavia nel caso in cui mi sono imbattuto oggi ogni immagine conteneva due pagine, e quindi andavano divise, ho usato ImageMagick con il comando (adattato da StackOverflow), sostituendo subfolder_name con il nome di una sottocartella esistente a nostro arbitrio, in modo da tenere separate le immagini divise da quelle originali.

ls -1 *.png | sed 's,.*,& subfolder_name/&,' | xargs -n 2 convert -crop 50%x100% +repage

Spostandomi nella sottocartella, ho riallineato le pagine, togliendo la copertina che era stata erroneamente divisa in due, e inserendone un’ulteriore copia per mantenere l’allineamento degli spread. Quindi ho ricreato il pdf con img2pdf, di default le immagini vengono inserite in ordine alfabetico.

L’ultimo passaggio è stato un grossolano tentativo di riconoscimento automatico dei caratteri, usando OCRmyPDF

ocrmypdf input.pdf output.pdf

Per mia fortuna oggi lavoravo su un testo in inglese, ma si possono installare altre lingue