OCR mit Tesseract
Falls Tesseract nicht als fertiges Paket vorhanden ist oder dessen Version zu niedrig (<4): Tesseract installieren
Traineddata hinzufügen:
wget https://github.com/tesseract-ocr/tessdata/raw/master/deu.traineddata mv -v deu.traineddata /usr/local/share/tessdata/
Vor der Texterkennung mittels Tesseract hat sich die Umwandlung des PNG-Bildes in ein TIFF als sinnvoll erwiesen. Im Zuge dieser Konvertierung mit ImageMagick kann das Bild für die Texterkennung vorbereitet werden und die Scannerauflösung gespeichert werden. ImageMagick installieren, falls kein Paket (>7) vorhanden und ImageMagick kompiliert werden muss die benötigten libpng, libtiff vorher installieren. (fontconfig, freetype)
https://imagemagick.org/script/install-source.php
Die Größe der resultierenden PDF-Datei ist bei einer Verwendung von Tesseract Version 4 immens kleiner als bei vorhergehenden Versionen. Das vom Scanner erstellte PNG-Bild wird anschließend gelöscht.
#!/bin/sh magick $1$2.png -despeckle -density $3 $1$2.tiff tesseract -l deu $1$2.tiff $1../pdf/$2 pdf 2> $1$2.txt unlink $1$2.png
Struktur
- Verzeichnis mit durch Tesseract erstellte PDF
- Verzeichnis original erhaltene PDF (z.B. Email)
- Verzeichnis mit Bildern (TIFF) für OCR
- Verzeichnis mit Bildern für Web (png, gif, jpg)
- Verzeichnis mit erkannten Texten für Suchfunktion
Bereits bearbeitete Dokumente werden im Verzeichnis 3 gelöscht. Link vom original PDF Verzeichnis auf Dokumente im Tesseract-Verzeichnis, so dass alle PDF über Verzeichnis 2 aufgerufen werden können.
Eintrag in DB nach Absender/Empfänger, Datum Dokument, Datum gescannt, Art (Rechnung…), Betrag, Skonto