===== OCR mit Tesseract ===== Falls Tesseract nicht als fertiges Paket vorhanden ist oder dessen Version zu niedrig (<4): [[https://github.com/tesseract-ocr/tesseract/wiki/Compiling-%E2%80%93-GitInstallation|Tesseract installieren]] Traineddata hinzufügen: wget https://github.com/tesseract-ocr/tessdata/raw/master/deu.traineddata mv -v deu.traineddata /usr/local/share/tessdata/ Vor der Texterkennung mittels Tesseract hat sich die Umwandlung des PNG-Bildes in ein TIFF als sinnvoll erwiesen. Im Zuge dieser Konvertierung mit ImageMagick kann das Bild für die Texterkennung vorbereitet werden und die Scannerauflösung gespeichert werden. ImageMagick installieren, falls kein Paket (>7) vorhanden und ImageMagick kompiliert werden muss die benötigten libpng, libtiff vorher installieren. (fontconfig, freetype) [[https://imagemagick.org/script/install-source.php]] Die Größe der resultierenden PDF-Datei ist bei einer Verwendung von Tesseract Version 4 immens kleiner als bei vorhergehenden Versionen. Das vom Scanner erstellte PNG-Bild wird anschließend gelöscht. #!/bin/sh magick $1$2.png -despeckle -density $3 $1$2.tiff tesseract -l deu $1$2.tiff $1../pdf/$2 pdf 2> $1$2.txt unlink $1$2.png ===== Struktur ===== - Verzeichnis mit durch Tesseract erstellte PDF - Verzeichnis original erhaltene PDF (z.B. Email) - Verzeichnis mit Bildern (TIFF) für OCR - Verzeichnis mit Bildern für Web (png, gif, jpg) - Verzeichnis mit erkannten Texten für Suchfunktion Bereits bearbeitete Dokumente werden im Verzeichnis 3 gelöscht. Link vom original PDF Verzeichnis auf Dokumente im Tesseract-Verzeichnis, so dass alle PDF über Verzeichnis 2 aufgerufen werden können. Eintrag in DB nach Absender/Empfänger, Datum Dokument, Datum gescannt, Art (Rechnung...), Betrag, Skonto