Benutzer-Werkzeuge

Webseiten-Werkzeuge


eierlegende_wollmilchsau:tesseract

OCR mit Tesseract

Falls Tesseract nicht als fertiges Paket vorhanden ist oder dessen Version zu niedrig (<4): Tesseract installieren

Traineddata hinzufügen:

wget https://github.com/tesseract-ocr/tessdata/raw/master/deu.traineddata
mv -v deu.traineddata /usr/local/share/tessdata/

Vor der Texterkennung mittels Tesseract hat sich die Umwandlung des PNG-Bildes in ein TIFF als sinnvoll erwiesen. Im Zuge dieser Konvertierung mit ImageMagick kann das Bild für die Texterkennung vorbereitet werden und die Scannerauflösung gespeichert werden. ImageMagick installieren, falls kein Paket (>7) vorhanden und ImageMagick kompiliert werden muss die benötigten libpng, libtiff vorher installieren. (fontconfig, freetype)

https://imagemagick.org/script/install-source.php

Die Größe der resultierenden PDF-Datei ist bei einer Verwendung von Tesseract Version 4 immens kleiner als bei vorhergehenden Versionen. Das vom Scanner erstellte PNG-Bild wird anschließend gelöscht.

#!/bin/sh
magick $1$2.png -despeckle -density $3 $1$2.tiff
tesseract -l deu $1$2.tiff $1../pdf/$2 pdf 2> $1$2.txt
unlink $1$2.png

Struktur

  1. Verzeichnis mit durch Tesseract erstellte PDF
  2. Verzeichnis original erhaltene PDF (z.B. Email)
  3. Verzeichnis mit Bildern (TIFF) für OCR
  4. Verzeichnis mit Bildern für Web (png, gif, jpg)
  5. Verzeichnis mit erkannten Texten für Suchfunktion

Bereits bearbeitete Dokumente werden im Verzeichnis 3 gelöscht. Link vom original PDF Verzeichnis auf Dokumente im Tesseract-Verzeichnis, so dass alle PDF über Verzeichnis 2 aufgerufen werden können.

Eintrag in DB nach Absender/Empfänger, Datum Dokument, Datum gescannt, Art (Rechnung…), Betrag, Skonto

eierlegende_wollmilchsau/tesseract.txt · Zuletzt geändert: 2019/12/03 13:31 von andmin