Dienstag Sep. 04, 2012

Open Source Texterkennung mit Tesseract OCR

Die bei HP entstandene und seit einigen Jahren von Google gepflegte OCR Engine Tesseract ist inzwischen ziemlich gut und hat eine Layout-Analyse mit Spalten-Erkennung. Da per Default keine GUI dabei ist, kann man auf Tools wie Gimagereader zurückgreifen. Eine Einführung in Tesseract gibt es auf heise open.

Kommentare:

Senden Sie einen Kommentar:
  • HTML Syntax: Ausgeschaltet