Page 1 of 1
Spracherkennung mit tesseract
Posted: Sun Feb 12, 2023 10:16 am
by harley-peter
Hallo,
hat jemand Erfahrungen mit Tesseract? Ich habe mal versucht mit dem Befehl
tesseract ~/Namensverzeichnis.png Text -l frk
Frakturschrift (siehe Anhang) zu erkennen aber es wird leider nichts erkannt, nicht mal die Hauptüberschrift alleine. Mache ich irgendwas falsch?
Re: Spracherkennung mit tesseract
Posted: Sun Feb 12, 2023 10:41 am
by Amigo
Ich weiß nicht, wie man Tesseract auf der Befehlszeile verwendet, aber
Sie können es mit Gimagreader (GUI für Tesseract) versuchen. Ich verwende es und es ist sehr einfach zu bedienen.
Wenn Sie interessiert sind
per Synpatic die Pakete installieren
gimagereader
libtesseract4
tesseract-ocr-deu
Ich habe einen Test durchgeführt, um zu sehen, ob das von Ihnen angehängte Bild zurückgegeben wird,
und aufgrund der verwendeten Typografie glaube ich nicht, dass es sehr gute Informationen liefert.
Ich hoffe, es ist nützlich für Sie
Übersetzt mit Google Übersetzer
Saludos
Re: Spracherkennung mit tesseract
Posted: Sun Feb 12, 2023 11:11 am
by gosia
Hallo Peter,
oh je, das ist ja zu allem Unglück noch eine sehr ausgeprägte Handschrift und noch nicht mal so sehr Fraktur (vgl. nur mal das grosse A, aber ich bin kein Experte)
https://omniglot.com/writing/fraktur.htm
da ist sogar mein teures OCR-Programm dran gescheitert. Das kann man tesseract nicht übel nehmen, das bei herkömmlichen gedruckten Schriften wirklich gute Ergebnisse liefert-
viele Grüsse gosia
Re: Spracherkennung mit tesseract
Posted: Mon Feb 13, 2023 6:21 am
by harley-peter
@Amigo:
gImageReader funktioniert bei mir nicht, er übersetzt überhaupt nichts. Wenn ich auf in den Einstellungen auf Sprachverwaltung klicke dann erscheint eine sehr lange Fehlermeldung:
Für die Verwaltung der systemweiten Tesseract-Sprachpakete ist eine Sitzungsverbindung zum Packagekit-Backend erforderlich, aber diese wurde nicht gefunden. Dieser Dienst ......
@gosia:
Ich bin z. Zt. in der Ahnenforschung aktiv und habe da leider nur einen Berg solcher digitalisierten Dokumente (kirchliche Matrikel) und hatte gehofft, dass mir Tesseract da weiterhilft.
Re: Spracherkennung mit tesseract
Posted: Mon Feb 13, 2023 7:40 am
by Duliwi
Nur als kleiner Hinweis: Ich weiss, dass man tesseract trainieren kann.
Ich habe aber selber keine Erfahrung darin. Es ist sicher nicht sehr benutzerfreundlich, aber wenn du sagst, dass du viele solche Beispiele hast, lohnt es sich vielleicht zu recherchieren. Allerdings ist das schon ein extrem schwieriges (hoffnungsloses) Beispiel.
Aber möglicherweise hilft dir Google weiter, wenn du versuchen willst tesseract zu trainieren.
Mit den Standardeinstellungen von tesseract bekomme ich auch nur dieses Ergebnis von deinem Beispieltext:
Code: Select all
. RX | | Y : ” . N t . “ a
"Er L [ Kae / 4 Eu j IN, Na, e../: f£: ‘fe ; '
' i + 6: s IK , 1 A ' ’ 18 ji In | A 5 .
an rn Phn PEWE SC anfang eg RE
I J r ea “ Yo: ACH THARIE | | x | „. | . | | | %
- IN " | AL 2 ; i ol | u | gu A ; SR A NEN er .
Nee une oh
' ‚ anni 19 0%. ‘ \ . n } r Apr ) R / A NER e ei { or m
Re: Spracherkennung mit tesseract
Posted: Mon Feb 13, 2023 9:28 am
by Amigo
Guten Tag allerseits
@harley-peter
OK ich konnte den Fehler reproduzieren aber das betrifft nicht
Es sieht so aus, als würdest du woanders klicken
Angehängte Bilder 1, wo der Fehler reproduziert wird
und 2 die Schritte zur Interpretation des Bildes
Schritte zum folgen
1.-Laden Sie die Datei hoch
2.-Klicken Sie auf den Pfeil und wählen Sie die deutsche Sprache aus
3.-Klicken Sie auf den Teil mit der Aufschrift Alle erkennen
Angehängte Bilder
Ich hoffe, das funktioniert für Sie
Grüße
Übersetzt mit Google Translate
Re: Spracherkennung mit tesseract
Posted: Tue Feb 14, 2023 8:14 am
by loik
Das fand ich spannend und habe gleich auch mal rumprobiert.
gImageReader funktioniert bei mir nicht, er übersetzt überhaupt nichts
So ging es mir auch.
Ich habe dann erst mal gImageReader aktualisiert, in dem ich bei MX-Paket-Installer das Repo "Test" ausgewählt habe.
Dann habe ich noch Tesseract-Pakete nachinstalliert.
Entscheidend bei mir war das Paket
Beschreibung: tesseract-ocr language files for German (Fraktur)
In gImageReader habe ich dann die Einstellung für Mehrsprachig gewählt und einen Haken gesetzt, bei "Deutsch" und "Fraktur".
Dann ging es.
Ich bekam eine Übersetzung.
Da kam aber genau so n unnützer Mist bei raus, wie auf Amigos zweitem Foto ( rechter Bildrand ) zusehen ist.
Dagegen ist Dulliwis Übersetzung linguistisch Hochkultur.
Dann dachte ich, dass Vielleicht dein Scan des Dokuments, dein JPG-Foto limitieren könnte.
Ich habe im Netz nach anderen Schriftproben gesucht.
Ich habe auch eine Seite gefunden.
Dort habe ich mir sowohl Screenshots von 3 verschiedenen Schriften "Sütterlin", Kurrent" und "AD_Handschrif_5" gemacht.
Zusätzlich auch noch die Seite mit der jeweiligen Schrift als PDF ausgedruckt.
Alles egal.
Das Übersetzungsergebnis ist jedesmal eine sinnlose Verstümmelung.
Aber, vielleicht hilft dir die Seite auf andere Weise weiter:
https://www.deutsche-handschrift.de/adsschreiben.php
https://www.deutsche-handschrift.de/beispiele.html
Re: Spracherkennung mit tesseract
Posted: Tue Feb 14, 2023 1:41 pm
by harley-peter
@loik:
habe ich alles ausprobiert, gImageReader zeigt mir trotzdem nichts an, auch nicht bei anderen Texten mit klarer Schrift.
Da bleibt wohl nichts anderes übrig als das zu lernen. Wird ne mühsame Sache.