Spracherkennung mit tesseract

Message
Author
harley-peter
Posts: 131
Joined: Tue Jan 05, 2021 6:13 am

Spracherkennung mit tesseract

#1 Post by harley-peter »

Hallo,
hat jemand Erfahrungen mit Tesseract? Ich habe mal versucht mit dem Befehl
tesseract ~/Namensverzeichnis.png Text -l frk
Frakturschrift (siehe Anhang) zu erkennen aber es wird leider nichts erkannt, nicht mal die Hauptüberschrift alleine. Mache ich irgendwas falsch?
You do not have the required permissions to view the files attached to this post.

Amigo
Posts: 74
Joined: Fri Nov 01, 2019 9:55 am

Re: Spracherkennung mit tesseract

#2 Post by Amigo »

Ich weiß nicht, wie man Tesseract auf der Befehlszeile verwendet, aber
Sie können es mit Gimagreader (GUI für Tesseract) versuchen. Ich verwende es und es ist sehr einfach zu bedienen.

Wenn Sie interessiert sind
per Synpatic die Pakete installieren

gimagereader
libtesseract4
tesseract-ocr-deu

Ich habe einen Test durchgeführt, um zu sehen, ob das von Ihnen angehängte Bild zurückgegeben wird,
und aufgrund der verwendeten Typografie glaube ich nicht, dass es sehr gute Informationen liefert.

Ich hoffe, es ist nützlich für Sie

Übersetzt mit Google Übersetzer

Saludos
You do not have the required permissions to view the files attached to this post.

User avatar
gosia
Posts: 1126
Joined: Sun Apr 28, 2019 3:43 pm

Re: Spracherkennung mit tesseract

#3 Post by gosia »

Hallo Peter,
oh je, das ist ja zu allem Unglück noch eine sehr ausgeprägte Handschrift und noch nicht mal so sehr Fraktur (vgl. nur mal das grosse A, aber ich bin kein Experte)
https://omniglot.com/writing/fraktur.htm
da ist sogar mein teures OCR-Programm dran gescheitert. Das kann man tesseract nicht übel nehmen, das bei herkömmlichen gedruckten Schriften wirklich gute Ergebnisse liefert-

viele Grüsse gosia

harley-peter
Posts: 131
Joined: Tue Jan 05, 2021 6:13 am

Re: Spracherkennung mit tesseract

#4 Post by harley-peter »

@Amigo:
gImageReader funktioniert bei mir nicht, er übersetzt überhaupt nichts. Wenn ich auf in den Einstellungen auf Sprachverwaltung klicke dann erscheint eine sehr lange Fehlermeldung:
Für die Verwaltung der systemweiten Tesseract-Sprachpakete ist eine Sitzungsverbindung zum Packagekit-Backend erforderlich, aber diese wurde nicht gefunden. Dieser Dienst ......

@gosia:
Ich bin z. Zt. in der Ahnenforschung aktiv und habe da leider nur einen Berg solcher digitalisierten Dokumente (kirchliche Matrikel) und hatte gehofft, dass mir Tesseract da weiterhilft.

User avatar
Duliwi
Posts: 1174
Joined: Sun Jul 07, 2019 9:34 am

Re: Spracherkennung mit tesseract

#5 Post by Duliwi »

Nur als kleiner Hinweis: Ich weiss, dass man tesseract trainieren kann.
Ich habe aber selber keine Erfahrung darin. Es ist sicher nicht sehr benutzerfreundlich, aber wenn du sagst, dass du viele solche Beispiele hast, lohnt es sich vielleicht zu recherchieren. Allerdings ist das schon ein extrem schwieriges (hoffnungsloses) Beispiel.

Aber möglicherweise hilft dir Google weiter, wenn du versuchen willst tesseract zu trainieren.
Mit den Standardeinstellungen von tesseract bekomme ich auch nur dieses Ergebnis von deinem Beispieltext:

Code: Select all

. RX | | Y : ” . N t . “ a
"Er L [ Kae / 4 Eu j IN, Na, e../: f£: ‘fe ; '
' i + 6: s IK , 1 A ' ’ 18 ji In | A 5 .
an rn Phn PEWE SC anfang eg RE

I J r ea “ Yo: ACH THARIE | | x | „. | . | | | %

- IN " | AL 2 ; i ol | u | gu A ; SR A NEN er .
Nee une oh
' ‚ anni 19 0%. ‘ \ . n } r Apr ) R / A NER e ei { or m

Amigo
Posts: 74
Joined: Fri Nov 01, 2019 9:55 am

Re: Spracherkennung mit tesseract

#6 Post by Amigo »

Guten Tag allerseits

@harley-peter
OK ich konnte den Fehler reproduzieren aber das betrifft nicht

Es sieht so aus, als würdest du woanders klicken

Angehängte Bilder 1, wo der Fehler reproduziert wird
und 2 die Schritte zur Interpretation des Bildes

Schritte zum folgen

1.-Laden Sie die Datei hoch
2.-Klicken Sie auf den Pfeil und wählen Sie die deutsche Sprache aus
3.-Klicken Sie auf den Teil mit der Aufschrift Alle erkennen

Angehängte Bilder

Ich hoffe, das funktioniert für Sie

Grüße

Übersetzt mit Google Translate
You do not have the required permissions to view the files attached to this post.

loik
Posts: 2186
Joined: Wed Dec 12, 2018 2:01 pm

Re: Spracherkennung mit tesseract

#7 Post by loik »

Das fand ich spannend und habe gleich auch mal rumprobiert.
gImageReader funktioniert bei mir nicht, er übersetzt überhaupt nichts
So ging es mir auch.

Ich habe dann erst mal gImageReader aktualisiert, in dem ich bei MX-Paket-Installer das Repo "Test" ausgewählt habe.

Dann habe ich noch Tesseract-Pakete nachinstalliert.
Entscheidend bei mir war das Paket

Code: Select all

tesseract-ocr-frk
Beschreibung: tesseract-ocr language files for German (Fraktur)
In gImageReader habe ich dann die Einstellung für Mehrsprachig gewählt und einen Haken gesetzt, bei "Deutsch" und "Fraktur".

Dann ging es.
Ich bekam eine Übersetzung.
Da kam aber genau so n unnützer Mist bei raus, wie auf Amigos zweitem Foto ( rechter Bildrand ) zusehen ist.

Dagegen ist Dulliwis Übersetzung linguistisch Hochkultur.


Dann dachte ich, dass Vielleicht dein Scan des Dokuments, dein JPG-Foto limitieren könnte.

Ich habe im Netz nach anderen Schriftproben gesucht.
Ich habe auch eine Seite gefunden.
Dort habe ich mir sowohl Screenshots von 3 verschiedenen Schriften "Sütterlin", Kurrent" und "AD_Handschrif_5" gemacht.
Zusätzlich auch noch die Seite mit der jeweiligen Schrift als PDF ausgedruckt.

Alles egal.
Das Übersetzungsergebnis ist jedesmal eine sinnlose Verstümmelung.

Aber, vielleicht hilft dir die Seite auf andere Weise weiter:
https://www.deutsche-handschrift.de/adsschreiben.php

https://www.deutsche-handschrift.de/beispiele.html

harley-peter
Posts: 131
Joined: Tue Jan 05, 2021 6:13 am

Re: Spracherkennung mit tesseract

#8 Post by harley-peter »

@loik:
habe ich alles ausprobiert, gImageReader zeigt mir trotzdem nichts an, auch nicht bei anderen Texten mit klarer Schrift.

Da bleibt wohl nichts anderes übrig als das zu lernen. Wird ne mühsame Sache.

Post Reply

Return to “Deutsches Forum”