Spracherkennung mit tesseract

Message

#1 Post by **harley-peter** » Sun Feb 12, 2023 10:16 am

Hallo,
hat jemand Erfahrungen mit Tesseract? Ich habe mal versucht mit dem Befehl
tesseract ~/Namensverzeichnis.png Text -l frk
Frakturschrift (siehe Anhang) zu erkennen aber es wird leider nichts erkannt, nicht mal die Hauptüberschrift alleine. Mache ich irgendwas falsch?

#2 Post by **Amigo** » Sun Feb 12, 2023 10:41 am

Ich weiß nicht, wie man Tesseract auf der Befehlszeile verwendet, aber
Sie können es mit Gimagreader (GUI für Tesseract) versuchen. Ich verwende es und es ist sehr einfach zu bedienen.

Wenn Sie interessiert sind
per Synpatic die Pakete installieren

gimagereader
libtesseract4
tesseract-ocr-deu

Ich habe einen Test durchgeführt, um zu sehen, ob das von Ihnen angehängte Bild zurückgegeben wird,
und aufgrund der verwendeten Typografie glaube ich nicht, dass es sehr gute Informationen liefert.

Ich hoffe, es ist nützlich für Sie

Übersetzt mit Google Übersetzer

Saludos

#3 Post by **gosia** » Sun Feb 12, 2023 11:11 am

Hallo Peter,
oh je, das ist ja zu allem Unglück noch eine sehr ausgeprägte Handschrift und noch nicht mal so sehr Fraktur (vgl. nur mal das grosse A, aber ich bin kein Experte)
https://omniglot.com/writing/fraktur.htm
da ist sogar mein teures OCR-Programm dran gescheitert. Das kann man tesseract nicht übel nehmen, das bei herkömmlichen gedruckten Schriften wirklich gute Ergebnisse liefert-

viele Grüsse gosia

#4 Post by **harley-peter** » Mon Feb 13, 2023 6:21 am

@Amigo:
gImageReader funktioniert bei mir nicht, er übersetzt überhaupt nichts. Wenn ich auf in den Einstellungen auf Sprachverwaltung klicke dann erscheint eine sehr lange Fehlermeldung:
Für die Verwaltung der systemweiten Tesseract-Sprachpakete ist eine Sitzungsverbindung zum Packagekit-Backend erforderlich, aber diese wurde nicht gefunden. Dieser Dienst ......

@gosia:
Ich bin z. Zt. in der Ahnenforschung aktiv und habe da leider nur einen Berg solcher digitalisierten Dokumente (kirchliche Matrikel) und hatte gehofft, dass mir Tesseract da weiterhilft.

#5 Post by **Duliwi** » Mon Feb 13, 2023 7:40 am

Nur als kleiner Hinweis: Ich weiss, dass man tesseract trainieren kann.
Ich habe aber selber keine Erfahrung darin. Es ist sicher nicht sehr benutzerfreundlich, aber wenn du sagst, dass du viele solche Beispiele hast, lohnt es sich vielleicht zu recherchieren. Allerdings ist das schon ein extrem schwieriges (hoffnungsloses) Beispiel.

Aber möglicherweise hilft dir Google weiter, wenn du versuchen willst tesseract zu trainieren.
Mit den Standardeinstellungen von tesseract bekomme ich auch nur dieses Ergebnis von deinem Beispieltext:

Code: Select all

. RX | | Y : ” . N t . “ a
"Er L [ Kae / 4 Eu j IN, Na, e../: f£: ‘fe ; '
' i + 6: s IK , 1 A ' ’ 18 ji In | A 5 .
an rn Phn PEWE SC anfang eg RE

I J r ea “ Yo: ACH THARIE | | x | „. | . | | | %

- IN " | AL 2 ; i ol | u | gu A ; SR A NEN er .
Nee une oh
' ‚ anni 19 0%. ‘ \ . n } r Apr ) R / A NER e ei { or m

#6 Post by **Amigo** » Mon Feb 13, 2023 9:28 am

Guten Tag allerseits

@harley-peter
OK ich konnte den Fehler reproduzieren aber das betrifft nicht

Es sieht so aus, als würdest du woanders klicken

Angehängte Bilder 1, wo der Fehler reproduziert wird
und 2 die Schritte zur Interpretation des Bildes

Schritte zum folgen

1.-Laden Sie die Datei hoch
2.-Klicken Sie auf den Pfeil und wählen Sie die deutsche Sprache aus
3.-Klicken Sie auf den Teil mit der Aufschrift Alle erkennen

Angehängte Bilder

Ich hoffe, das funktioniert für Sie

Grüße

Übersetzt mit Google Translate

#7 Post by **loik** » Tue Feb 14, 2023 8:14 am

Das fand ich spannend und habe gleich auch mal rumprobiert.

gImageReader funktioniert bei mir nicht, er übersetzt überhaupt nichts

So ging es mir auch.

Ich habe dann erst mal gImageReader aktualisiert, in dem ich bei MX-Paket-Installer das Repo "Test" ausgewählt habe.

Dann habe ich noch Tesseract-Pakete nachinstalliert.
Entscheidend bei mir war das Paket

Code: Select all

tesseract-ocr-frk

Beschreibung: tesseract-ocr language files for German (Fraktur)

In gImageReader habe ich dann die Einstellung für Mehrsprachig gewählt und einen Haken gesetzt, bei "Deutsch" und "Fraktur".

Dann ging es.
Ich bekam eine Übersetzung.
Da kam aber genau so n unnützer Mist bei raus, wie auf Amigos zweitem Foto ( rechter Bildrand ) zusehen ist.

Dagegen ist Dulliwis Übersetzung linguistisch Hochkultur.

Dann dachte ich, dass Vielleicht dein Scan des Dokuments, dein JPG-Foto limitieren könnte.

Ich habe im Netz nach anderen Schriftproben gesucht.
Ich habe auch eine Seite gefunden.
Dort habe ich mir sowohl Screenshots von 3 verschiedenen Schriften "Sütterlin", Kurrent" und "AD_Handschrif_5" gemacht.
Zusätzlich auch noch die Seite mit der jeweiligen Schrift als PDF ausgedruckt.

Alles egal.
Das Übersetzungsergebnis ist jedesmal eine sinnlose Verstümmelung.

Aber, vielleicht hilft dir die Seite auf andere Weise weiter:
https://www.deutsche-handschrift.de/adsschreiben.php

https://www.deutsche-handschrift.de/beispiele.html

#8 Post by **harley-peter** » Tue Feb 14, 2023 1:41 pm

@loik:
habe ich alles ausprobiert, gImageReader zeigt mir trotzdem nichts an, auch nicht bei anderen Texten mit klarer Schrift.

Da bleibt wohl nichts anderes übrig als das zu lernen. Wird ne mühsame Sache.

MX Linux Forum

Spracherkennung mit tesseract

Spracherkennung mit tesseract

Re: Spracherkennung mit tesseract

Re: Spracherkennung mit tesseract

Re: Spracherkennung mit tesseract

Re: Spracherkennung mit tesseract

Re: Spracherkennung mit tesseract

Re: Spracherkennung mit tesseract

Re: Spracherkennung mit tesseract