Hallo,
hat jemand Erfahrungen mit Tesseract? Ich habe mal versucht mit dem Befehl
tesseract ~/Namensverzeichnis.png Text -l frk
Frakturschrift (siehe Anhang) zu erkennen aber es wird leider nichts erkannt, nicht mal die Hauptüberschrift alleine. Mache ich irgendwas falsch?
Spracherkennung mit tesseract
-
- Posts: 131
- Joined: Tue Jan 05, 2021 6:13 am
Spracherkennung mit tesseract
You do not have the required permissions to view the files attached to this post.
Re: Spracherkennung mit tesseract
Ich weiß nicht, wie man Tesseract auf der Befehlszeile verwendet, aber
Sie können es mit Gimagreader (GUI für Tesseract) versuchen. Ich verwende es und es ist sehr einfach zu bedienen.
Wenn Sie interessiert sind
per Synpatic die Pakete installieren
gimagereader
libtesseract4
tesseract-ocr-deu
Ich habe einen Test durchgeführt, um zu sehen, ob das von Ihnen angehängte Bild zurückgegeben wird,
und aufgrund der verwendeten Typografie glaube ich nicht, dass es sehr gute Informationen liefert.
Ich hoffe, es ist nützlich für Sie
Übersetzt mit Google Übersetzer
Saludos
Sie können es mit Gimagreader (GUI für Tesseract) versuchen. Ich verwende es und es ist sehr einfach zu bedienen.
Wenn Sie interessiert sind
per Synpatic die Pakete installieren
gimagereader
libtesseract4
tesseract-ocr-deu
Ich habe einen Test durchgeführt, um zu sehen, ob das von Ihnen angehängte Bild zurückgegeben wird,
und aufgrund der verwendeten Typografie glaube ich nicht, dass es sehr gute Informationen liefert.
Ich hoffe, es ist nützlich für Sie
Übersetzt mit Google Übersetzer
Saludos
You do not have the required permissions to view the files attached to this post.
Re: Spracherkennung mit tesseract
Hallo Peter,
oh je, das ist ja zu allem Unglück noch eine sehr ausgeprägte Handschrift und noch nicht mal so sehr Fraktur (vgl. nur mal das grosse A, aber ich bin kein Experte)
https://omniglot.com/writing/fraktur.htm
da ist sogar mein teures OCR-Programm dran gescheitert. Das kann man tesseract nicht übel nehmen, das bei herkömmlichen gedruckten Schriften wirklich gute Ergebnisse liefert-
viele Grüsse gosia
oh je, das ist ja zu allem Unglück noch eine sehr ausgeprägte Handschrift und noch nicht mal so sehr Fraktur (vgl. nur mal das grosse A, aber ich bin kein Experte)
https://omniglot.com/writing/fraktur.htm
da ist sogar mein teures OCR-Programm dran gescheitert. Das kann man tesseract nicht übel nehmen, das bei herkömmlichen gedruckten Schriften wirklich gute Ergebnisse liefert-
viele Grüsse gosia
-
- Posts: 131
- Joined: Tue Jan 05, 2021 6:13 am
Re: Spracherkennung mit tesseract
@Amigo:
gImageReader funktioniert bei mir nicht, er übersetzt überhaupt nichts. Wenn ich auf in den Einstellungen auf Sprachverwaltung klicke dann erscheint eine sehr lange Fehlermeldung:
Für die Verwaltung der systemweiten Tesseract-Sprachpakete ist eine Sitzungsverbindung zum Packagekit-Backend erforderlich, aber diese wurde nicht gefunden. Dieser Dienst ......
@gosia:
Ich bin z. Zt. in der Ahnenforschung aktiv und habe da leider nur einen Berg solcher digitalisierten Dokumente (kirchliche Matrikel) und hatte gehofft, dass mir Tesseract da weiterhilft.
gImageReader funktioniert bei mir nicht, er übersetzt überhaupt nichts. Wenn ich auf in den Einstellungen auf Sprachverwaltung klicke dann erscheint eine sehr lange Fehlermeldung:
Für die Verwaltung der systemweiten Tesseract-Sprachpakete ist eine Sitzungsverbindung zum Packagekit-Backend erforderlich, aber diese wurde nicht gefunden. Dieser Dienst ......
@gosia:
Ich bin z. Zt. in der Ahnenforschung aktiv und habe da leider nur einen Berg solcher digitalisierten Dokumente (kirchliche Matrikel) und hatte gehofft, dass mir Tesseract da weiterhilft.
Re: Spracherkennung mit tesseract
Nur als kleiner Hinweis: Ich weiss, dass man tesseract trainieren kann.
Ich habe aber selber keine Erfahrung darin. Es ist sicher nicht sehr benutzerfreundlich, aber wenn du sagst, dass du viele solche Beispiele hast, lohnt es sich vielleicht zu recherchieren. Allerdings ist das schon ein extrem schwieriges (hoffnungsloses) Beispiel.
Aber möglicherweise hilft dir Google weiter, wenn du versuchen willst tesseract zu trainieren.
Mit den Standardeinstellungen von tesseract bekomme ich auch nur dieses Ergebnis von deinem Beispieltext:
Ich habe aber selber keine Erfahrung darin. Es ist sicher nicht sehr benutzerfreundlich, aber wenn du sagst, dass du viele solche Beispiele hast, lohnt es sich vielleicht zu recherchieren. Allerdings ist das schon ein extrem schwieriges (hoffnungsloses) Beispiel.
Aber möglicherweise hilft dir Google weiter, wenn du versuchen willst tesseract zu trainieren.
Mit den Standardeinstellungen von tesseract bekomme ich auch nur dieses Ergebnis von deinem Beispieltext:
Code: Select all
. RX | | Y : ” . N t . “ a
"Er L [ Kae / 4 Eu j IN, Na, e../: f£: ‘fe ; '
' i + 6: s IK , 1 A ' ’ 18 ji In | A 5 .
an rn Phn PEWE SC anfang eg RE
I J r ea “ Yo: ACH THARIE | | x | „. | . | | | %
- IN " | AL 2 ; i ol | u | gu A ; SR A NEN er .
Nee une oh
' ‚ anni 19 0%. ‘ \ . n } r Apr ) R / A NER e ei { or m
Re: Spracherkennung mit tesseract
Guten Tag allerseits
@harley-peter
OK ich konnte den Fehler reproduzieren aber das betrifft nicht
Es sieht so aus, als würdest du woanders klicken
Angehängte Bilder 1, wo der Fehler reproduziert wird
und 2 die Schritte zur Interpretation des Bildes
Schritte zum folgen
1.-Laden Sie die Datei hoch
2.-Klicken Sie auf den Pfeil und wählen Sie die deutsche Sprache aus
3.-Klicken Sie auf den Teil mit der Aufschrift Alle erkennen
Angehängte Bilder
Ich hoffe, das funktioniert für Sie
Grüße
Übersetzt mit Google Translate
@harley-peter
OK ich konnte den Fehler reproduzieren aber das betrifft nicht
Es sieht so aus, als würdest du woanders klicken
Angehängte Bilder 1, wo der Fehler reproduziert wird
und 2 die Schritte zur Interpretation des Bildes
Schritte zum folgen
1.-Laden Sie die Datei hoch
2.-Klicken Sie auf den Pfeil und wählen Sie die deutsche Sprache aus
3.-Klicken Sie auf den Teil mit der Aufschrift Alle erkennen
Angehängte Bilder
Ich hoffe, das funktioniert für Sie
Grüße
Übersetzt mit Google Translate
You do not have the required permissions to view the files attached to this post.
Re: Spracherkennung mit tesseract
Das fand ich spannend und habe gleich auch mal rumprobiert.
Ich habe dann erst mal gImageReader aktualisiert, in dem ich bei MX-Paket-Installer das Repo "Test" ausgewählt habe.
Dann habe ich noch Tesseract-Pakete nachinstalliert.
Entscheidend bei mir war das Paket
Dann ging es.
Ich bekam eine Übersetzung.
Da kam aber genau so n unnützer Mist bei raus, wie auf Amigos zweitem Foto ( rechter Bildrand ) zusehen ist.
Dagegen ist Dulliwis Übersetzung linguistisch Hochkultur.
Dann dachte ich, dass Vielleicht dein Scan des Dokuments, dein JPG-Foto limitieren könnte.
Ich habe im Netz nach anderen Schriftproben gesucht.
Ich habe auch eine Seite gefunden.
Dort habe ich mir sowohl Screenshots von 3 verschiedenen Schriften "Sütterlin", Kurrent" und "AD_Handschrif_5" gemacht.
Zusätzlich auch noch die Seite mit der jeweiligen Schrift als PDF ausgedruckt.
Alles egal.
Das Übersetzungsergebnis ist jedesmal eine sinnlose Verstümmelung.
Aber, vielleicht hilft dir die Seite auf andere Weise weiter:
https://www.deutsche-handschrift.de/adsschreiben.php
https://www.deutsche-handschrift.de/beispiele.html
So ging es mir auch.gImageReader funktioniert bei mir nicht, er übersetzt überhaupt nichts
Ich habe dann erst mal gImageReader aktualisiert, in dem ich bei MX-Paket-Installer das Repo "Test" ausgewählt habe.
Dann habe ich noch Tesseract-Pakete nachinstalliert.
Entscheidend bei mir war das Paket
Code: Select all
tesseract-ocr-frk
In gImageReader habe ich dann die Einstellung für Mehrsprachig gewählt und einen Haken gesetzt, bei "Deutsch" und "Fraktur".Beschreibung: tesseract-ocr language files for German (Fraktur)
Dann ging es.
Ich bekam eine Übersetzung.
Da kam aber genau so n unnützer Mist bei raus, wie auf Amigos zweitem Foto ( rechter Bildrand ) zusehen ist.
Dagegen ist Dulliwis Übersetzung linguistisch Hochkultur.
Dann dachte ich, dass Vielleicht dein Scan des Dokuments, dein JPG-Foto limitieren könnte.
Ich habe im Netz nach anderen Schriftproben gesucht.
Ich habe auch eine Seite gefunden.
Dort habe ich mir sowohl Screenshots von 3 verschiedenen Schriften "Sütterlin", Kurrent" und "AD_Handschrif_5" gemacht.
Zusätzlich auch noch die Seite mit der jeweiligen Schrift als PDF ausgedruckt.
Alles egal.
Das Übersetzungsergebnis ist jedesmal eine sinnlose Verstümmelung.
Aber, vielleicht hilft dir die Seite auf andere Weise weiter:
https://www.deutsche-handschrift.de/adsschreiben.php
https://www.deutsche-handschrift.de/beispiele.html
-
- Posts: 131
- Joined: Tue Jan 05, 2021 6:13 am
Re: Spracherkennung mit tesseract
@loik:
habe ich alles ausprobiert, gImageReader zeigt mir trotzdem nichts an, auch nicht bei anderen Texten mit klarer Schrift.
Da bleibt wohl nichts anderes übrig als das zu lernen. Wird ne mühsame Sache.
habe ich alles ausprobiert, gImageReader zeigt mir trotzdem nichts an, auch nicht bei anderen Texten mit klarer Schrift.
Da bleibt wohl nichts anderes übrig als das zu lernen. Wird ne mühsame Sache.