Fragen & Antworten.

  1. Warum gerade Wetzer und Welte’s Kirchenlexikon, 2. Aufl.?

  2. Wie kann ich mitmachen?

  3. Was ist mit OCR-Software (automatischer Zeichenerkennung)?


Warum gerade Wetzer und Welte’s Kirchenlexikon, 2. Aufl.?

Vorbild war die Digitalisierung der englischsprachigen Catholic Encyclopedia. Daraus wurde der Gedanke geboren, etwas Entsprechendes für den deutschsprachigen Raum anzubieten. Wetzer und Welte’s Kirchenlexikon ist das umfangreichste und aktuelleste Werk, auf das keine Urheberrechtsansprüche mehr bestehen. Deshalb wurde es ausgewählt. Obwohl das Lexikon von W&W in die Jahre gekommen ist, bietet es natürlich weiterhin zu dogmatischen, liturgischen, historischen, … Fragen solide und nützliche Auskunft. Wer daher ein deutschsprachiges Theologielexikon sucht, das sowohl profunde Informationen wie auch 100 % katholischen Inhalt bietet, der kommt auch heute nicht an ihm vorbei.

Wie kann ich mitmachen?

Falls du beim Lesen Tippfehler findest, führe bitte einen Doppelklick auf das fehlerhafte Wort aus. Damit wird eine automatische Fehlermeldung generiert. Wir berichtigen den Fehler dann möglichst zeitnah.

Wer eine Viertelstunde Zeit und einen Rechner hat, kann auch selber Artikel erstellen. Es geht ganz simpel:

  1. Beschaffe dir eine Fassung des W&W-Kirchenlexikons (2. Auflage).

    Das geht am einfachsten online auf archive.org. Zum Herunterladen kannst du die Übersicht aller uns bekannten Ablichtungen im Netz benutzen.

    Du kannst auch in eine Bibliothek gehen, und das Werk dort ausleihen (zumeist nur in den Lesesaal). [Karlsruher Virtueller Katalog]

  2. Suche dir einen Artikel aus, der dich interessiert.

  3. Tippe ihn ab. (Oder wandle ihn mit OCR um.)

    Mit welchem Programm du ihn abtippst, ist egal. Du kannst ihn direkt in eine E-Mail schreiben oder in MS Word. Am besten aber ist ein einfacher, normaler Texteditor wie z. B. Notepad++. [Kurz gefasste Regeln zur Textgestaltung]

    Bitte achte genau auf Tippfehler!

  4. Schicke uns den Text <kathenzyklo (at) gmx.de>; wir bearbeiten ihn und fügen ihn ein.

Was ist mit OCR-Software (automatischer Zeichenerkennung)?

Netterweise wurden uns zwei Anleitungen zur freien OCR-Software tesseract zur Verfügung gestellt, eine für Windows, die andere für Linux.

Verwendung der OCR-Software Tesseract unter Windows

Installation

  1. Benötigte Dateien herunterladen

    1. Hauptprogramm: tesseract-ocr-setup-3.00.exe

    2. Datensatz zur Erkennung von Frakturschrift: deu-frak.traineddata.gz

  2. Installation

    1. Setup des Hauptprogramms ausführen (Doppelklick auf „tesseract-ocr-setup-3.00.exe“)

    2. Den Datensatz zur Erkennung von Frakturschrift in das automatisch angelegte Hauptverzeichnis von Tesseract kopieren (normalerweise: C:\Programme\Tesseract-OCR) und dort entpacken. (Die entpackte Datei „deu-frak.traineddata“ muß sich danach im Tesseract-OCR Unterordner „tessdata“ befinden.)

Anwendung

  1. Voraussetzungen

    1. Tesseract scannt nur tif/tiff-Dateien ⇒ der zu scannende Frakturtext muß folglich in einer tif-Datei vorliegen.

    2. Wie bringt man den in einer pdf-Datei vorliegenden Text in eine tif-Datei?

      Eine Möglichkeit besteht darin mittels des „Schnappschuss-Werkzeugs“ des Adobe Readers eine Kopie der zu scannenden Textspalte zu erstellen.(Die Auflösung des Schnappschusses kann im Adobe Reader unter Bearbeiten ⇒ Voreinstellungen ⇒ Allgemein: „Feste Auflösung für Bilder des Schnappschuß-Werkzeugs verwenden“ eingestellt werden. Mind. 300 Pixel/Zoll erscheinen mir als ratsam.)

    3. Ist der Schnappschuß erstellt, kann er z. B. im Windows Standardzeichenprogramm „Paint“ eingefügt und dann unter Auswahl des tif-Dateiformats abgespeichert werden.

    4. Diese neuerstellte tif-Datei muß in das Hauptverzeichnis von Tesseract gespeichert/kopiert werden, also nach C:\Programme\Tesseract-OCR

  2. Anwendung

    1. Das Programm wird über die DOS- Eingabeaufforderung bedient(Windows: Start ⇒ Alle Programme ⇒ Zubehör ⇒ Eingabeaufforderung)

    2. Dort muß man (mittels DOS-Befehlen) ins Installationsverzeichnis des Programms wechseln, also nach C:\Programme\Tesseract-OCR

    3. Die einzugebende Befehlszeile zum Scannen besteht aus 4 Elementen:

      • dem Programmnamen (tesseract.exe),
      • dem Dateinamen der zu scannenden tif-Vorlage (z.B. scan.tif),
      • dem Dateinamen der gewünschten txt-Datei, die das Scannergebnis beinhalten wird (z.B. test),
      • dem zu verwendenden Schriftdatensatz (-l deu-frak)

      Der gesamte einzutippende Befehl lautet demnach für die angeführten Beispielnamen: tesseract.exe scan.tif test -l deu-frak

    4. Wichtig: Tesseract scannt nur tif-Dateien, die sich im Hauptverzeichnis (C:\Programme\Tesseract-OCR) befinden!

Weitere Infos, etwa zu weiteren Befehlen, um mehrere tif-Dateien auf einmal zu scannen findet man z. B. hier.

Tesseract unter Linux.

Installation

Am einfachsten mit einem Paketmanager. Die gängigen Distributionen stellen tesseract bereit. Ich würde raten sowohl das normale deutsche als auch das Frakturpaket zu installiern Also:

aptitude install tesseract-ocr tesseract-ocr-deu tesseract-ocr-deu-f

Wer eine graphische Benutzerorberfläche haben will, kann das Programm OCRFeeder installieren. Das unterstützt Tesseract (und GOCR).

aptitude install ocrfeeder

Aufruf

Terminal öffnen und in das Verzeichnis gehen, in dem die Bilddateien liegen. Der Aufruf ist (fast) der gleiche wie bei der Windowsversion.

Beispiel:

tesseract scan.tif test -l deu-f

Ansonsten die Manpage zu Rate ziehen!

(Wie man unter Linux scannt, muß ich wohl nicht erklären - oder? Nee woll! Wer Linux hat, wird das eh' wissen.)

OCRFeeder

Standardmäßig wird bei dem Programm keine Sprachdatei für Tesseract ausgewählt. Das muß man ändern.

Bei "Argumente für die Anwendung" steht standardmäßig: $IMAGE $FILE; cat $FILE.txtHinter dem ersten "$FILE" fügt man das Argument für die Sprache ein: $IMAGE $FILE -l deu-f; cat $FILE.txt

Man kann auch für jede Sprache mit "Hinzufügen" eine eigene Tesseractdefinition eingeben. So braucht es es nur - je nach gescanntem Bild/Sprache/Schrift - auswählen.


Zurück zur Startseite.