Einer der wichtigsten Erkennungsparameter ist die Sprache, die bei der Erkennung verwendet wird. Es ist wichtig, vor der Analyse und Erkennung die richtige Sprache festzulegen. Die Erkennungssprache lässt sich einfach mit der Methode IRecognizerParams::SetPredefinedTextLanguage festlegen. Diese Methode wirkt sich auf die Eigenschaft IRecognizerParams::TextLanguage aus. Standardmäßig ist dieser Parameter auf die englische Erkennungssprache gesetzt. Sie können auch die automatische Spracherkennung verwenden (Einzelheiten finden Sie in der Eigenschaft IRecognizerParams::LanguageDetectionMode). Im Folgenden finden Sie nützliche Informationen zu den von ABBYY FineReader Engine standardmäßig unterstützten Sprachen sowie zu Objekten, die erweiterte Funktionen für die Arbeit mit Erkennungssprachen bereitstellen.”Documentation Index
Fetch the complete documentation index at: https://docs.abbyy.com/llms.txt
Use this file to discover all available pages before exploring further.
Vordefinierte Sprachen
Erkennungssprache für einen Text
- Interner Name. Wir empfehlen, für die interne Sprache einen eindeutigen Namen zu wählen; für die im Lieferumfang von ABBYY FineReader Engine enthaltenen Sprachen ist dieser bereits eindeutig. Achten Sie darauf, dass die Namen neuer Sprachen eindeutig sind.
- Zeichensätze. Das Objekt TextLanguage enthält die folgenden Zeichensätze: Satzzeichen, die zwischen Wörtern auftreten können, unzulässige Zeichen und zusätzliche Satzzeichen, die unmittelbar vor oder nach Wörtern stehen.
- Ausschlusswörterbücher. Sie können mithilfe der Eigenschaft ProhibitingDictionaries des Objekts TextLanguage eine Sammlung von Ausschlusswörterbüchern erstellen. Die Wörter aus diesen Wörterbüchern können nicht als Varianten eines erkannten Wortes verwendet werden. Wenn jedoch keine Varianten mehr übrig sind und die Verwendung eines ausgeschlossenen Wortes die einzige Möglichkeit ist, können Wörter aus diesen Wörterbüchern dennoch im erkannten Text erscheinen. Siehe Arbeiten mit Wörterbüchern.
Erkennungssprache für Zeichen
- Interner Name. Wir empfehlen, für die interne Sprache einen eindeutigen Namen zu wählen; bei den mit dem ABBYY FineReader Engine-Distributionspaket gelieferten Sprachen ist dieser bereits eindeutig. Achten Sie darauf, dass die Namen neuer Sprachen eindeutig sind.
- Zeichensätze. Ein Zeichensatz umfasst Buchstaben, die das Alphabet der Sprache bilden, Buchstaben, die ihr erweitertes Alphabet bilden (verwendet in Lehnwörtern), Satzzeichen, die unmittelbar vor und nach Wörtern stehen, Zeichen, die innerhalb von Wörtern zulässig sind, aber vom internen Rechtschreibprüfungssystem ignoriert werden, sowie Symbole, die in Tief- und Hochstellung zulässig sind.
- Wörterbuch. Einer Erkennungssprache für ein Wort kann ein Wörterbuch zugeordnet sein. Siehe Arbeiten mit Wörterbüchern.
Erstellen einer zusammengesetzten Erkennungssprache
- Erstellen Sie ein LanguageDatabase-Objekt, indem Sie die Methode IEngine::CreateLanguageDatabase aufrufen.
- Rufen Sie die Methode ILanguageDatabase::CreateCompoundTextLanguage mit dem Parameter “English,German” auf.
- Verwenden Sie das zurückgegebene Objekt TextLanguage für die Texterkennung.
- Erstellen Sie ein LanguageDatabase-Objekt, indem Sie die Methode IEngine::CreateLanguageDatabase aufrufen.
- Laden Sie die Sprachen mit der Methode ILanguageDatabase::LoadFrom in das LanguageDatabase-Objekt.
- Rufen Sie die gewünschte Sprache anhand ihres Namens als Objekt TextLanguage aus dem LanguageDatabase-Objekt ab.
- Verwenden Sie das zurückgegebene TextLanguage-Objekt für die Texterkennung.
