Vordefinierte Sprachen in ABBYY FineReader Engine

Hier finden Sie eine Liste der internen Namen der vordefinierten Sprachen, die in ABBYY FineReader Engine unterstützt werden. Welche vordefinierten Erkennungssprachen verfügbar sind, hängt davon ab, ob die entsprechenden Module in den ABBYY FineReader Engine-Dateien enthalten sind. Informationen dazu, welche Erkennungssprachen welchen ABBYY FineReader Engine-Modulen zugeordnet sind, finden Sie im Abschnitt Installation. ABBYY FineReader Engine unterstützt grundlegende Erkennungssprachen für Optical Character Recognition (OCR) und ICR mit vollständiger integrierter Wörterbuchunterstützung. Einige Erkennungssprachen sind nur für OCR verfügbar oder verfügen nicht über eine vollständige integrierte Wörterbuchunterstützung. Einzelheiten finden Sie in der folgenden Tabelle.

ABBYY FineReader Engine für Windows stellt außerdem eine Reihe spezieller Erkennungssprachen bereit. Diese Sprachen enthalten spezielle Sprachelemente (Adressen, Datum und Uhrzeit, Personennamen usw.). Solche Sprachen können für die Felderkennung verwendet werden. Weitere Informationen finden Sie in der Liste der speziellen vordefinierten Sprachen.

Interner Name	Erkennungssprache	Kann für OCR verwendet werden	Vollständige Wörterbuchunterstützung verfügbar	Unterstützung für handschriftlichen (++) oder in Druckbuchstaben geschriebenen (+) Text1	Kann für textbasierte Klassifizierung2 verwendet werden	Kann für BCR verwendet werden
Abkhaz	Abchasisch	*
Adygeisch	Adygeisch	-
Afrikaans	Afrikaans	*		-
Agulisch	Agulisch	*
Albanisch	Albanisch	-		*
Altaisch	Altaisch	-
Arabisch	Arabisch (Saudi-Arabien)	*	-	3	*
ArmenianEastern	Armenisch (Ostarmenisch)	-	*		-
ArmenianGrabar	Armenisch (Grabar)	*	-		*
ArmenianWestern	Armenisch (Westarmenisch)	-	*		-
Awar	Awarisch	*
Aymara	Aymara	-		*
AzeriCyrillic	Aserbaidschanisch (Kyrillisch)	-
AzeriLatin	Aserbaidschanisch (Lateinisch)	*	-	*	-
Bangla	Bangla	*
Baschkirisch	Baschkirisch	-	*		-
Basic	Programmiersprache Basic	*
Baskisch	Baskisch	-		*
Belarussisch	Belarussisch	-
Bemba	Bemba	*		-
Blackfoot	Blackfoot	*		-
Breton	Bretonisch	*		-
Bugotu	Bugotu	*		-
Bulgarisch	Bulgarisch	*	-	*	-
Birmanisch	Birmanisch	*
Burjatisch	Burjatisch	-		*
C++	Programmiersprache C/C++	-
Katalanisch	Katalanisch	*	-		*
Chamorro	Chamorro	-		*
Chechen	Tschetschenisch	-
Chemistry	Einfache chemische Formeln	+
ChineseSimplified	Vereinfachtes Chinesisch	+				+
ChineseTraditional	Chinesisch (traditionell)	+				+
Chukcha	Tschuktschisch	+
Chuvash	Tschuwaschisch	+
CMC7	Für den MICR-Texttyp (CMC-7)4	+
COBOL	Programmiersprache COBOL	+
Corsican	Korsisch	+		+
CrimeanTatar	Krimtatarisch	+		+
Croatian	Kroatisch	+	+	+	+
Crow	Crow	+		+
Czech	Tschechisch	+	+	+	+	+
Danish	Dänisch	+	+	+	+	+
Dargwa	Dargwa	+
Digits	Zahlen	+		+
Dungan	Dunganisch	+
Dutch	Niederländisch (Niederlande)	+	+	+	+	+
DutchBelgian	Niederländisch (Belgien)	+	+	+	+
E13B	Für den Texttyp MICR (E-13B)4	+
English	Englisch	+	+	++ (einschließlich handschriftlicher Texte)	+	+
EskimoCyrillic	Eskimo (Kyrillisch)	+
EskimoLatin	Eskimo (Lateinisch)	+
Esperanto	Esperanto	+
Estonian	Estnisch	+	+	+	+	+
Even	Ewenisch	+		+
Evenki	Ewenkisch	+		+
Faeroese	Färöisch	+
Farsi	Farsi	+	+		+
Fijian	Fidschi	+		+
Finnish	Finnisch	+	+	+	+	+
Fortran	Programmiersprache Fortran	+
French	Französisch	+	+	++ (einschließlich Handschrift)	+	+
Frisian	Friesisch	+		+
Friulian	Friulanisch	+		+
GaelicScottish	Schottisch-Gälisch5	+		+
Gagauz	Gagauz	+
Galician	Galicisch	+		+
Ganda	Ganda	+		+
Georgian	Georgisch6	+
German	Deutsch	+	+	++ (including handwritten)	+	+
GermanLuxembourg	Deutsch (Luxemburg)	+		+
GermanNewSpelling	Deutsch (neue Rechtschreibung)	+	+	+	+
Greek	Griechisch	+	+	+	+	+
Guarani	Guarani	+		+
Hani	Hani	+		+
Hausa	Hausa	+
Hawaiian	Hawaiisch	+		+
Hebrew	Hebräisch	+	+		+
Hungarian	Ungarisch	+	+	+	+	+
Icelandic	Isländisch	+
Ido	Ido	+		+
Indonesian	Indonesisch	+	+	+	+	+
Ingush	Inguschisch	+
Interlingua	Interlingua	+		+
Irish	Irisch5	+		+
Italian	Italienisch	+	+	+	+	+
Japanese	Japanisch	+	+	++ (including handwritten)	+	+
JapaneseModern	Japanese (Modern)	+	+		+	+
Java	Programmiersprache Java	+
Kabardian	Kabardinisch	+
Kalmyk	Kalmückisch	-
KarachayBalkar	Karatschai-Balkarisch	*		-
Karakalpak	Karakalpakisch	*
Kasub	Kaschubisch	-		*
Kawa	Kawa	-		*
Kasachisch	Kasachisch	-		*
Chakassisch	Chakassisch	-
Khanty	Chantisch	*
Kikuyu	Kikuyu	-
Kirgiz	Kirgisisch	*		-
Kongo	Kongo	*		-
Koreanisch	Koreanisch	*	-		*	-
KoreanHangul	Koreanisch (Hangul)	*	-		*
Korjakisch	Korjakisch	-
Kpelle	Kpelle	*		-
Kumyk	Kumykisch	*		-
Kurdish	Kurdisch	*		-
Lak	Lak	*
Lappisch	Sami (Lappisch)	-		*
Latein	Latein	-	*	-	*
Lettisch	Lettisch	-	*	-	*
LettischGothisch	Lettisch in gotischer Schrift	-
Lezgin	Lesgisch	*
Lithuanian	Litauisch	-	*	-	*
Luba	Luba	-		*
Mazedonisch	Mazedonisch	-
Madagassisch	Madagassisch	*		-
Malaiisch	Malaiisch	*
Malinke	Malinke	-		*
Maltese	Maltesisch	-
Mansi	Mansi	*
Maori	Maori	-		*
Mathematisch	Mathematisch	-
Mari	Mari	*
Maya	Maya	-		*
Miao	Miao	-		*
Minankabaw	Minangkabau	-		*
Mohawk	Mohawk	-		*
Mongol	Mongolisch	-		*
Mordvin	Mordwinisch	-		*
Nahuatl	Nahuatl	-		*
Nenets	Nenzisch	-		*
Nivkh	Niwchisch	-		*
Nogaiisch	Nogaiisch	-		*
Norwegisch	Norwegisch (Nynorsk) und Norwegisch (Bokmål)	-	*	-	*	-
NorwegianBokmal	Norwegisch (Bokmål)	*	-	*	-	*
NorwegianNynorsk	Norwegisch (Nynorsk)	-	*	-	*	-
Nyanja	Nyanja	*		-
Occidental	Okzidentalisch	*
OcrA	Für den Texttyp OCR-A	-
OcrB	Für den Texttyp OCR-B	*
Ojibway	Ojibwe	-		*
OldEnglish	Altenglisch	-	*	-	*
OldFrench	Altfranzösisch	-	*	-	*
OldGerman	Altdeutsch	-	*	-	*
OldItalian	Altitalienisch	-	*	-	*
OldSlavonic	Altslawisch	-
OldSpanish	Altspanisch	*	-	*	-
Ossetisch	Ossetisch	*
Papiamento	Papiamento	-		*
Pascal	Programmiersprache Pascal	+
PidginEnglish	Tok Pisin	+		+
Polnisch	Polnisch	+	+	+	+	+
PortugueseBrazilian	Portugiesisch (Brasilien)	+	+	+	+	+
PortugueseStandard	Portugiesisch (Portugal)	+	+	+	+	+
Provenzalisch	Provenzalisch	+
Quechua	Quechua	+		+
Rätoromanisch	Rätoromanisch	+		+
Rumänisch	Rumänisch	+	+	+	+
RomanianMoldavia	Rumänisch (Moldawien)	+		+
Romani	Romani	+		+
Ruanda	Ruanda	+		+
Rundi	Kirundi	+		+
RussianOldSpelling	Russisch (alte Rechtschreibung)	+	+		+
Russisch	Russisch	+	+	+	+	+
RussianWithAccent	Russisch (mit Akzenten zur Kennzeichnung der Betonung)	+			+
Samoanisch	Samoanisch	+		+
Selkupisch	Selkupisch	+		+
SerbischKyrillisch	Serbisch (Kyrillisch)	+		+
SerbianLatin	Serbisch (Lateinisch)	+		+
Shona	Shona	+
Sioux	Sioux (Dakota)	+		+
Slowakisch	Slowakisch	+	+	+	+
Slowenisch	Slowenisch	+	+	+	+
Somalisch	Somalisch	+		+
Sorbisch	Sorbisch	+
Sotho	Sotho	+		+
Spanisch	Spanisch	+	+	++ (einschließlich handschriftlichem Text)	+	+
Sunda	Sunda	+
Swahili	Swahili	+		+
Swasi	Swasi	*		-
Schwedisch	Schwedisch	*	-	*	-	*
Tabassaran	Tabassaran	-
Tagalog	Tagalog	*		-
Tahitisch	Tahitisch	*		-
Tadschikisch	Tadschikisch	*		-
Tatarisch	Tatarisch	*	-		*
Thai	Thai	-	*		-
Tinpo	Jingpo	*		-
Tongan	Tongaisch	*		-
Tswana	Tswana	*		-
Tun	Tun	*		-
Türkisch	Türkisch	*	-	*	-	*
Turkmen	Turkmenisch	-
TurkmenLatin	Turkmenisch (Lateinisch)	*		-
Tuwinisch	Tuwinisch	*		-
Udmurtisch	Udmurtisch	*
UighurCyrillic	Uigurisch (Kyrillisch)	-
UighurLatin	Uigurisch (Lateinisch)	*		-
Ukrainisch	Ukrainisch	*	-	*	-	*
UzbekCyrillic	Usbekisch (Kyrillisch)	-
UzbekLatin	Usbekisch (Lateinisch)	*		-
Vietnamesisch	Vietnamesisch	*	-		*
Cebuano	Cebuano	-		*
Walisisch	Walisisch	-
Wolof	Wolof	*		-
Xhosa	Xhosa	*		-
Jakutisch	Jakutisch	*
Jiddisch	Jiddisch	+7
Zapotekisch	Zapotekisch	-		*
Zulu	Zulu	-

1Mehrere Sprachen unterstützen die Erkennung handschriftlichen Textes: Englisch, Deutsch, Französisch, Japanisch und Spanisch. Andere in dieser Spalte gekennzeichnete Sprachen unterstützen nur handgedruckten Text. Mit denselben Einstellungen (IPageAnalysisParams::DetectHandwritten und IRecognizerParams::TextTypes = TT_Handwritten) wird je nach den von der jeweiligen Sprache unterstützten Optionen die Erkennung von handschriftlichem oder handgedrucktem Text aktiviert. 2Der Klassifikator, der nur Bildmerkmale verwendet, kann für Dokumente in jeder Sprache verwendet werden. Die textbasierten Klassifikatoren (ClassifierTypeEnum::CT_Combined, ClassifierTypeEnum::CT_Text) sind nur für erkannte Dokumente in Sprachen verfügbar, die eine vollständige Wörterbuchunterstützung haben. 3 Arabische ICR wird nicht unterstützt. Handgedruckte arabische Ziffern können jedoch erkannt werden. Siehe Erkennung handgedruckter arabischer Ziffern. 4 Wenn Sie einen Block mit dem MICR-Texttyp erkennen möchten, verwenden Sie nur Sprachen mit lateinischen Zeichen und keine Kombinationen aus lateinischen und CJK-Sprachen. 5 FineReader Engine unterstützt einige Sonderzeichen mit diakritischen Zeichen in Schottisch-Gälisch und Irisch nicht. 6 Die Nuskhuri- und Mtavruli-Zeichen werden getrennt voneinander erkannt, aber beide Zeichentypen werden in den Unicode-strings für Nuskhuri gespeichert. 7 Einige Standardzeichen (veys בֿ, pasekh alef אַ, komets alef אָ, pasekh tsvey yudn ײַ, melupm vov וּ) werden in der vordefinierten Sprache Jiddisch nicht unterstützt. Um diese Zeichen zu erkennen, erstellen Sie eine neue benutzerdefinierte Sprache und fügen Sie ihr diese Zeichen mithilfe der Eigenschaft LetterSet des Objekts TextLanguage hinzu (siehe Arbeiten mit Sprachen); legen Sie dann die neue Sprache als Erkennungssprache fest. Verwenden Sie unter Windows das in Erkennung mit Training und Training zum Erkennen von Ligaturen beschriebene Szenario. Siehe auch LanguageIdEnum Arbeiten mit Sprachen