ユーザー辞書 は、組み込み辞書に含まれていない単語を収録するためにユーザーが作成する補助辞書です。データ抽出の品質を向上させるために、組み込み辞書にユーザー辞書を追加できます。通常、ユーザー辞書には、専門用語、略語、会社名などが含まれます。
ユーザー辞書は、Pre-recognition PropertiesダイアログのLanguagesタブで設定および有効化できます (このダイアログを開くには、FlexiLayout または Classifier メニューを開き、Properties をクリックしてから Advanced pre-recognition properties… ボタンをクリックします) 。
既存のユーザー辞書は、次の情報とともに User Dictionaries field に一覧表示されます。
- Enabled
ユーザー辞書が使用されるかどうかを示します。
- Name
カスタム辞書の名前です。
- Language
カスタム辞書の言語です。
カスタム辞書を追加するには、Pre-recognition properties ダイアログの Languages タブで Add… ボタンをクリックします。次に、表示される Add New Dictionary ダイアログで、以下のプロパティを指定します。
- Dictionary name
辞書の名前です。
- Definition method
辞書の型です。
- Dictionary file
DIC ファイルに基づく辞書です。
- Regular expression
正規表現に基づく辞書です。
- Is language-neutral
このオプションを有効にすると、カスタム辞書は、有効になっているすべての認識言語で、すべての組み込み辞書とあわせて使用されます。Language パラメーターは Neutral に設定され、この設定は変更できなくなります。このオプションは、Regular expression 型のユーザー辞書でのみ使用できます。
- Language (locale)
このドロップダウンリストから辞書の言語を選択できます。辞書の言語は、作成後に変更できません。
OK ボタンをクリックすると、編集可能および編集不可のすべてのパラメーターの一覧を含むダイアログが表示されます。
辞書のプロパティを表示するには、辞書を選択して Edit ボタンをクリックします。辞書のプロパティダイアログの General タブには、辞書名、型、言語、ユーザーコメントなどの一般プロパティが表示されます。辞書名は、作成後でも変更できます。
辞書のプロパティダイアログの Dictionary タブには、辞書の型とユーザーアルファベットの設定に応じた設定が表示されます。
- 辞書の作成時に Dictionary file 型を選択した場合は、
ボタンをクリックして DIC ファイルのパスを指定するか、Create new dictionary… をクリックして新しい辞書を作成します。新しい辞書を作成する場合は、Create New Dictionary File ダイアログで名前を指定して OK をクリックし、続いてエディターで設定を指定します。
| |
|---|
| ユーザー辞書に値を追加します。 |
| 現在リストで選択されている値を削除します。 |
| TXT または DIC ファイルからユーザー辞書に値をインポートします。 注: 辞書では、句読点 (.,;:/*{}[]<>? など) は単語間の区切り文字として使用されます。これらの記号を辞書の
単語内で使用する場合は、テキストファイルの先頭に次の文字列を記述してください: “DICTIONARY_PROPERTIES=USE_CONFIDENCE”。この場合、単語間の区切りとして
扱われるのは改行記号のみになります。また、文字列内の最初のスペースの後にある数値が単語の重みを表し、それ以外の記号はすべて無視されます。 |
| 辞書の値を TXT ファイルにエクスポートします。 |
| エディターを閉じます。 |
辞書を作成すると、プロジェクトフォルダーに DIC ファイルとして保存されます。
- Regular expression 辞書型を選択した場合は、式を指定します。
ボタンをクリックすると、式の作成に役立つメニューを開くことができます。詳細については、正規表現で使用されるアルファベット を参照してください。
ユーザー辞書の単語は、組み込み辞書の単語よりも優先されます。Prefer words from dictionary を有効にすると、辞書の単語の優先度がさらに高くなります。
辞書のプロパティ ダイアログの Dictionary タブにある Alphabet グループで、ユーザーアルファベットを作成できます。ユーザーアルファベットは、ユーザー辞書で使用できる文字、区切り記号、接頭辞、接尾辞のセットです。ユーザーアルファベットをユーザー辞書と併用する場合、ユーザーアルファベットに含まれていない文字を含む辞書語は、辞書にない単語と見なされます。つまり、ユーザーアルファベットを使用すると、カスタム辞書で使用を許可する文字セットを制限できます。
許可する文字を指定するには、Use custom alphabet オプションを有効にしてから、テキスト ボックスにアルファベットの記号を入力するか、エディターを使用します。Edit ボタンをクリックすると、エディターを開くことができます。
許可する区切り記号、接頭辞、接尾辞、および無視する文字 (このセクションでは簡単のため、これらをまとめて句読点と呼びます) を指定するには、Advanced parameters ボタンをクリックします。Advanced custom alphabet parameters ダイアログで、句読点を指定します。
- 単語の先頭に隣接する句読点
単語の先頭に付けられる句読点です。たとえば、“_unknown” 内のアンダースコアが該当します。
- 単語の末尾に隣接する句読点
単語の末尾に付けられる句読点です。たとえば、“user&” 内のアンパサンドが該当します。
- 独立した句読点
単独で現れる句読点です。たとえば、“January |” 内の縦線が該当します。
ユーザー辞書に対して単語を照合するときにプログラムが無視する記号は、オプションの Exclusion characters グループで指定できます。たとえば、正規表現 “+33NNNNNNNN” と、無視する文字としてハイフン (-) を指定すると、プログラムは “+33-11111111”、“+33-111-11-111”、“+33-111-111-11” をその正規表現に一致するものと見なします。