Gazetteerまたは意図的に固定されたサイズの機能のその他のオプションは、固定コーパスのNER、POSタグ付けなど、有限サイズの問題がある場合、学術論文で非常に一般的なアプローチのようです。使用する唯一の機能がGazetteerマッチングである場合を除き、不正行為とは考えません。
ただし、トレーニング中に辞書に依存する任意の種類のNLPモデルをトレーニングすると、関心のあるすべてのオブジェクトを地名辞典に含めることができない場合(およびその理由そのモデルが必要ですか?)訓練されたモデルはある時点で機能に依存し、他の機能が弱すぎるか記述的でない場合、新しい関心のあるオブジェクトが認識されないためです。
モデルでGazetteerを使用する場合は、その機能にモデル自体のバランスをとるカウンター機能があることを確認する必要があります。そうすることで、単純な辞書の一致だけがポジティブクラスの機能にならないようにします(さらに重要なことに、Gazetteerは肯定的な例だけでなく、否定的な例にも一致します)。
たとえば、すべての人の名前の無制限のバリエーションの完全なセットがあり、一般的な人のNERは無関係であると仮定しますが、テキストで言及されているオブジェクトが歌うことができるかどうかを判断しようとします。Person Gazetteerに含める機能を使用すると、多くの誤検知が発生します。次に、「動詞を歌う対象」という動詞中心の機能を追加します。これはおそらく、鳥のようなあらゆる種類のオブジェクト、おなかがすいているおなか、考えている酔っ払いの仲間から偽陽性になるでしょう彼は歌うことができます(しかし、正直に言って、彼はできません)-しかし、その動詞中心の機能は、動物や他のオブジェクトではなく、人に肯定的なクラスの「歌手」を割り当てるために、個人の地名辞典とバランスを取ります。しかし、それは酔っ払ったパフォーマーのケースを解決しません。