これは比較的古い質問ですが、私と同じように、何か関連のあるものを探してそれに遭遇した人々に5セントを追加します。
ゼロエミッション確率を処理するための代替アプローチは、「語彙を閉じる」ことです。アイデアは、トレーニングセットで「まれな」単語を定義することです-定義済みの回数よりも少ない単語は、モデルがトレーニングされる前に「単語クラス」で置き換えます。新しい単語のシーケンスにモデルを適用すると、トレーニングセットに表示されなかったすべての単語も「単語クラス」に変換されます(事実上、「まれ」と見なされます)。これにより、モデルに目に見えない言葉がないことが保証されます。
単語から「単語クラス」を生成するためのルールは手動で選択する必要があります(これは欠点です)。たとえば、このアプローチが使用された(おそらく)最初の記事(Bikel、DM、Schwartz、R。&Weischedel、RM Machine Learning(1999)34:211 .; https://link.springer.com/article/ 10.1023 / A:1007558221122 ; http://curtis.ml.cmu.edu/w/courses/index.php/Bikel_et_al_MLJ_1999)クラスの例は次のとおりです。
Word Feature | Example Text | Intuition
-----------------------|------------------------|-----------------------------------------
twoDigitNum | 90 | Two-digit year
fourDigitNum | 1990 | Four digit year
containsDigitAndAlpha | A8956-67 | Product code
containsDigitAndDash | 09-96 | Date
containsDigitAndSlash | 11/9/89 | Date
containsDigitAndComma | 23,000.00 | Monetary amount
containsDigitAndPeriod | 1.00 Monetary | amount, percentage
otherNum | 456789 | Other number
allCaps | BBN | Organization
capPeriod | M. | Person name initial
firstWord | first word of sentence | No useful capitalization information
initCap | Sally | Capitalized word
lowerCase | can | Uncapitalized word
other | , | Punctuation marks, all other words
トレーニングセット(マイケルコリンズの講義から)の前処理されたタグ付き文の例:
"利益/ NA急騰/ NA at / NAボーイング/ SC Co / CC、/ NA簡単/ NAトッピング/ NA予測/ NAオン/ NAウォール/ SLストリート/ CL、/ NA as / NA彼ら/ NA CEO / NAアラン/ SP Mulally / CP発表/ NAファースト/ NAクォーター/ NAの結果/ NA ./NA
(図示されるように置換された単語に(タグおよび「まれな単語」のいくつかの仮定の集合で)形質転換された太字で)
" 最初の単語 / NA急上昇/ NA at / NA initCap / SC Co./CC、/ NA簡単に/ NA 小文字 / NA予測/ NA on / NA initCap / SL Street / CL、/ NA as / NA their / NA CEO / NAアラン/ SP initCap / CP発表/ NAファースト/ NAクォーター/ NAの結果/ NA ./NA
トレーニングセットでは、「タグ->単語/単語クラス」のすべてのペアが表示されない可能性があり、特定の単語または単語クラスがこれらのタグでタグ付けされることを不可能にします。しかし、それはそれらの単語が他のタグでタグ付けされるのを防ぎません-トレーニングセットで見られなかった単語があるときとは異なり。