考えられる計算上の制約を無視して、テキストデータを分析するときに見出し語化が逆効果的なステップとなる一般的なアプリケーションはありますか?
たとえば、文脈認識モデルを構築するときに、見出し語化は行われないことでしょうか?
参考までに、dictinory.comごとの見出し語化は、分析のために活用された(単語)の形を1つの項目としてグループ化する行為です。
たとえば、「cook」という単語は「cooking」という単語の補題です。見出し語化の動作は、たとえば、テキストデータをトークン化した後で、cookingという単語をcookに置き換えることです。さらに、「悪い」という単語の補題として「悪い」があり、前の例のように「悪い」という単語を「悪い」で置き換えることは、見出し語化のアクションです。
1
私はこの質問は、レンマ化が何であるかについての短い説明で改善されると思います-kbrose '08
—
08/23
@kbroseよし、簡単な説明を追加できる。提案ありがとうございます。
—
Zer0k
ありがとう!興味深い質問です。私は、部分的なタグ付けのような単純なものがありますが、それは見出し語化によって確実に害されます。もっとあるかどうか
—
知りたい