テキストデータを操作する場合、どのような状況で見出し語化が賢明な手順ではないのですか？

考えられる計算上の制約を無視して、テキストデータを分析するときに見出し語化が逆効果的なステップとなる一般的なアプリケーションはありますか？

たとえば、文脈認識モデルを構築するときに、見出し語化は行われないことでしょうか？

参考までに、dictinory.comごとの見出し語化は、分析のために活用された（単語）の形を1つの項目としてグループ化する行為です。

たとえば、「cook」という単語は「cooking」という単語の補題です。見出し語化の動作は、たとえば、テキストデータをトークン化した後で、cookingという単語をcookに置き換えることです。さらに、「悪い」という単語の補題として「悪い」があり、前の例のように「悪い」という単語を「悪い」で置き換えることは、見出し語化のアクションです。

nlp data-cleaning

— Zer0k
ソース

私はこの質問は、レンマ化が何であるかについての短い説明で改善されると思います-kbrose '08

— 08/23

@kbroseよし、簡単な説明を追加できる。提案ありがとうございます。

— Zer0k

ありがとう！興味深い質問です。私は、部分的なタグ付けのような単純なものがありますが、それは見出し語化によって確実に害されます。もっとあるかどうか

— 知りたい

見出し語化によって害を受けるNLPタスク：

1）時制

      sentence        |  tense
------------------------------------
He cooked a nice meal |  past
He cooks a nice meal  |  present

動詞の最後にある文字のシーケンスは、このタスクに役立ちます。調理された動詞と調理人は、最後の文字ed とsでそれぞれ異なります。

見出し語化によって、この情報は失われます。両方の動詞はcookになり、両方の文が現在形（この場合）のように見えます。

2）著者の識別

与えられた

文書の集合著者によって書かれた、 $\mathcal{P}$ $a$
文書の集合著者によって書かれた、 $\mathcal{Q}$ $b$
ドキュメントのセットは、のいずれかの著者によって書かれたまたは、 $\mathcal{S}$ $a$ $b$

$s\in\mathcal{S}$ $a$ $b$

$s$ $\mathcal{P}$ $\mathcal{Q}$

これは、異なる作者が異なる頻度で特定の単語を使用するために機能します。ただし、見出し語化を使用すると、これらの周波数が歪んでモデルのパフォーマンスが低下します。

— ブルーノ・ルバッシャー
ソース

したがって、基本的には、文/文書の構造とスタイルが関連している場合、見出し語化は何か有害です。私はこれを正しく理解しましたか？

— Zer0k 2018

@ Zer0k、正解。重要な特徴が単語のきめ細かい場合は、見出し語化をしたくない。感情分析など、より高いレベルのタスクがある場合は、この細分性は必要ありません。「これは最悪のレストランです」または「これは悪いレストランです」はどちらもあなたに否定的な感情を与えます。

— Bruno Lubascher

著者の身分証明書の例に同意しないでください。特に短いテキストでは、見出し語化が非常に役立ちます。そうでない場合、特徴ベクトルはまばらです。

— Claude

@クロード、少し拡張していただけますか？短いテキストとして何を定義しますか？

— Zer0k 2018年

@ Zer0k 200トークンまたは最大1000程度。

— Claude