回答:
通常、見出し語化は、関連する単語を共通のベースに削減するための推奨される方法です。
このQuoraの質問は、このテーマに関する優れたリソースです。NLPでステミングよりも見出し語化を選択することをお勧めしますか?上の回答は、スタンフォードNLPの、レンマ化が通常なぜ優れているかを動機づける別の優れたリソース、ステミングとレンマ化を引用しています。
レンマ化が優れている理由
通常、ステミングとは、ほとんどの場合、この目標を正しく達成することを期待して単語の終わりを切り落とす大まかなヒューリスティックプロセスを指し、多くの場合、派生接辞の削除を含みます。
見出し語化は通常、語彙と単語の形態学的分析を使用して物事を適切に行うことを指します。通常、語尾の末尾のみを削除し、単語の基本形式または辞書形式を返します。これは見出し語として知られています。
しかし、それは一般的なことであり、常に優れているとは限りません。ステミングにはいくつかの利点があり、ユースケースによって異なります。見出し語化に対してステミングを使用するいくつかの理由は次のとおりです。
ステミングの際に考えられるいくつかの例外はより良い場合があります