レンマ化とステミング


7

私は単語の根を見つけるためにこれらの両方の手法について読んでいますが、どのようにして一方を他方よりも好むのですか?

「レンマ化」は常に「ステミング」より優れていますか?

回答:


10

通常、見出し語化は、関連する単語を共通のベースに削減するための推奨される方法です。

このQuoraの質問は、このテーマに関する優れたリソースです。NLPでステミングよりも見出し語化を選択することをお勧めしますか?上の回答は、スタンフォードNLPの、レンマ化が通常なぜ優れているかを動機づける別の優れたリソース、ステミングとレンマ化を引用しています。

レンマ化が優れている理由

通常、ステミングとは、ほとんどの場合、この目標を正しく達成することを期待して単語の終わりを切り落とす大まかなヒューリスティックプロセスを指し、多くの場合、派生接辞の削除を含みます。

見出し語化は通常、語彙と単語の形態学的分析を使用して物事を適切に行うことを指します。通常、語尾の末尾のみを削除し、単語の基本形式または辞書形式を返します。これは見出し語として知られています。

しかし、それは一般的なことであり、常に優れているとは限りません。ステミングにはいくつかの利点があり、ユースケースによって異なります。見出し語化に対してステミングを使用するいくつかの理由は次のとおりです。

ステミングの際に考えられるいくつかの例外はより良い場合があります

  • シンプルさ
  • 速度
  • メモリの制約

4
私が個人的に(時には)ステミングの方がうまく機能することがわかった別のケース:ビジネス名のような非常に短いテキストスニペット。Snowballのようなアグレッシブなステミングアルゴリズムは、私の経験では上手くいかなくてもうまく機能する傾向があります。
シャドウトーカー

追加してくれてありがとう!ステミングがうまく機能する状況がもっとある可能性があることをより明確にするために編集します。
Simon Larsson

4
スピードを強調しきれません!レンマ化を実行していたため、実行に永久に時間がかかるアプリがありました。それをステミングで置き換えることで、加速します。
ChiPlusPlus
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.