ストップワードのリストをキュレートする方法に関するヒントを探しています。誰かが前処理とフィルタリングのためにデータセット自体からストップワードリストを抽出するための良い方法を知っている/誰かが推奨できるか?
データ:
数年にわたる可変長の膨大な量の人間によるテキスト入力(検索用語と全文(最大200文字))。テキストには大量のスパム(ボットからのマシン入力、単一の単語、愚かな検索、製品の検索など)が含まれており、数%しか役に立たないようです。時々(ごくまれに)人々が本当にかっこいい質問をして私の側を探すことに気づきました。これらの質問はとてもかっこいいので、時間をかけて人々がどのように検索しているか、人々が私のウェブサイトの使用に興味を持っているトピックを確認するために、それらをより深く調べる価値があると思います。
私の問題:
前処理(つまり、スパムのドロップ)に本当に苦労しています。私はすでにウェブからいくつかのストップワードリスト(NLTKなど)を試しましたが、これらはこのデータセットに関する私のニーズに実際には役立ちません。
あなたのアイデアと議論の人々をありがとう!
stop words
。ストップwrods例えば、いくつかの言語の中で最も一般的な単語のリストであるI
、the
、a
およびになります。スパムであるかどうかを識別するアルゴリズムをトレーニングする前に、テキストからこの単語を削除するだけです。スパムであるかどうかを特定するのに役立ちませんでした。学習アルゴリズムを改善することができます。