トピックモデリングを実行する前にストップワードを削除しようとしています。いくつかの否定語(ない、決して、決してない、など)は通常ストップワードと見なされることに気付きました。たとえば、NLTK、spacy、sklearnのストップワードリストには「not」が含まれています。ただし、これらの文から「not」を削除すると、重要な意味が失われ、トピックモデリングやセンチメント分析にとって正確ではなくなります。
1). StackOverflow is helpful => StackOverflow helpful
2). StackOverflow is not helpful => StackOverflow helpful
これらの否定語が通常ストップワードであると考えられる理由を説明してください。
2
文のセマンティック分析を行う場合、明らかに論理接続詞が重要です:(1)(2)ではない場合。これらの文のロジックをモデル化する場合は、ストップバッグに入れないでください。データマイニングの観点からは、ドキュメントに「not」が存在しても、トピックについて他のドキュメントと区別するのに役立つとは限らないため、通常はそこにスローされます。まれではありません。nlpタスクでそれらを無視する理由はおそらく他にもあります。
—
湖南ロストミアン16