回答:
実際、NLPは不均衡な問題(スパムフィルタリング、侮辱的なコメントの検出、記事の分類など)を扱うテキスト分類タスクが多いため、データのリサンプリングが必要とされる最も一般的な領域の1つです。しかし、SMOTEはいくつかの理由でここで問題があるようです。
だから私はあなたに2つのアプローチを提案することができます:
1)3-NNを使用してマイナークラスからのデータサンプルをdoubleにしたいとします。メジャークラスを無視し、マイナークラスのサンプルのみを保持します。
2)特徴空間の各サンプルポイントについて、5つの最近傍点を選択します。次に、それらの3つをランダムに選択します(不必要に複雑ではないですか?元のアルゴリズムを説明したくない場合は、3つの近傍を選択するだけです!)
3)各次元について、サンプルと隣人の間の距離を計算し、それを0〜1の乱数で乗算して、その次元のサンプルの元の値に追加します。(この複雑な段落は、各次元について、元のサンプルとその隣のサンプルの間でランダムな値を選択することを意味します!)
さらに多くのテキスト/文の書き直しデータを追加したい場合は、事前トレーニング済みの単語の埋め込みを使用できます。などの事前学習済みモデルは、すべての辞書単語の単語ベクトル表現を提供します。また、「most_smiliar」という単語も提供します。
単純にサンプル文を使用し、最もTOP_N個の類似した単語ですべての単語の順列を行うことにより、新しいサンプルを生成できます。
たとえば、文に3つの単語があり、各単語に最も類似する3つを選択した場合、27倍にアップサンプリングできます。