ロジスティック回帰やニューラルネットワークなどの一般的な機械学習アルゴリズムでは、入力を数値にする必要があります。
私が興味を持っているのは、これらのアルゴリズムを非数値入力(短い文字列など)で機能させる方法です。
例として、入力機能の1つが送信者アドレスである電子メール分類システム(スパム/非スパム)を構築しているとしましょう。
学習アルゴリズムを使用できるようにするには、送信者アドレスを数値として表す必要があります。1つの方法は、送信者に単純に番号を付けることです1..n。トレーニングセットは次のようになります。
ただし、ロジスティック回帰やニューラルネットワークなどのアルゴリズムは入力データのパターンを学習するため、これは機能しませんが、この例では、出力はアルゴリズムに対して完全にランダムに見えます。実際、大学のクラスに入ると、このようなデータセットでニューラルネットワークをトレーニングしようとしましたが、ネットワークは何も学習できませんでした(学習曲線はフラットでした)。
この例では、ロジスティック回帰またはニューラルネットワークを使用しますか?はいの場合、その方法は?そうでない場合、送信者アドレスに基づいて電子メールを分類する良い方法は何でしょうか?
完璧な答えは、一般的なMLでの短い文字列の処理だけでなく、メール分類の例についても説明します。