機械学習アルゴリズムの欠損データとスパースデータの違い

スパースデータと欠落データの主な違いは何ですか？そして、それは機械学習にどのように影響しますか？より具体的には、スパースデータと欠損データが分類アルゴリズムおよび回帰（予測数）タイプのアルゴリズムに与える影響。欠落しているデータの割合が重要であり、欠落しているデータを含む行を削除できない状況について話しています。

— 疲れて退屈な開発者
ソース

スパースデータとは、値の多くがゼロであることを意味しますが、ゼロであることはわかっています。データが欠落しているということは、値の一部または多くがわからないことを意味します。

— アンナSdTC

ありがとう。それも私が考えたものですが、確認したかったです。また、質問で述べたように、一般的に、これらのタイプのデータセットは、問題を機械学習でどのように扱われるか、知りたいのですが...

— 疲れと退屈devの

あなたの質問は少し曖昧だと思います。「機械学習」にはさまざまな方法とツールが含まれているため、答えはあなたが何をしたいか、何をしたいかによって異なります。ここでは、欠落データを処理するいくつかの方法について説明します。stats.stackexchange.com

— アンナSdTC

ありがとう。幅広いツールとmlアルゴリズムの種類を知っています。しかし、一般的なアプローチがあるかどうかを知りたかった。

— 疲れて退屈dev

理解を容易にするために、例を使用してこれを説明します。12個のセンサーを備えたデバイスからデータを収集しているとします。そして、10日間データを収集しました。

収集したデータは次のとおりです。

これは、ほとんどのセンサー出力がゼロであるため、スパースデータと呼ばれます。つまり、これらのセンサーは正常に機能していますが、実際の読み取り値はゼロです。このマトリックスには高次元のデータ（12軸）がありますが、含まれる情報が少ないと言えます。

デバイスの2つのセンサーが故障しているとします。
次に、データは次のようになります。

この場合、Sensor1およびSensor6からのデータを使用できないことがわかります。結果に影響を与えずに手動でデータを入力するか、実験をやり直す必要があります。

— ラヒル・カルナラトネ
ソース