機械学習アルゴリズムの欠損データとスパースデータの違い


20

スパースデータと欠落データの主な違いは何ですか?そして、それは機械学習にどのように影響しますか?より具体的には、スパースデータと欠損データが分類アルゴリズムおよび回帰(予測数)タイプのアルゴリズムに与える影響。欠落しているデータの割合が重要であり、欠落しているデータを含む行を削除できない状況について話しています。


4
スパースデータとは、値の多くがゼロであることを意味しますが、ゼロであることはわかっています。データが欠落しているということは、値の一部または多くがわからないことを意味します。
アンナSdTC

ありがとう。それも私が考えたものですが、確認したかったです。また、質問で述べたように、一般的に、これらのタイプのデータセットは、問題を機械学習でどのように扱われるか、知りたいのですが...
疲れと退屈devの

1
あなたの質問は少し曖昧だと思います。「機械学習」にはさまざまな方法とツールが含まれているため、答えはあなたが何をしたいか、何をしたいかによって異なります。ここでは、欠落データを処理するいくつかの方法について説明します。stats.stackexchange.com
アンナSdTC

ありがとう。幅広いツールとmlアルゴリズムの種類を知っています。しかし、一般的なアプローチがあるかどうかを知りたかった。
疲れて退屈dev

回答:


16

理解を容易にするために、例を使用してこれを説明します。12個のセンサーを備えたデバイスからデータを収集しているとします。そして、10日間データを収集しました。

収集したデータは次のとおりです。 ここに画像の説明を入力してください

これは、ほとんどのセンサー出力がゼロであるため、スパースデータと呼ばれます。つまり、これらのセンサーは正常に機能していますが、実際の読み取り値はゼロです。このマトリックスには高次元のデータ(12軸)がありますが、含まれる情報が少ないと言えます。

デバイスの2つのセンサーが故障しているとします。
次に、データは次のようになります。ここに画像の説明を入力してください

この場合、Sensor1およびSensor6からのデータを使用できないことがわかります。結果に影響を与えずに手動でデータを入力するか、実験をやり直す必要があります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.