多くの機械学習アプリケーションでは、いわゆるデータ増強方法により、より良いモデルを構築できます。たとえば、猫と犬の枚の画像のトレーニングセットを想定します。回転、ミラーリング、コントラスト調整などにより、元の画像から追加の画像を生成できます。
画像の場合、データの増加は比較的簡単です。ただし、(たとえば)サンプルのトレーニングセットと、さまざまなものを表す数百個の連続変数があるとします。データ拡張は、もはやそれほど直感的ではないようです。そのような場合に何ができますか?
2
PCAやAEのようないくつかの方法は、データ増強のためにまだ直観的だと思います。最初の方法は、PCAを適用し、最初のk個の固有値を保持し、分布、ガウスなどからkn個の固有値をランダムに設定します。別の方法では、オートエンコーダーを使用してデータ自体を構築します。非表示のユニットの数が表示されているユニットに近い場合、それ自体はかなり良好に構築できます。再構築されたデータは、データの拡張部分として使用できます。
—
yasin.yazici
@mmh、これはあなたの質問に答えましたか?
—
shf8888
@ yasin.yaziciこんにちは。pcaを使用したデータ増強について少し説明していただけますか?私は、データがあるとと50は、特徴次元います。ここでPCAを実行すると、最初の30個の固有ベクトルが十分であることがわかります。次の20個の固有ベクトルで何をすべきか、ランダム性をどのように導入すればよいですか?
—
ロニ
画像のデータ拡張技術の概要については、80ページの修士論文を参照してください。
—
マーティントーマ
データの増強は、画像に対して非常に理にかなっています。オブジェクトの回転画像はオブジェクトの画像であり、モデルをそれに露出する必要がありますが、データセットに必ずしもそのような画像があるとは限りません。この場合のデータ増強の必要性/ポイントは何ですか?あなたがこれを行うべきかどうかは私には明らかではありません。
—
gung-モニカの復職