深い畳み込みニューラルネットワークに役立つデータ増強技術とは何ですか?


13

背景: 最近、Geoffrey Hintonによるこの素晴らしい講演を見た後、畳み込みニューラルネットワークをトレーニングする際のデータ増強の重要性をより深いレベルで理解しました。

彼は、現在の世代の畳み込みニューラルネットワークは、テスト中のオブジェクトの参照フレームを一般化できないため、ネットワークがオブジェクトの鏡像が同じであることを真に理解することを難しくしていると説明します。

いくつかの研究はこれを改善しようとしています。これは多くの例の1つです。これは、畳み込みニューラルネットワークをトレーニングする際に、今日の重要なデータ増大がどれほど重要かを確立するのに役立つと思います。

データ増大技術が互いにベンチマークされることはめったにありません。したがって:

質問:

  • 開業医が非常に優れたパフォーマンスを報告した論文は何ですか?

  • あなたが有用だと感じたデータ増強技術は何ですか?


こんにちは、@ rhadar、何かニュースはありますか?ありがとう:)
nullgeppetto

回答:


1

秒 1:データ増強満足のいくパフォーマンスを実現するには、膨大な数のトレーニング画像でディープネットワークをトレーニングする必要があるため、元の画像データセットに含まれるトレーニング画像が限られている場合、データ増強を行ってパフォーマンスを向上させることをお勧めします。また、深いネットワークをトレーニングする際に、データの増強が行う必要があります。

  • 人気のある水平反転、ランダムクロップ、カラージッターなど、データを増やす方法は多数あります。さらに、
    複数の異なる処理の組み合わせを試すことができます。たとえば、
    回転とランダムスケーリングを同時に行うことができます。さらに、 すべてのピクセルの
    彩度と値(
    HSV色空間のSおよびVコンポーネント)を0.25から4のべき乗(
    パッチ内のすべてのピクセルで同じ)に上げ、これらの値に
    0.7の係数を掛けることができます。および1.4、およびそれらに-0.1〜0.1の値を追加します。
    また、
    画像/パッチ内のすべてのピクセルの色相(HSVのH 成分)に[-0.1、0.1]の値を追加できます。

  • クリジェフスキー他 図1は、 2012年ファンシーPCAの変更のRGBの強度で有名なアレックス・ネットを訓練するとき空想のPCAを提案した
    訓練画像内のチャンネル。実際には、トレーニングイメージ全体で最初にRGBピクセル値のセットに対してPCAを実行できます。そして
    次に、各トレーニング画像について、わずかに次の量を追加し
    、各RGB画像の画素(すなわち、I_ {X-Y} = [I_ {X-Y} ^ R、I_ {X-Y} ^ G、I_ {X-Y} ^ B] ^ T ):
    [bf {p} _1、bf {p} _2、bf {p} _3] [alpha_1 lambda_1、alpha_2 lambda_2、alpha_3
    lambda_3] ^ Tここで、bf {p} _iとlambda_iはi番目の固有ベクトルと
    固有値ですRGBピクセル値の3×3共分散行列の
    それぞれ、およびalpha_iはガウス分布から描かれたランダム変数
    平均ゼロおよび標準偏差0.1。各
    alpha_iは、特定の
    トレーニング画像のすべてのピクセルに対して、その画像が再びトレーニングに使用されるまで一度だけ描画されることに注意してください。つまり
    、モデルが同じトレーニング画像に再び出会うと、
    データ増強のために別のalpha_i がランダムに生成されます。1、彼らは、
    「空想のPCAは約重要取り込むことができることを主張し
    、すなわち、そのオブジェクトのアイデンティティは、照明の強度及び色の変化に対して不変であり、自然画像のプロパティ」。
    分類性能、この方式は、トップ1のエラーレートを低減し
    ImageNet 2012の競争の中で1%以上。

(情報源:ディープニューラルネットワークの秘Know /秘Must(Xiu-Shen Wei作))

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.