機械学習における次元ホッピング

10

機械学習（畳み込みニューラルネットワークと画像認識で発生）の次元ホッピング問題とは何ですか？私はそれについてグーグルで調べましたが、私が得るすべては、物質形状変形の物理学に関する情報です。誰かが機械学習に関連する例を使ってそれを説明すれば、私にとってより役立つでしょう。誰かがこれで私を助けたり、できるリソースに私を向けることができますか？

machine-learning image-recognition

— 夢見る
ソース

7

DataScience.SEへようこそ！この問題について聞いたことがなかったので調べました。これは、ジェフヒントンによるこのプレゼンテーションの3番目のスライドで説明されています。

オブジェクトを認識しにくくするその他の事項

•視点の変化は、標準的な学習方法では対応できない画像の変化を引き起こします。

– 入力次元間の情報ホップ（つまり、ピクセル）

•患者の年齢が、通常は体重をコード化する入力ディメンションにホップする医療データベースを想像してみてください。

–機械学習を適用するには、最初にこの次元ホッピングを排除する必要があります。

つまり、同じものを表現しながら、1つの入力フィーチャディメンションから別の入力フィーチャディメンションに移行またはホッピングする概念的なフィーチャについてです。エンコードされている入力次元に対して不変である一方で、機能の本質をキャプチャまたは抽出できるようにしたいと考えています。

— エムレ
ソース

コンピュータービジョンでは、画像内の場所が不変であることを望んでいることは理解していますが、年齢の例はわかりません。

— Martin Thoma

私は、年齢と体重が依存していることを意味すると考えましたが、よくわかりません。それは私のプレゼンテーションではありません！あるいは、文字通り間違った列を使用していることを意味していて、それを検出したいと考えています。

— Emre

@sdream私はコメントをしました。エムレが答えました。（しかし、おそらくそれを受け入れる必要があります）。CNNの要点は、オブジェクトがどこかにあるときに1つの特徴が変化するだけでなく、完全なパターンが別の入力にあるということです。

— Martin Thoma、2016年

@Emre、私があなたの答えから得ているのは、特定のプロパティがどの方向から入力されても、この特定のプロパティが引き起こす機能は、このプロパティの入力次元に対して不変でなければならないということです。ありがとう！:)。まだいくつかのより具体的な回答を待っています。それ以外の場合、回答は回答としてマークされます。

— sdream 2016年

3

年齢の例は、次元ホッピングを持たないデータセットを強調することになっています。年齢と体重は、例の間でランダムに値を「ホップ」したり入れ替えたりしません。これらは交換可能ではなく、例はそれがどれほど奇妙であるか（そして線形回帰などの単純なタスクを行うことがどれほど難しいか）を示しています。画像のピクセル値（および多くの信号処理タスクの同様のデータ）は、問題の性質上、簡単に交換または移動します。

— Neil Slater

7

私が理解している限り、問題は次のとおりです。画像認識では、ネットワークへの入力はピクセル（グレースケールまたは白黒の場合は1と0のみ）である可能性があります。たとえば手書きの数字を認識したい場合は、正確な数字（つまり、黒い値）がどこにあるかわからないため、そのような値のみを処理することは非常に困難です。

ピクセル140は黒ですか、142は黒ですか？どちらの場合も、3になる可能性があります。年齢/体重の例では、これらの入力は明確に定義されています。特徴2は重量です。特徴3は年齢です。これらの「ディメンション」は、データセット内で「ホップ」するべきではありません。

したがって：画像トレーニングでは、「木」または「車」または「家」を、画像内の場所、つまりピクセル値、つまり特徴/入力ベクトル、つまり明確に定義されたものとは反対の寸法とは無関係に認識する必要があります。患者データなどの入力。

これを画像認識でどのように解決しますか？追加のトリック、例えば畳み込みを使用します。

— D.エガート
ソース

2

以前の回答を読んだところ、エムレの投稿へのニール・スレーターのコメントは、下にもう一度コピーしてあり、釘を打った。「ディメンションホッピング」とは、機械学習のパイオニアとして有名なHinton博士によって作成された用語です。ヒントン博士を引用すると、「通常、入力寸法はピクセルに対応し、オブジェクトが世界を移動し、それに追従するように目を動かさない場合、オブジェクトに関する情報は異なるピクセルで発生します。」年齢と体重は、混乱しにくい入力ディメンションです。ヒントン博士は、明らかに患者の年齢と体重の次元ホッピング状況を明らかに使用していないため、これらのタイプのデータ間の間違いを特定して修正できることを意味しました（ほとんどの成人が100歳以上であることに気づかないのは難しいことです） 100ポンド以上）。ヒントン博士が対処していた次元ホッピングの問題として考えられるのは、視点が異なるためにピクセルがずれる可能性があることです（たとえば、オブジェクトが移動したか、別の角度から見ている可能性があります）。線形ニューラルネットワークではこれを検出できませんが、畳み込みニューラルネットワークでは設計できます。

「年齢の例は、次元ホッピングのないデータセットを強調することになっています。年齢と重みは、例の間でランダムに値を「ホップ」したり入れ替えたりしません。それらは交換可能ではなく、例はそれがどれほど奇妙かを示しています（そしてどのように線形回帰などの単純なタスクを作成するのは困難です。問題の性質上、画像のピクセル値（および多くの信号処理タスクの同様のデータ）は簡単に交換または移動します– Neil Slater May 29 '16 at 18:01 」

— 熱狂的
ソース

1

機械学習のためのニューラルネットワークに関するヒントンのコースから直接説明....

"ディメンションホッピングは、入力のディメンションに含まれる情報を取得し、ターゲットを変更せずにこれをディメンション間で移動できる場合に発生します。標準的な例では、手書きの数字の画像とそれを画像内で変換します。「インク」を含む寸法は異なります（それらは他の寸法に移動されました）が、数字に割り当てるラベルは変更されていません。これは何かではないことに注意してくださいこれは、データセット全体で一貫して発生します。つまり、一方が他方の翻訳バージョンである2つの手書き数字を含むデータセットがある可能性がありますが、これでも数字の対応するラベルは変更されません。」

— Yottabytt
ソース

0

希望は、画像またはピクセルの一部が（ほとんど）次元内で移動し、いつか他の暗い（異なる受容野）に移動する問題だけですが、出力は同じままです。

この問題は不変性または等分散で扱われ、体重と年齢の例は簡単に述べる方法のように見えます。この体重と年齢の変動を知っているとしたら、アルゴを簡単に変更して正しい結果が得られるとしましょう。しかし、データ/情報ホッピングと同様に、「4」および「4」を左に数ピクセルシフトして、異なるターゲットを持つ異なるクラスであると見なした場合、イメージホッピングも発生します。

翻訳の不変性またはより優れた等分散のthroguhフィルターを使用すると、複雑さは増しますが、位置などの情報が破棄されますが、この動きやホッピングはそれほど問題にはなりません。

Plsは私がしようとするより明確にする必要があるかどうか私に知らせました。

— プラディKL
ソース