機械学習の原理理論と数学的理論が重要なのはなぜですか?


25

私は、原理的/理論的な機械学習を持つことがなぜそんなに重要なのだろうと考えてきました。人間としての個人的な観点から、原理的な機械学習が重要である理由を理解できます。

  • 人間は自分がしていることを理解するのが好きで、私たちは理解の美しさと満足感を見つけます。
  • 理論的な観点から、数学は楽しいです
  • 物事の設計を導く原則がある場合、ランダムな推測、奇妙な試行錯誤に費やす時間が少なくなります。たとえば、ニューラルネットが実際にどのように機能するかを理解すれば、たった今試行錯誤を繰り返すよりもはるかに時間をかけて設計することができます。
  • より最近では、原則が明確であり、理論も明確であれば、システムへの(できれば)より透明性があるはずです。システムの機能を理解すれば、AIは多くの人々の誇大宣伝がすぐに消えてしまうリスクがあるため、これは良いことです。
  • 原則は、世界が持つ可能性のある重要な構造と、別のツールではなくツールを使用するタイミングを要約する簡潔な方法のようです。

しかし、これらの理由は、機械学習の集中的な理論的研究を正当化するほど十分に強力なのでしょうか?理論に対する最大の批判の1つは、実行が非常に難しいため、通常、非常に制限されたケースや、本質的に結果を役に立たなくする必要がある仮定を研究することになります。Torの作者によるMITでの講演でこれを聞いたことがあると思います。彼が聞いたTorの批判の一部は理論的な議論であるが、本質的に、人々は現実の現実のシナリオについて物事を証明することができない。

計算能力とデータが非常に多いこの新しい時代では、実際のデータセットとテストセットを使用してモデルをテストできます。経験主義を使用して、物事が機能するかどうかを確認できます。代わりに、エンジニアリングと経験主義で機能するAGIまたはシステムを実現できる場合、特に定量化の限界を達成するのが非常に困難ですが、直感と定性的な答えがはるかに簡単な場合、機械学習の原理的および理論的な正当化を追求する価値がありますデータ駆動型アプローチで達成しますか?このアプローチは古典的な統計では利用できませんでした。そのため、当時は理論が非常に重要であったと思います。

私は個人的に常に理論を愛し、考えており、原則的なアプローチが重要でした。しかし、実際のデータとコンピューティング能力で物事を試すことができるという力で、理論的な追求の大きな努力(そして潜在的に低い報酬)がまだ価値があるのだろうかと思いました。

機械学習の理論的および原則的な追求は本当に重要ですか?


「理論がなければ、経験的な結果がMLメソッドを適用する新しいデータセットに適用されるという期待に依存しています。しかし、経験的な結果を観察したときにたまたま保持されたいくつかの特性または仮定は必ずしもそこに進むとは限りません新しいデータセットで。」
チャーリーパーカー

回答:


17

これに対する正しい答えはありませんが、おそらく「節度にあるすべて」です。機械学習の最近の多くの改善、すなわちドロップアウト、残留接続、密な接続、バッチ正規化は、特に深い理論に根ざしてはいませんが(ほとんどは数段落で正当化できます)、最終的にはいくつのボトルネックがあると思いますそのような結果は大きな影響を与える可能性があります。ある時点で、あなたは座って次の大きな飛躍をするためにいくつかの余分な理論を練らなければなりません。同様に、理論はモデルの質や限界を合理的な疑いの範囲内で証明できるため、直観を導くことができます。これは、特定の問題についてSGDがMomentumよりも優れていると考える場合、特に重要です。それは理論の良いところです。それはあなたがあなたが解決しようとしている問題を抽象化することを強制します、

思い浮かぶ大きな例は、サポートベクターマシンです。もともとは60年代前半にVapnikとChervonenkisによって考案されましたが、90年代前半にVapnikと他の人がKernel Trickを使用して非線形SVMを実行できることに気付いたときに実際に離陸しました。VapnikとChervonenkisは、VC次元の背後にある理論も解明しました。、これは機械学習の複雑さの尺度を考え出す試みです。VCディメンションの実用的な応用は考えられませんが、SVMのアイデアはおそらくこれに関する彼らの仕事に影響を受けたと思います。カーネルトリック自体は、ヒルベルト空間に関する抽象的でナンセンスな数学に由来しています。SVMを思い付くには、この抽象的なナンセンスを知る必要があると言うのは一苦労かもしれませんが、特に機械学習に多くの数学者が興奮しているので、おそらくかなり助けになったと思います。

ResNetについては、最近、Residualアーキテクチャは数百層の深さである必要はないことを示唆する非常にきちんとした作業があります。実際、残差接続はRNNに非常に類似していることを示唆する研究がいくつかあります。たとえば、残差学習、リカレントニューラルネットワーク、および視覚皮質のギャップを埋める」、Liao等。理論的には、多くのレイヤーを備えたResNetは、実際には非常に非効率的で肥大化しています。

RNNの勾配クリッピングのアイデアは、現在有名な論文「リカレントニューラルネットワークのトレーニングの難しさについて」-Pascanu、et。al。おそらくすべての理論なしで勾配クリッピングを思い付くことができますが、特に動的システムマップに類似性を描くことによって、RNNが何か特別なことをせずに訓練するのがとても難しい理由を理解するのに大いに役立つと思います(上記の論文のように) )。

エントロピー確率的勾配降下法には多くの興奮があります。これらはランジュバンダイナミクスに由来し、理論結果の多くは、古典的な理論PDE理論と統計物理学にしっかりと根ざしています。結果は、ロス関数の局所的な変動にSGDがどのように詰まるか、SGDをより効率的にするためにロス関数を局所的に平滑化できるという点で、新しい観点からSGDをキャストするため、有望です。SGDがいつ有用で、いつうまく動作しないかを理解するのに大いに役立ちます。これは、さまざまな種類のモデルでSGDを試して経験的に導き出すことはできません。

論文で 「ニューラルネットワークの興味深い特性」では、著者らは、ニューラルネットワークはレイヤー間のリプチッツ定数が高いため、敵の例(計算された画像のスライト摂動として定義される)に敏感であると要約しています。これはまだ研究の活発な分野であり、より理論的な導出によってのみよりよく理解することができます。

Topological Data Analysisの例もあり、その周りに少なくとも1つの会社(Ayasdi)が形成されています。これは特に興味深い例です。これは、使用される手法が非常に具体的かつ抽象的であるため、今日からでも、この理論のアイデアがどこで終わるかを見るのに多くの時間がかかります。私の理解では、関連するアルゴリズムの計算の複雑さは非常に高くなる傾向があります(しかし、20年前でもニューラルネットワークでも同様に高かったです)。


7

この質問に対する答えは実際には非常に簡単です。機械学習モデルの背後にある理論的な正当化により、少なくとも多少の現実的な条件が満たされたときに、ソリューションの最適性がある程度保証されることを証明できます。それなしでは、いかなる保証もありません。もちろん、「何が機能するかを確認して、特定の問題に使用しましょう」と言うこともできますが、機械学習の問題を解決する方法は無限にあるため、これは現実的ではありません。

Yバツバツ+42バツ+42.5バツ4242バツバツ+420


2
訓練されたモデルが検証とテストセットで機能するかどうかをチェックしていませんか?それらの境界が実際に使用できない場合、理論上の境界にはどのような保証がありますか?
チャーリーパーカー

6
バツ+cc

5

質問を見てください:機械学習の理論的かつ原理的な追求は本当に重要ですか?

「重要」という意味を定義します。哲学的な観点から言えば、何かを説明したり、何かを理解したい場合、それは根本的な違いです。多少粗雑な答えでは、科学的であることと何か他のこととの違いです。それの実際的な部分は、根本的な問題には関係ありません。証明するのが難しすぎる場合、またはそれ自体を証明することが不可能な場合でも、重要な発見です。(Goedelらを入力してください。)しかし、これはそれが無関係であることを意味しません。少なくとも実用的な観点からは無関係に見えるかもしれません。しかし、少なくとも主要な重要性と価値があるものとして認識されるべきです。

類推を考えてみましょう:医学全体(およびその過去から)は非科学的です。ある意味では、実際には決してありえません。それはその結果によって完全に支配される規律です。ほとんどの場合、「真実」のようなものはありません。しかし、一部の部分は実際に科学的である可能性があります-そして、これは計画された進歩のほとんどが起こっている場所です。

別の非常に短い説明は次のとおりです。理論がなければ、あなたはたくさんのお金を稼ぐことができます。「より良いもの」に本当に役立つなら、ノーベル賞をもらえるかもしれません。ただし、フィールズメダルを獲得することはありません。


1
+1これはOPに対する興味深い答えであると思いますが、非科学的であるとして医学について詳しく説明するようお願いします。病気にかかっているものを見つける診断プロセス、鑑別診断(疑わしい疾患の理論的概念)が想定されているプロセスではなく、どの疾患が最も可能性が高いかを予測するためのデータが収集されますか?...
IWS

(続き)...医師が利用可能なデータに基づいて将来の疾患経過を推定しようとする予後はありませんか?そして最後に、科学は、より高いが存在する真実の探求なのか、それとも、私たちが現在存在していると信じる真実の構造に近似するのか?
IWS

実際、医学の問題はもう少し深くなります。科学は基本的には単なる方法またはプロセスです。科学が「機能する」ためには、本質的に偽造の可能性がある仮説を平等にテストする能力が必要です。つまり、理論が間違っていることを証明できない場合、それは非科学的です。医学では、これは倫理的意味合いが多すぎます。また、異なる時点で同じ時点で誰かを治療することはできないため、仮説検定は非常に困難です。[...]
ケルブ

第2部(真実を探求する科学)についても、これは単なる方法です。それは、人類が思いついた最も成功した方法のようです。しかし、それは事実に基づいているのではなく、信じている。また、ある意味では閉じたシステムでもあります。真実とまったく同じように見える構築物との間には(科学的な)区別はありません。科学者間の合意は、いくつかの経験則(例えば、Occams Razor)を与えるかもしれませんが、科学は非科学の海ではコンパスではありません。
ケルブ

5

人間は何世紀にもわたり物理学の法則なしに船、馬車、建物を建設することができました。しかし、現代科学以来、私たちはそれらの技術をまったく新しいレベルに引き上げることができました。実証済みの理論により、原則的な方法で改善を行うことができます。私たちは、月に到達することも、物質と計算の数学的理論のないコンピューターを持ったこともなかったでしょう。

機械学習は、他の科学や工学の分野の1つにすぎません。機械学習への原則的なアプローチにより、カーネルマシン、構造化学習、およびアンサンブルメソッド(ブースティング、ランダムフォレスト)が提供されました。


5

これは私自身の仕事からの簡単な例です。

多くのニューラルネットを継続的な結果に適合させます。逆伝播により重みを決定します。最終的には収束します。

ATA1ATy
Ay

私のネットはずっと速く収束します

理論ありがとうございます。


3

経験主義と理論

あなたが書いた:

理論に対する最大の批判の1つは、実行が非常に難しいため、通常、非常に制限されたケースや、本質的に結果を役に立たなくする必要がある仮定を研究することになります。

これは私たちが経験的理論的であると呼ぶことができる2つのビューの間の主な分割を示すと思います。

経験的な観点からも、あなたが説明したように、定理は現実世界をモデル化するほど複雑ではないので役に立たない。彼らは、現実世界のどこにも当てはまらない単純化された理想的なシナリオについて話します。それで、理論を行うことのポイントは何ですか。

ただし、理論的な観点からは逆のことが当てはまります。経験主義は、「このデータセットでこのメソッドを実行し、この同じデータセットで他のメソッドを実行するよりも優れていた」ことを超えて教えてくれます。これは1つのインスタンスに役立ちますが、問題についてはほとんど語っていません。

理論は、いくつかの保証を提供します。また、何が起こっているのかを理解できるように、単純化されたシナリオを正確に調べることもできます。

実際の例を想像してみてください:概念のドリフト(時間の経過とともにデータが変化するとき)が学習能力にどのように影響するかを確認したい場合。純粋な経験主義者はこの質問にどのようにアプローチしますか?彼が本当にできることは、さまざまな方法を適用して、自分にできるトリックを考えることだけです。手順全体は次のようになります。

  • 過去300日間をかけて、その変数の平均が変化したかどうかを検出してください。OK
  • 代わりに200日間試してみるとどうなりますか?
  • よし、ドリフトが発生したらアルゴリズムを変更してみましょう。
  • より多くのデータセットを取得し、これまでに開発されたどの方法が最適に機能するかを確認します。
  • 結果は決定的なものではなく、おそらく複数のタイプのコンセプトドリフトが起こっていると思いますか?
  • シミュレーションを試してください。概念のドリフトをシミュレートし、変更が発生したかどうかを検出するために使用される異なる日数を使用して異なる方法を適用するとどうなりますか。

ここにあるのは、いくつかのデータセットで非常に正確な結果です。たぶんデータは、過去200日間の観測に基づいて学習アルゴリズムを更新することで最高の精度が得られるようなものだったのでしょう。しかし、他のデータでも同じように機能しますか?この200日間の見積もりの​​信頼性はどのくらいですか?シミュレーションは役立ちますが、現実の世界を反映していません-同じ問題理論が持っていました。

理論的な観点から同じことを想像してください。

  • シナリオを不合理なレベルに簡素化します。たぶん、平均が時間とともに突然変化する2変量正規分布を使用します。
  • 条件を明確に選択してください-通常のデータに最適なモデルを選択してください。データが正常であることを知っていると仮定します。あなたが知らないのは、平均のシフトがいつ起こるかだけです。
  • デバイスシフトがいつ発生したかを検出する方法。繰り返しますが、過去200回の観測から開始できます。
  • これらの設定に基づいて、分類器の平均誤差を計算できるはずです。アルゴリズムにかかる平均時間は、変更が発生したかどうかを検出して更新します。最悪の場合のシナリオと、95%の確率レベル内の保証かもしれません。

これで、このシナリオはより明確になりました。すべての詳細を修正することで問題を切り分けることができました。分類器の平均誤差を知っています。おそらく、変更が発生したことを検出するのにかかる日数を推定できます。これが依存するパラメーターを推測します(変更のサイズなど)。そして今、何かに基づいて実用的なソリューションを生み出しています。しかし、最も重要なことは、この結果(正しく計算された場合)は変わらないことです。それは永遠にここにあり、誰もがそれから学ぶことができます。

現代の機械学習の父の一人のように-ユルゲン・シュミットフーバーは次のように言っています:

ヒューリスティックは行き来します。定理は永遠のものです。

他の分野からの教訓

また、物理学との類似点についても簡単に言及しました。彼らはかつてこのジレンマを抱えていたと思います。物理学者は、無限空間内を移動する無限質量の摩擦のない物体を研究していました。一見すると、雪が風の中でどのように動いているかを知りたい現実について、これから何がわかりますか。しかし、理論はそれらを非常に長い道のりで運んだように感じます。


2

私の意見では、MLの結果を解釈する能力が最も重要であるいくつかの理由を述べました。AI駆動のプロパティガードが隣人の犬を撃つことにしたとしましょう。なぜそうなったのかを理解することが重要です。将来これが起こらないようにするために、少なくとも誰が責任を負い、誰が所有者の補償を支払うのかを理解するために。

しかし、私にとって最も重要な理由は、アルゴリズムの基礎となっている原則を理解することで、その制限を理解し、パフォーマンスを改善できることです。MLでのユークリッド距離の使用を検討してください。多くのクラスタリングアルゴリズムでは、例間の距離の定義から開始し、次に、例の特徴間の近接性をグループ化する例の特徴間の境界の検出に進みます。フィーチャの数を増やすと、ユークリッド距離はある時点で機能しなくなります。あなたはそれを機能させるために多くの時間を費やすことができます、または-近接尺度としてのユークリッド距離が無限の次元制限で機能しないことがわかっている場合-マンハッタンなどの他の距離メトリックに単に切り替えてから、作業に進みます実際の問題について。このような多くの例を見つけることができます、


2
私は前にこの主張を聞いたことがあるが、私はこれを実証する任意の具体的な例を認識していないと思います:ユークリッド距離でうまくクラスタリングされていないいくつかのデータの例があるが、されているマンハッタン距離とよくクラスタリング?
アメーバは、モニカの復活を

1
ここで @amoeba が一般的なリファレンスですが、別のコンテキストで以前にこれに遭遇しました。ユニットハイパーキューブ内のハイパースフェアの体積の比率を見ると、ハイパーキューブの次元が無限大になるとゼロに縮小します。基本的には、より高い次元でのすべての凸状の本体がポイントに崩壊-私の解釈
Aksakal

2

これが哲学的な議論ではないことは非常に難しいと思います。私の答えは、ここですでに述べた良い点を言い換えたものです(すべて+1)。私は、コンピュータ科学者として訓練された誰かとして本当に私に語ったAndrew Gelmanからの引用を指摘したいと思います。機械学習と呼ばれる人の多くはコンピューターサイエンスからも来ているという印象を受けます。引用は、Gelmanが2017 New York R ConferenceでTheoretical Statistics is the Theory of Applied Statisticsと呼ばれた講演からのものです。

理論はスケーラブルです。

理論は、特定の条件下で意味をなすものとそうでないものを教えてくれます。数千または数万または数百万のシミュレーションを実行して、真実を知る必要がありますか?より多くのベンチマークデータセットで経験的な比較を行いたいですか?しばらく時間がかかりますが、結果はまだ脆弱かもしれません。さらに、比較が理にかなっていることをどのようにして知ることができますか?精度99.5%の新しいDeep Learnerが、精度99.1%の古いDeep Learnerよりも本当に優れていることをどのようにして知ることができますか?ここでいくつかの理論が役立ちます。

私はシミュレーションの大ファンであり、世界を理解する(または理論を理解する)ためにそれらを多く使用していますが、理論的な機械学習は応用機械学習の理論です。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.