人工知能

1

数学では、演算子という単語は、いくつかの異なるが関連する概念を参照できます。演算子は、2つのベクトル空間の間の関数として定義でき、ドメインとコドメインが同じである関数として定義できます。または、関数（ベクトル）から他の関数（の場合）への関数として定義できます。たとえば、微分演算子）、つまり高次関数（関数プログラミングに精通している場合）。強化学習（RL）におけるベルマン演算子とは何ですか？なぜそれが必要なのですか？ベルマン演算子は、RLのベルマン方程式とどのように関連していますか？

10 reinforcement-learning terminology math

1

機械学習でRe-Luを使用するための数学的直観

したがって、現在最も一般的に使用されているアクティベーション機能はRe-Luです。だから私はこの質問に答えましたニューラルネットワークの活性化機能の目的は何ですか？そして、答えを書いている間、それは私を驚かせましたが、Re-Luの近似の非線形関数はどのくらい正確にできますか純粋な数学的定義によれば、確かに、急激な曲がりによる非線形関数ですが、x軸の正または負の部分のみに限定すると、それらの領域では線形になります。また、x軸全体を取り0 --> 90、シグモイドで可能なように単一ノードの非表示レイヤーで正弦波（）のような曲線関数を十分に近似できないという意味で、（厳密な数学的な意味ではなく）その線形も考えますアクティベーション機能。では、NNでRe-Luが使用されていて、線形であるにもかかわらず、満足のいくパフォーマンスを提供している（私はRe-luの目的を尋ねていません）の背後にある直感は何ですか？または、シグモイドやtanhのような非線形関数がネットワークの途中でスローされることがありますか？編集：@Ekaのコメントに従って、Re-Luはその能力をニューラルネットの深い層で機能する不連続性から導き出します。これは、Re-Luが、浅いNNではなく、Deep NNで使用する限り、良いことを意味しますか？

10 neural-networks machine-learning

2

ディープラーニングとAIに関する最新の「注目の」研究トピックは何ですか？

私はディープジェネレーティブモデルに関する修士論文を執筆しており、現在、新しいテーマを探しています。 Q：最近ディープラーニングコミュニティで多くの注目を集めている「最もホットな」研究トピックは何ですか？いくつかの明確化：私は同様の質問を調べましたが、誰も私の質問に答えませんでした。私は純粋な数学のバックグラウンドを持っています。1年前にディープラーニングに移行しただけで、生成モデルに関する私の研究はほとんど理論的なものでした。つまり、私の仕事のほとんどは、構造化された確率モデルとおおよその推論を中心に展開されていました。とはいえ、ディープラーニングの実際のアプリケーションについてはまだ調査していません。質問をする前に宿題をしました。私の目標は、この問題についてai SEの意見を得て、人々が何に取り組んでいるかを確認することでした。

10 deep-learning ai-field

3

ディープニューラルネットワークとは

ディープニューラルネットワークの定義は何ですか？なぜそんなに人気があるのか、それとも重要なのですか？

10 machine-learning deep-learning terminology deep-network definitions

4

最も急な丘登りよりも確率的な丘登りを選択するのはいつですか？

ストキャスティックヒルクライミングは通常、最も急なヒルクライミングよりもパフォーマンスが悪いですが、前者の方がパフォーマンスが優れているのはどのような場合ですか。

9 search hill-climbing

2

ヒルクライミングアルゴリズムにはどのような制限があり、それらを克服するにはどうすればよいですか？

山登りアルゴリズムの制限は何ですか？どうすればこれらの制限を克服できますか？

9 algorithm search optimization problem-solving hill-climbing

2

なぜベースラインはあるタイムステップの状態に条件があるのか

ロボット工学では、強化学習手法はロボットの制御パターンを見つけるために使用されます。残念ながら、ほとんどのポリシーグラディエントメソッドは統計的にバイアスがかかっており、ロボットを危険な状況に陥らせる可能性があります。JanPetersとStefan Schaalの 2ページを参照してください。モータープリミティブ学習では、ポリシーの勾配パラメーターの最適化が学習ステップを目標に導くため、問題を克服することができます。引用：「勾配推定が偏りがなく、学習率がsum（a）= 0を満たす場合、学習プロセスは少なくとも極小値に収束することが保証されます[...]したがって、生成されたデータのみからポリシー勾配を推定する必要がありますタスクの実行中。」（同じ論文の4ページ） Berkeley RLクラスの問題1 の宿題では、差し引かれたベースラインがタイムステップtでの状態の関数である場合、ポリシーの勾配が依然として不偏であることを示すように求められます。 ▽θ∑t=1TE(st,at)∼p(st,at)[b(st)]=0▽θ∑t=1TE(st,at)∼p(st,at)[b(st)]=0 \triangledown _\theta \sum_{t=1}^T \mathbb{E}_{(s_t,a_t) \sim p(s_t,a_t)} [b(s_t)] = 0 私はそのような証明の最初のステップが何であるかについて苦労しています。誰かが私を正しい方向に向けることができますか？私の当初の考えは、何らかの形で総期待値の法則を使用して、b（st）の期待値をTに条件付きにすることでしたが、確信が持てません。前もって感謝します：）方程式の元のpngへのリンク

9 reinforcement-learning

3

人間のような知性は賢い目的ですか？[閉まっている]

休業。この質問には、より焦点を当てる必要があります。現在、回答を受け付けていません。この質問を改善してみませんか？質問を更新して、この投稿を編集するだけで1つの問題に焦点を当てます。 5か月前に閉鎖。それが最も進んでいると仮定して、それは常に人間の心の構成要素を近似するために文献の焦点であったようです。他の動物がAIランドスケープに入ってきた場合、それは霊長類を人間の研究に実用的ではない方法で研究するか、その神経系が単純であるため、ナメクジの神経活動をシミュレートすることだけでした。おそらく、より低い生命体を望ましい人工知能のモデルとして使用することを検討する、より前向きな理由があります。私は他の種の共同能力についてEOウィルソンと他の人が言わなければならなかったことを読んでいます。細菌のように単純で順応性のある生物には、驚くべき品質があります。確かに、アリはコラボレーションのモデル種です。ミツバチは間違いなく最も建設に精通しており、ライフスタイルの持続可能性と他の種との相互関係を人間の知能の能力をはるかに超える芸術形式にもたらします。オプションを特徴付けるためにスポーツの類推を使用して、人間の知性は、啓発前のグラディエータースポーツまたは少なくともアイスホッケーのようなものであり、対戦相手の負傷は賢明な戦略と見なされます。ミツバチが行うことは、登山のようなものであり、精密かつ注意深く建設されます。アリが行うことはリレーレースによく似ており、トラックの各レーンが独立していてレーンにマークが付けられているのと同じように、各コロニーは反対側のチームにほとんど関心がありません。アリは同様に彼らの領土をマークし、領土の主張はウェストファリアの最高の地政学的政治と同様に尊重されています。誇り高きプライマシーのためだけのささいな嫉妬や競争はありません。アリの場合、スマートトラックやフィールドコーチの場合と同様に、目的はレースの各レッグがリレーレーサーの以前のベストに対してうまく機能することです。バクテリアは長距離ランナーです。彼らはDNAを互いに交換し、痛みと恐怖のすべてのルールを無視します。彼らは当たり前のことは何も取らず、生存のためにすべてを使用する持続可能な方法で行動します。そして、彼らは地球の存在のほぼ全期間にわたって生き残りました。最初に太陽が超新星に進まなければ、人類がいなくなってから1千億年もたってしまうでしょう。競争相手として際限なく行動するようにコンピュータをプログラムしたいのはなぜですか？人々は繰り返しチェスのプログラムをダウンロードして繰り返し失う可能性がありますか？いいえ、Android OSをダウンロードします。これは、連携して費用がかからないためです。win-winシナリオが可能な場所で、ゼロサム以外のゲームを見つけられませんか？すでに私たち自身の種の中から、十分なバックバイティング、ゴシップ、超臨界剤がすでに存在していませんか？アリのように協調知の方向にAIを送ってみませんか？私たちの日々の仕事の負担を分担したい新しい人工的な友人がいる方がいいのではないでしょうか？将来のロボットに、ミツバチのような六角形のロボットを作ってもらいませんか？あるいは、人間だけがそうであるように、90度の角度での不合理な主張のために、ロボットに私たちの例に従い、垂直構造で材料の70％を無駄にしたいですか？

9 philosophy evolutionary-algorithms

6

最も賢いロボットは愚かな人間より賢いですか？

ほとんどの人間はチェスが苦手です。彼らは交響曲を書くことはできません。彼らは小説を読んでいない。彼らは良いアスリートではありません。彼らは論理的な推論が得意ではありません。私たちのほとんどは起き上がります。工場や農場などで働きに行きます。簡単な指示に従ってください。ビールを飲んで寝ます。賢いロボットが愚かな人間にできることは何ができないのですか？

9 robots reasoning intelligence

1

Tic Tac Toeのようなゲームのニューラルネットワークと遺伝的アルゴリズム

現在、私は五目並べゲームをプレイするためのAIを作成することを目的としたプロジェクトを行っています（これはtic tac toeに似ていますが、15 * 15のボードでプレイし、勝つためには5つ続けて必要です）。私はすでにQラーニングを使用してゲームの状態/アクションをテーブルに保存して、完全な三目並べAIを正常に実装しましたが、15 * 15ボードの場合、ゲーム状態が大きくなりすぎて、このプロジェクトを実装できません。私の質問は、この問題にはニューラルネットワークまたは遺伝的アルゴリズムを使用する必要があるかということです。より具体的には、これをどのように実装すればよいですか？

9 neural-networks machine-learning genetic-algorithms combinatorial-games

3

現在のコンシューマーグレードのGPUでトレーニングできるニューラルネットワークのサイズは？（1060、1070、1080）

一般的なコンシューマーグレードのGPUでトレーニング可能なニューラルネットワークのサイズについて、経験則を見積もることはできますか？例えば：歩行（強化）の出現紙は、ニューロンのTANH活性化を使用してネットワークを訓練します。彼らは、プレーナーウォーカー用の300,200,100ユニットの3層NNを持っています。しかし、彼らはハードウェアと時間を報告していません... しかし、経験則を開発できるでしょうか？また、現在の経験的結果に基づいているため、たとえば次のようになります。シグモイドアクティベーションを使用するXユニットは、1060で1時間あたりY回の学習反復を実行できます。または、bの代わりにアクティベーション関数aを使用すると、パフォーマンスが一時的に低下します。学生/研究者/好奇心がこれらのネットワークで遊ぶためのGPUを購入しようとしている場合、どのように取得するかをどのように決定しますか？1060は明らかにエントリーレベルの予算オプションですが、高出力デスクトップを構築する代わりに安っぽいネットブックを入手して節約した$をオンデマンドクラウドインフラストラクチャに費やすことが賢くないかどうかをどのように評価できますか。質問の動機：私は1060を購入したばかりで、（賢明なことですが、後で質問するために）$を保持してGoogle Cloudアカウントを作成すればよかったのではないかと思いました。GPUで修士論文シミュレーションを実行できるかどうか。

9 neural-networks

5

倫理が現在のAIシステムに統合されていないのはなぜですか？

私はコンピューターサイエンスの博士号を取得しており、現在、機械倫理（哲学とAIを組み合わせた学際的な分野で、明示的な倫理プログラムやエージェントの作成を検討しています）で最先端のアプリケーション概要を作成しています。分野には技術的な背景を持つ多くの人々がいるにもかかわらず、分野はほとんど理論的な議論を含み、実装は比較的少ないようです。倫理が関わっているので根拠のない真実はなく、哲学の一部であるため、どのタイプの倫理を実施すべきか、これをどのように最善の方法で実施できるかについて議論することに迷う可能性があることを理解しています。ただし、コンピュータサイエンスでは、アプローチの可能性または制限を示すために、単純な実装を試みることも一般的です。 AIに倫理を明示的に実装し、それを実験することがほとんどできない理由は何ですか？

9 philosophy ethics social implementation

1

チェスのようなゲームへの強化学習の適用に関するいくつかの疑問

私はチェスのようなボードゲームを発明しました。自律的に遊べるようにエンジンを組みました。エンジンは基本的に決定木です。それはによって構成されています：各ノードで可能なすべての合法的な動きを見つける検索機能ボードの位置に数値を割り当てる評価関数（正の値は最初のプレーヤーが優勢を獲得していることを意味し、負の値は2番目のプレーヤーが代わりに勝利していることを意味します）アルファベット順枝刈りネガマックスアルゴリズムこのエンジンの主な問題は、評価関数の最適化が非常に難しいことです。どの要素を考慮し、どの重みを設定するかわかりません。エンジンを改善するために私が見る唯一の方法は、係数と重みのさまざまな組み合わせを毎回試すゲームを繰り返すことです。しかし、それは計算上非常に困難な作業です（ディープラーニングを使用せずにバックプロパゲートできますか？）。強化学習を使用して、エンジン自体と対戦してエンジンを改善したいと思います。私はそのトピックについて読んでいますが、私はまだかなり混乱しています。勝ち負けの出力（1または0）の一部であるゲームの他の報酬は何ですか？各ターンの評価関数からの出力など、他の報酬を使用する場合、どのように実装できますか？反復ごとにより良い報酬を与えるように評価関数を変更するにはどうすればよいですか？

9 reinforcement-learning game-ai game-theory combinatorial-games negamax

2

ニューラルネットワークの活動ベクトルとは何ですか？

私はヒントンの新しい論文「カプセル間の動的ルーティング」を読んでいて、要約で「活動ベクトル」という用語を理解していませんでした。カプセルはニューロンのグループであり、その活動ベクトルは、オブジェクトやオブジェクトパーツなど、特定のタイプのエンティティのインスタンス化パラメータを表します。アクティビティーベクトルの長さを使用して、エンティティが存在する確率とインスタンス化パラメーターを表すその向きを表します。1つのレベルのアクティブカプセルは、変換マトリックスを介して、より高レベルのカプセルのインスタンス化パラメーターを予測します。複数の予測が一致すると、より高いレベルのカプセルがアクティブになります。差別的に訓練された多層カプセルシステムがMNISTで最先端のパフォーマンスを達成し、非常に重複する桁を認識する際に畳み込みネットよりもかなり優れていることを示します。これらの結果を実現するために、合意によるルーティングの反復メカニズムを使用します。 https://arxiv.org/pdf/1710.09829.pdf ベクトルは、ネットワークを介して実行しているデータの配列のようなものだと思いました。私はAndrew Ngのディープラーニングコースに取り組み始めましたが、すべてが新しく、用語が頭に浮かびます。

9 neural-networks

2

ニューラルネットワークのコンテキストでは、平均二乗誤差は常に凸形ですか？

私が言及した複数のリソースは、MSEは凸型であるため優れていると述べました。しかし、特にニューラルネットワークのコンテキストでは、その方法がわかりません。次のものがあるとします。バツXX：トレーニングデータセット YYY：ターゲット ΘΘ\Theta：モデルfΘfΘf_\Thetaパラメータのセット Θ（非線形性を持つニューラルネットワークモデル）次に： MSE（Θ ）= （fΘ（X）− Y）2MSE⁡(Θ)=(fΘ(X)−Y)2\operatorname{MSE}(\Theta) = (f_\Theta(X) - Y)^2 なぜこの損失関数は常に凸型になるのでしょうか？これはに依存しないfΘ（X）fΘ(X)f_\Theta(X)？

9 neural-networks math backpropagation gradient-descent