統計とビッグデータ machine-learning

1

機械学習のブログでは、「バニラ」という言葉に頻繁に出会います。たとえば、「バニラグラディエントディセント」や「バニラメソッド」などです。この用語は、最適化の教科書では文字通り見られません。たとえば、この投稿では、次のように述べています。これは、勾配降下法の最も単純な形式です。ここで、バニラとは、純粋な/不純物のないものを意味します。その主な特徴は、コスト関数の勾配をとることにより、最小値の方向に小さなステップを踏むことです。この文脈で「姦淫」は何を意味するのでしょうか。著者は、バニラ勾配降下と運動量を伴う勾配降下を対比することでさらに進んでいます。したがって、この場合、バニラ勾配降下法は勾配降下法の別の言葉です。別の投稿では、バニラ勾配降下、別名バッチ勾配降下、... 悲しいことに、バッチ勾配降下法について聞いたことがありません。ああ少年。誰かが「バニラ」の意味を明確にできますか、そしてそれに対してより確固たる数学的な定義があるかどうか。

12 machine-learning optimization terminology gradient-descent

4

尤度のない推論-それはどういう意味ですか？

最近、私は「可能性のない」方法が文学で取り残されていることに気づきました。ただし、推論または最適化の方法が尤度フリーであることの意味は明確ではありません。機械学習の目的は、通常、一部のパラメーターがニューラルネットワークの重みなどの関数に適合する可能性を最大にすることです。では、正確に尤度フリーのアプローチの哲学は何であり、なぜGANsのような敵対的なネットワークがこのカテゴリーに該当するのでしょうか？

11 machine-learning deep-learning maximum-likelihood generative-models abc

5

情報を借りるとはどういう意味ですか？

ベイジアン階層モデルでの情報の借用や情報の共有についてよく話します。これが実際に何を意味するのか、そしてそれがベイジアン階層モデルに固有のものであるのかどうかについて、正直な答えを得ることができないようです。私はある種のアイデアを得ました。階層内のいくつかのレベルは共通のパラメーターを共有しています。しかし、これが「情報の借用」にどのように変換されるのかはわかりません。「情報を借りる」/「情報を共有する」という言葉は人々が捨てたいと思う流行語ですか？この共有現象を説明する、閉じた形式の後継者の例はありますか？これはベイジアン分析に固有のものですか？一般に、「情報の借用」の例を見ると、それらは単なる混合モデルです。たぶん私は昔ながらの方法でこのモデルを学びました、しかし私はどんな共有も見ません。私は方法についての哲学的議論を始めることに興味はありません。この用語の使用に興味があります。

11 machine-learning bayesian multilevel-analysis terminology hierarchical-bayesian

3

空間の任意の点に向けてL2正則化を実装する方法は？

これは、Ian Goodfellowの本「Deep Learning」で読んだものです。ニューラルネットワークのコンテキストでは、「L2パラメータのノルムペナルティは一般的に重み減衰として知られています。この正則化戦略は、重みを原点に近づけます[...]。より一般的には、パラメータを任意の特定の点の近くに正則化できます空間内」ですが、モデルパラメータをゼロに向けて正則化するのがはるかに一般的です。（ディープラーニング、グッドフェロー他）気になるだけです。コスト関数に正則化項を追加するだけで、この合計コストJJJを最小化することで、モデルのパラメーターを小さく保つことができることを理解しています。 J(Θ,X,y)=L(Θ,X,y)+λ||w||22J(Θ,X,y)=L(Θ,X,y)+λ||w||22J(\boldsymbol{\Theta}, \boldsymbol{X}, \boldsymbol{y}) = L(\boldsymbol{\Theta}, \boldsymbol{X}, \boldsymbol{y}) + \lambda||\boldsymbol{w}||_{2}^{2} しかし、パラメーターを任意のポイントに導くこの正則化戦略のバージョンをどのように実装しますか？（たとえば、ノルムを5に向けたいとしましょう）

11 machine-learning neural-networks deep-learning regularization

4

人工ニューラルネットワークは、多項式機能を使用した線形回帰と同等ですか？

他の機械学習アルゴリズムと比較して、ニューラルネットワークとその利点の理解を深めたいです。私の理解は以下の通りであり、私の質問は：私の理解を訂正して補足していただけますか？:) 私の理解：（1）人工ニューラルネットワーク=入力値から出力値を予測する関数。Universal Approximation Theorem（https://en.wikipedia.org/wiki/Universal_approximation_theorem）によれば、十分なニューロンがあれば、通常は（予測どおりに動作するはずですが）可能な予測関数を使用できます。（2）入力値の多項式を追加の入力値として取る線形回帰の場合も同じです。これは、各関数を多項式で近似（テイラー展開と比較）できるためです。（3）これは、（ある意味では、可能な限り最良の結果に関して）、これらの2つの方法は同等であることを意味します。（4）したがって、それらの主な違いは、どの方法がより良い計算実装に適しているかにあります。言い換えると、トレーニングの例に基づいて、最終的に予測関数を定義するパラメーターのより高速な適切な値を、どの方法で見つけることができますか。私は私の考えを改善するために他のリンクや本へのどんな考え、コメントそして推薦も歓迎します。

11 regression machine-learning

1

平易な英語の変分推論

YouTubeで動画を視聴していて、変分推論とは何なのか本当に定義できないような気がします。ビデオ講義を見ながら手続きができます。しかし、実際には何であるかを定義するのは難しい。それについて聞いてほしい。

11 machine-learning mathematical-statistics data-mining

1

SVMの汎化限界

サポートベクターマシンの一般化能力の理論的な結果、たとえば分類エラーの確率やこれらのマシンのVapnik-Chervonenkis（VC）次元の限界に興味があります。しかし、文献を読んでいると、同じような定期的な結果の一部は著者間で、特に特定の拘束力を維持するために必要な技術的条件に関して、わずかに異なる傾向があるという印象を受けました。以下では、私は私が反復的に何らかの形で発見したことを主な汎化結果のSVMの問題と状態3の構造を思い出すだろう私は博覧会を通して、主に3つの参照を与えます。−−- 問題の設定：独立して同一に分布した（iid）ペアデータサンプルがあるとしますここで、すべての、と。、および定義される分離超平面間の最小マージンを最大化するサポートベクターマシン（SVM）を構築します、および間の最も近い点。これにより、および定義された2つのクラスが分離されます。SVMに、スラック変数を導入することにより、ソフトマージンを介していくつかのエラーを許可させます。(xi,yi)1≤i≤n(xi,yi)1≤i≤n(x_i,y_i)_{1\leq i\leq n}iiixi∈Rpxi∈Rpx_i \in \mathbb{R}^pyi∈{−1,1}yi∈{−1,1}y_i \in \{-1,1\}m∗m∗m^*{x:w⋅x+b=0}{x:w⋅x+b=0}\{x : w \cdot x + b = 0\}w∈Rpw∈Rpw \in \mathbb{R}^pb∈Rb∈Rb \in \mathbb{R}x1,⋯,xnx1,⋯,xnx_1,\cdots,x_ny=−1y=−1y = -1y=1y=1y = 1ξ1,⋯,ξnξ1,⋯,ξn\xi_1,\cdots,\xi_n −−-しかし、説明の便宜のために、我々はカーネルの可能性を無視します。解のパラメーターとは、次の凸2次最適化プログラムを解くことによって得られます。w∗w∗w^*b∗b∗b^* minw,b,ξ1,⋯,ξns.t.:12∥w∥2+C∑i=1nξiyi(w⋅xi+b)≥1−ξiξi≥0,∀i∈{1,⋯,n},∀i∈{1,⋯,n}minw,b,ξ1,⋯,ξn12‖w‖2+C∑i=1nξis.t.:yi(w⋅xi+b)≥1−ξi,∀i∈{1,⋯,n}ξi≥0,∀i∈{1,⋯,n}\begin{align} \min_{w, \, b, \, \xi_1, \, \cdots, \, \xi_n} \; & \; \frac{1}{2}\|w\|^2 + C\sum_{i=1}^n\xi_i \\ \text{s.t.} \; : \; & \; …

11 machine-learning svm vc-dimension

2

不確かなデータによる教師あり学習？

教師あり学習モデルを不確実なデータセットに適用するための既存の方法論はありますか？たとえば、クラスAおよびBのデータセットがあるとします。 +----------+----------+-------+-----------+ | FeatureA | FeatureB | Label | Certainty | +----------+----------+-------+-----------+ | 2 | 3 | A | 50% | | 3 | 1 | B | 80% | | 1 | 1 | A | 100% | +----------+----------+-------+-----------+ これで機械学習モデルをどのようにトレーニングできますか？ありがとう。

11 machine-learning supervised-learning

1

Kを大きく選択すると交差検定スコアが低下するのはなぜですか？

ボストン住宅データセットとRandomForestRegressor（デフォルトパラメータ付きの）scikit-learnで遊んでみて、奇妙なことに気付きました。フォールドの数を10を超えて増やすと、平均クロス検証スコアが減少しました。私のクロス検証戦略は次のとおりです。 cv_met = ShuffleSplit(n_splits=k, test_size=1/k) scores = cross_val_score(est, X, y, cv=cv_met) num_cvs変化したところ… 。k-fold CVのトレイン/テスト分割サイズの動作をミラーリングtest_sizeする1/num_cvsように設定しました。基本的に、k倍のCVのようなものが必要でしたが、ランダム性も必要でした（したがって、ShuffleSplit）。この試験を数回繰り返し、平均スコアと標準偏差をプロットしました。（のサイズはk円の面積で示されることに注意してください。標準偏差はY軸にあります。）一貫して、k（2から44に）増加すると、スコアが一時的に増加し、その後kさらに増加すると（〜10倍を超えて）、着実に減少します！どちらかと言えば、より多くのトレーニングデータがスコアのマイナーな増加につながることを期待します！更新絶対エラーを意味するようにスコアリング基準を変更すると、期待どおりの動作が得られます。スコアリングは、KフォールドCVのフォールド数を増やすと、0に近づくのではなく（デフォルトの ' r2 'のように）向上します。デフォルトのスコアリングメトリックの結果、フォールド数が増えると、平均メトリックとSTDメトリックの両方でパフォーマンスが低下するのはなぜですか。

11 machine-learning cross-validation random-forest sample-size scikit-learn

4

応用機械学習（ML自体だけでなく）について学ぶための良い例/本/リソース

私は以前にMLコースを受講しましたが、自分の仕事でML関連のプロジェクトに取り組んでいるため、実際にそれを適用するのにかなり苦労しています。私がやっていることは以前に調査/処理されたと確信していますが、特定のトピックを見つけることができません。私がオンラインで見つけた機械学習の例はすべて非常に単純です（たとえば、PythonでKMeansモデルを使用して予測を確認する方法）。これらを実際に適用する方法に関する優れたリソース、そしておそらく大規模な機械学習の実装とモデルトレーニングのコード例を探しています。MLアルゴリズムをより効果的にすることができる新しいデータを効果的に処理および作成する方法について学びたいです。

11 machine-learning references train application

2

残差ネットワークは勾配ブースティングに関連していますか？

最近、Residual Neural Netが登場しました。各レイヤーは、計算モジュールと、i番目のレイヤーの出力などのレイヤーへの入力を保持するショートカット接続で構成されています：ネットワークは、残差の特徴を抽出し、より深い深度を可能にすると同時に、消失する勾配の問題に対してより堅牢になり、最先端のパフォーマンスを実現します。y i + 1 = c i + y icicic_iyi+1=ci+yiyi+1=ci+yi y_{i+1} = c_i + y_i 機械学習の世界で非常に強力な技術である勾配ブースティングを掘り下げましたが、これも損失の残差に対して勾配の最適化の形式を実行しているようです。何らかの形の類似性を確認することは困難です。私はそれらが類似しているが同じではないことを知っています -私が気付いた1つの大きな違いは、残差ネットがネットワーク全体を最適化する一方で、勾配ブースティングが加法項で最適化を実行することです。彼が元の論文で彼らの動機の一部としてこれに言及しているのを見なかった。だから私はこのトピックに関するあなたの洞察は何であるかと思っていて、あなたが持っている興味深いリソースを共有するようにお願いしました。ありがとうございました。

11 machine-learning neural-networks deep-learning gradient-descent residual-networks

1

バッチ正規化を注意深く行う必要がある理由の例の説明は何ですか？

私はバッチ正規化ペーパー [1]を読んでいて、正規化を慎重に行う必要がある理由を示すために、例を示すセクションが1つありました。正直なところ、この例がどのように機能するのか理解できません。私ができる限り彼らの論文を理解することに本当に興味があります。最初にここで引用させてください：たとえば、学習バイアスbを追加し、トレーニングデータに対して計算されたアクティベーションの平均を減算することによって結果を正規化する入力uを含むレイヤーを考えます。ここで、はトレーニングセットのの値のセットであり、です。勾配降下工程は、の依存性は無視された場合はで、それが更新され、。次に、です。したがって、への更新の組み合わせx^=x−E[x]x^=x−E[x]\hat{x} = x − E[x]x=u+b,X={x1...N}x=u+b,X={x1...N}x=u+b, X =\{x_1...N \}xxxE[x]=∑Ni=1xiE[x]=∑i=1NxiE[x] = \sum^N_{i=1} x_iE[x]E[x] E[x] bbbb←b+Δ>bb←b+Δ>bb ← b + \Delta > bΔb∝−∂l∂x^Δb∝−∂l∂x^\Delta b \propto -\frac{\partial l}{\partial \hat{x}} u+(b+Δb)−E[u+(b+Δb)]=u+b−E[u+b]u+(b+Δb)−E[u+(b+Δb)]=u+b−E[u+b]u+(b+\Delta b)−E[u+(b+\Delta b)] = u+b−E[u+b]bbb その後の正規化の変更により、レイヤーの出力も変更されず、その結果、損失も発生しませんでした。私はメッセージを理解していると思います。正規化を適切に行わなければ、それは悪いことです。彼らが使用している例がこれをどのように描写しているかは私にはわかりません。困惑している点について具体的に説明していないと、誰かを助けるのは難しいことは承知しているので、次のセクションで、説明について混乱していることを説明します。私の混乱のほとんどは表記法かもしれないと思うので、はっきりさせておきます。まず、筆者を混乱させるものの1つは、著者がネットワーク内にユニットを持つことの意味と、アクティベーションとは何かです。通常、アクティベーションは次のように考えます。 x(l)=a(l)=θ(z(l))=θ(⟨w(l),x(l−1)⟩+b(l))x(l)=a(l)=θ(z(l))=θ(⟨w(l),x(l−1)⟩+b(l)) x^{(l)} = a^{(l)} = \theta(z^{(l)}) = \theta( \langle w^{(l)}, x^{(l-1)} \rangle + …

11 machine-learning neural-networks conv-neural-network

1

AlphaGoのペーパーのロールアウトポリシーとは何ですか？

論文はこちらです。ロールアウトポリシー...は、高速でインクリメンタルに計算されたローカルパターンベースの機能に基づく線形のソフトマックスポリシーです... ロールアウトポリシーとは何か、およびそれが移動を選択するポリシーネットワークとどのように関連するのかわかりません。簡単な説明はありますか？

11 machine-learning monte-carlo reinforcement-learning games

1

SVMと比較してサポートベクター回帰はどのように異なりますか？

私はSVMとSVRの基本を知っていますが、マージンを最大にする超平面を見つける問題がSVRにどのように当てはまるのかわかりません。次に、SVRの許容範囲として使用されるについて読みました。どういう意味ですか？ϵϵ\epsilon 3番目に、SVMとSVRで使用される決定関数パラメーターに違いはありますか？

11 regression machine-learning svm

3

相互作用は回帰のコンテキストでのみ有用ですか？

私は常に、回帰という文脈で相互作用という用語を読みました。また、knnやsvmなどの異なるモデルとの相互作用も考慮する必要がありますか？ある場合は、またはさらに多くの機能をしてすることができます言う便利な相互作用を見つけるための通常の方法は何か観測を？すべての組み合わせを試しますか？または、意味のある組み合わせのみを使用しますか？100 1000505050100100100100010001000

11 machine-learning interaction terminology

タグ付けされた質問 「machine-learning」

タグ付けされた質問「machine-learning」