統計とビッグデータ

4

時系列データに適用されるさまざまなリカレントニューラルネットワーク（RNN）アーキテクチャを理解しようとしていますが、RNNを説明するときによく使用されるさまざまな名前と少し混同されています。Long Short Term Memory（LSTM）とGated Recurrent Unit（GRU）の構造は、基本的にフィードバックループを備えたRNNですか？

19 neural-networks lstm rnn

3

どのよう、極性分散、座標がと？

ランダムポイントのデカルト座標の座標を選択しますst。x 、yバツ、yx,y（x 、y）〜U（− 10、10 ）× U（− 10 、10 ）（バツ、y）〜うん（−10、10）×うん（−10、10）(x,y) \sim U(-10,10) \times U(-10,10) したがって、半径、のpdfが示すように均一に分布していません。 ρρ = x2+ y2−−−−−−√ρ=バツ2+y2\rho = \sqrt{x^2 + y^2}ρρ\rho それにもかかわらず、私はがほぼ均一であることを期待し、エッジの4つの残り物によるアーティファクトを除きます。θ = arctanyバツθ=アークタン⁡yバツ\theta = \arctan{\frac{y}{x}} 以下は、\ thetaおよび\ rhoの確率論的に計算された確率密度関数です。 θθ\thetaρρ\rho ここで、 stに分布させると、は均一に分布しているように見えます。、X 、Y 〜N （0 、20 2）× N （0 、20 2）θx 、yバツ、yx,yx 、y〜N（0 、202）×N（0 、202）バツ、y〜N（0、202）×N（0、202）x,y \sim N(0,20^2)\times N(0,20^2)θθ\theta なぜはで均一ではなく、均一であるの？（X …

19 normal-distribution matlab pdf uniform

1

分散の反意語

「分散の逆数」を意味する言葉はありますか？つまり、分散が大きい場合、は低くなりますか？近い反意語（「同意」や「類似性」など）には興味がありませんが、具体的には意味しますか？バツバツXバツバツX……\dots1 / σ21/σ21/\sigma^2

19 bayesian variance terminology precision

5

名前に含まれるもの：ハイパーパラメーター

したがって、正規分布では、平均と分散つのパラメーターがあります。本「パターン認識と機械学習」では、エラー関数の正則化項にハイパーパラメーターが突然現れます。μμ\muσ2σ2\sigma^2λλ\lambda ハイパーパラメーターとは何ですか？なぜそのような名前が付けられているのですか？そして、それらは一般的にパラメーターとどのように直感的に異なっていますか？

19 terminology definition parameterization hyperparameter

3

最初に何を教える必要があります：確率または統計？

私は新しく数学部に教員として参加しました。評判の高い機関の。学部レベルで確率と統計のコースを教えます。施設にはすでにこのコースのシラバスがあり、私はあまり満足していません。そのシラバスでは、統計が最初に扱われ、推定部分も欠落しています。統計を教える前に、確率の基礎を教えるべきだといつも思っていました。誰かがこれについて意見を述べることはできますか？また、そのようなコースでカバーされるべきトピックの提案も大歓迎です。

19 teaching

3

スキップグラムは、まれな単語に対してCBOWよりも優れているのはなぜですか？

word2vecのCBOWよりも、まれな単語に対してskip-gramの方が優れているのはなぜでしょうか。https://code.google.com/p/word2vec/で申し立てを読みました。

19 natural-language word2vec word-embeddings

2

予測ではなくモデリングのみに関心がある場合、正則化は役立ちますか？

予測や予測ではなく、モデルパラメーターの推定（および解釈）のみに関心がある場合、正則化は役立ちますか？あなたの目標が新しいデータの良い予測をすることである場合、正則化/相互検証が非常に有用であることがわかります。しかし、伝統的な経済学をやっていて、見積もるだけなら、どうでしょうか？クロスバリデーションもそのコンテキストで役立ちますか？概念的な難易私の闘争は、我々が実際に計算できるということであるL （ Y 、Y）試験データに、しかし、我々はできる計算決してL （ β 、β）真ため、βが観測されたことがない定義です。（真のβさえ存在すると仮定してくださいββ\betaL(Y,Y^)L(Y,Y^)\mathcal{L}\left(Y, \hat{Y}\right)L(β,β^)L(β,β^)\mathcal{L}\left(\beta, \hat{\beta}\right)ββ\betaββ\beta、つまり、データが生成されたモデルのファミリーを知っていること。）あなたの損失があると仮定。バイアスと分散のトレードオフに直面していますよね？そのため、理論的には、いくつかの正則化を行う方が良いかもしれません。しかし、どのようにして正則化パラメーターを選択できますか？L(β,β^)=∥β−β^∥L(β,β^)=‖β−β^‖\mathcal{L}\left(\beta, \hat{\beta}\right) = \lVert \beta - \hat{\beta} \rVert 私は、係数を持つ線形回帰モデルの簡単な数値例を参照させていただき研究者の損失関数は、例えばある、‖ β - βを ‖でも、またはちょうど（β 1 - β 1 ）2。実際には、これらの例で予想される損失を改善するために相互検証をどのように使用できますか？β≡(β1,β2,…,βk)β≡(β1,β2,…,βk)\beta \equiv (\beta_1, \beta_2, \ldots, \beta_k)∥β−β^∥‖β−β^‖\lVert \beta - \hat{\beta} \rVert(β1−β^1)2(β1−β^1)2(\beta_1 - \hat{\beta}_1)^2 編集：DJohnson は、この質問に関連するhttps://www.cs.cornell.edu/home/kleinber/aer15-prediction.pdfを指摘してくれました。著者はそれを書く技術を機械学習...予測する統制のとれた方法で提供さ Y（i）は、バイアス・分散トレードオフを作る方法を決定するためにデータ自体を使用し、及び（ii）の変数の非常に豊富なセットを介して検索を可能にし、機能フォーム。しかし、すべてはコストがかかります。一つは、常に彼らが調整されているので、ことを心に留めておく必要がありY 、彼らは（他の多くの仮定なし）のために非常に便利な保証を与えていませんβ。Y^Y^\hat{Y}Y^Y^\hat{Y}β^β^\hat{\beta} 別の関連する紙、再びDJohnsonのおかげ： http://arxiv.org/pdf/1504.01132v3.pdf。このペーパーは、私が上記で苦労していた質問に対処します。 ...既成の回帰ツリーなどの機械学習法を因果推論の問題に適用する際の基本的な課題は、交差検証に基づく正則化アプローチは通常、「グラウンドトゥルース」、つまり実際の結果の観察に依存することです。交差検定サンプル。しかし、治療効果の平均二乗誤差を最小化することが目標である場合、[11]が「因果推論の根本的な問題」と呼ぶものに遭遇します。因果効果は個々のユニットで観察されないため、直接真実があります。治療の因果効果の平均二乗誤差の不偏推定値を構築するためのアプローチを提案することにより、これに対処します。

19 cross-validation econometrics model-selection interpretation regularization

2

なぜ、最尤推定frequentist技術と考えられています

私にとって頻繁な統計は、可能なすべてのサンプルに適した決定を下そうとすることと同義です。すなわち、frequentist決定規則常に損失関数に依存frequentistリスク最小化するようにしてくださいLと自然の真の状態θ 0：δδ\deltaLLLθ0θ0\theta_0 Rfreq=Eθ0(L(θ0,δ(Y))Rfreq=Eθ0(L(θ0,δ(Y))R_\mathrm{freq}=\mathbb{E}_{\theta_0}(L(\theta_0,\delta(Y)) 最尤推定は、頻繁なリスクにどのように関連していますか？頻繁に使用されるポイント推定手法であるため、何らかの接続が必要です。私が知る限り、最尤推定は頻度主義的リスクの概念よりも古いですが、それでも他の多くの人々がそれが頻度主義的手法であると主張する理由がいくつかあるはずです。私が見つけた最も近い接続は「弱い規則性条件を満たすパラメトリックモデルの場合、最尤推定量はほぼミニマックスです」Wassermann 2006、p。201 " 受け入れられた回答は、最尤点推定を頻度論的リスクに強くリンクするか、MLEが頻度論的推論手法であることを示す頻度論的推論の代替の正式な定義を提供します。

19 maximum-likelihood frequentist

1

分類手法であるLDAがPCAのような次元削減手法としてどのように機能するか

この記事では、著者は線形判別分析（LDA）を主成分分析（PCA）にリンクします。私の知識が限られているため、LDAがPCAといくぶん類似していることを理解することはできません。 LDAは、ロジスティック回帰と同様の分類アルゴリズムの一種であると常に考えてきました。LDAがPCAにどのように似ているか、つまり、次元削減手法であるLDAがどのように理解されているかを理解する上で、私はいくらか感謝します。

19 classification pca dimensionality-reduction discriminant-analysis canonical-correlation

8

なぜ分散は、互いに続くすべての値の差として定義されないのですか？

これは多くの人にとって簡単な質問かもしれませんが、ここにあります：なぜ分散は、値の平均との差ではなく、互いに続くすべての値の差として定義されないのですか？これは私にとってより論理的な選択です。私は明らかにいくつかの欠点を監督していると思います。ありがとう編集：可能な限り明確に言い替えさせてください。これは私が意味するものです：順序付けられた番号の範囲があると仮定します：1,2,3,4,5 （平均を使用せずに）値の間の（絶対）差を計算し、合計します（連続的に、ペアごとではなく、次の値ごとに）。差異の数で除算する（フォローアップ：番号が順序付けられていない場合、答えは異なりますか？） ->分散の標準式と比較して、このアプローチの欠点は何ですか？

19 variance

5

基本的な機械学習アルゴリズムを学習するための優れたデータセットは何ですか？その理由は何ですか？

私は機械学習が初めてであり、さまざまな機械学習アルゴリズム（デシジョンツリー、ブースティング、SVM、ニューラルネットワーク）の違いを比較対照できるデータセットを探していますそのようなデータセットはどこにありますか？データセットを検討する際に何を探す必要がありますか？いくつかの優れたデータセットを指し示し、それらを優れたデータセットにする理由を教えていただければ素晴らしいと思いますか？

19 machine-learning dataset

2

ブースティング：学習率が正則化パラメーターと呼ばれるのはなぜですか？

学習率パラメータ（収縮を直列に追加され-typically浅いのTREE-各新しいベースモデルの寄与を昇圧勾配）。テストセットの精度が劇的に向上することが示されました。これは、より小さなステップで、損失関数の最小値をより正確に達成できるためです。 ν∈ [ 0 、1 ]ν∈[0,1]\nu \in [0,1] なぜ学習率が正則化パラメーターと見なされるのかわかりませんか？統計学習の要素の引用、セクション10.12.1、p.364：可能な正則化戦略は、木の数の制御だけではありません。リッジ回帰およびニューラルネットワークと同様に、収縮手法も使用できます。値が小さい（収縮が大きい）と、同じ反復回数トレーニングリスクが大きくなります。したがって、と両方がトレーニングデータの予測リスクを制御します。M ν Mνν\nuMMMνν\nuMMM 正則化とは「過適合を回避する方法」を意味するため、その点で反復回数が重要であることは明らかです（Mが大きすぎると過適合になります）。しかし：MMMMMM 値が小さい（収縮が大きい）と、同じ反復回数Mのトレーニングリスクが大きくなります。νν\nuMMM これは、学習率が低い場合、トレーニングセットで同じ精度を実現するにはより多くの反復が必要であることを意味します。それで、それはどのように過適合に関係しますか？

19 machine-learning data-mining predictive-models boosting overfitting

1

サブジェクト（デュアル）スペースでのPCAの幾何学的理解

私は、主成分分析（PCA）がサブジェクト（デュアル）スペースでどのように機能するかを直感的に理解しようとしています。 2つの変数と、およびデータポイント（データ行列はあり、中心にあると想定される）を含む2Dデータセットを考えます。PCAの通常の表現は、点を考慮し、共分散行列を書き留め、その固有ベクトルと固有値を見つけることです。最初のPCは最大分散の方向などに対応します。これは共分散行列です。赤い線は、それぞれの固有値の平方根でスケーリングされた固有ベクトルを示しています。x1x1x_1x2x2x_2nnnXX\mathbf Xn×2n×2n\times 2nnnR2R2\mathbb R^22×22×22\times 2C=(4222)C=(4222)\mathbf C = \left(\begin{array}{cc}4&2\\2&2\end{array}\right) \hskip 1in 次に、デュアルスペース（機械学習で使用される用語）とも呼ばれる、対象空間（@ttnphnsからこの用語を学びました）で何が起こるかを考えます。これは、2つの変数のサンプル（ 2列）が2つのベクトルおよび形成する次元空間です。各可変ベクトルの長さの2乗はその分散に等しく、2つのベクトル間の角度のコサインはそれらの間の相関に等しくなります。ちなみに、この表現は重回帰の処理において非常に標準的です。私の例では、対象空間は次のようになります（2つの変数ベクトルにまたがる2D平面のみを表示しています）。X x 1 x 2nnnXX\mathbf Xx1x1\mathbf x_1x2x2\mathbf x_2 \hskip 1in 2つの変数の線形結合である主成分は、同じ平面で2つのベクトルおよびします。私の質問は、そのようなプロットで元の変数ベクトルを使用して主成分変数ベクトルを形成する方法の幾何学的な理解/直感は何ですか？と与えられた場合、を生成する幾何学的な手順は何ですか？p 2 x 1 x 2 p 1p1p1\mathbf p_1p2p2\mathbf p_2x1x1\mathbf x_1x2x2\mathbf x_2p1p1\mathbf p_1 以下は私の現在の部分的な理解です。まず、標準的な方法で主成分/軸を計算し、同じ図にプロットします。 \hskip 1in また、は、（青いベクトル）と上の投影の距離の二乗の合計が最小になるように選択されていることに注意できます。これらの距離は再構成エラーであり、黒い破線で示されています。同様に、は、両方の投影の長さの2乗の合計を最大化します。これは、を完全に指定し、もちろん、プライマリ空間での同様の説明に完全に類似しています（主成分分析、固有ベクトル、固有値の理解に対する私の回答のアニメーションを参照）。こちらの@ttnphnsの回答の最初の部分もご覧ください。x i p 1 p 1 p 1p1p1\mathbf p_1xixi\mathbf x_ip1p1\mathbf p_1p1p1\mathbf …

19 pca linear-algebra intuition geometry

1

線形回帰での循環予測子の使用

風のデータ（0、359）と時刻（0、23）を使用してモデルを近似しようとしていますが、線形パラメーターではないため、線形回帰にうまく適合しないことが心配です。Pythonを使用してそれらを変換したいと思います。少なくとも風の場合には、度のsinとcosを使用してベクトル平均を計算することについて言及しましたが、全体ではありません。役立つかもしれないPythonライブラリまたは関連するメソッドはありますか？

19 regression python circular-statistics

3

ニューラルネットワークにおけるバイアスノードの重要性

最近のニューラルネットワークの有効性にとって、バイアスノードがどれほど重要かを知りたいです。入力変数が少ない浅いネットワークでは重要になることが簡単に理解できます。ただし、ディープラーニングなどの最新のニューラルネットには、特定のニューロンがトリガーされるかどうかを決定するための入力変数が多数あることがよくあります。LeNet5やImageNetなどから単純に削除すると、実際に影響がありますか？

19 neural-networks deep-learning bias-node