統計とビッグデータ

3

私は非線形分類モデルの数学的な意味を理解しようとしています：ニューラルネットが非線形分類モデルであるという記事を読んだばかりです。しかし、私はちょうどそれを理解しています：最初の層： h1=x1∗wx1h1+x2∗wx1h2h1=x1∗wx1h1+x2∗wx1h2h_1=x_1∗w_{x1h1}+x_2∗w_{x1h2} h2=x1∗wx2h1+x2∗wx2h2h2=x1∗wx2h1+x2∗wx2h2h_2=x_1∗w_{x2h1}+x_2∗w_{x2h2} 次の層 y=b∗wby+h1∗wh1y+h2∗wh2yy=b∗wby+h1∗wh1y+h2∗wh2yy=b∗w_{by}+h_1∗w_{h1y}+h_2∗w_{h2y} に簡略化できます =b'+(x1∗wx1h1+x2∗wx1h2)∗wh1y+(x1∗wx2h1+x2∗wx2h2)∗wh2y=b′+(x1∗wx1h1+x2∗wx1h2)∗wh1y+(x1∗wx2h1+x2∗wx2h2)∗wh2y=b′+(x_1∗w_{x1h1}+x_2∗w_{x1h2})∗w_{h1y}+(x_1∗w_{x2h1}+x_2∗w_{x2h2})∗w_{h2y} = b ' + x1（wh 1 y* wx 1 時間1+ wx 2 時間1* wh 2 y）+ x2（wh 1 y* wx 1 時間1+ wx 2 時間2* wh 2 y）=b′+x1(wh1y∗wx1h1+wx2h1∗wh2y)+x2(wh1y∗wx1h1+wx2h2∗wh2y)=b′+x_1(w_{h1y}∗w_{x1h1}+w_{x2h1}∗w_{h2y})+x_2(w_{h1y}∗w_{x1h1}+w_{x2h2}∗w_{h2y}) 2層ニューラルネットワークは単純な線形回帰です = b′+ x1* W′1+ x2* W′2=b′+x1∗W1′+x2∗W2′=b^′+x_1∗W_1^′+x_2∗W_2^′ これは、任意の数の重みの線形結合が再び線形であるため、任意の数のレイヤーに表示できます。ニューラルネットを実際に非線形分類モデルにするものは何ですか？アクティベーション関数は、モデルの非線形性にどのように影響しますか？説明して頂けますか？

18 neural-networks nonlinear-regression nonlinear

4

統計では、がまたは自然対数

私は統計を勉強していて、logそれを含む式に出くわすことがよくあり、それを標準の意味log、つまり10進数として解釈する必要がある場合、または統計で記号log が一般に自然対数であると想定される場合、常に混乱しますln。特に、私はグッドチューリング周波数推定を例として研究していますが、私の質問はより一般的なものです。

18 mathematical-statistics notation logarithm

1

* 100万*の係数/独立変数を使用して多変量回帰分析を実際に実行しますか？

私は機械学習の学習に少し時間を費やしています（再帰はごめんなさい:)、多変量線形回帰の場合、回帰係数を計算するための直接方程式の解法よりも勾配降下法を選択するという経験則に興味をそそられることはありませんでした。経験則：特徴の数は、（係数/独立変数を読み取る）の間にある場合又は百万を超えると、勾配降下で行く、計算逆他の行列は汎用ハードウェア上でかなり扱いであり、したがって、コンピューティング係数は直接十分に機能するはずです。10 、000 - 1 、000 、00010、000−1、000、00010,000 - 1,000,000 計算上言えば、トレードオフ/制限があります。しかし、統計的な観点から、これほど多くの係数を持つモデルを実際に計算できますか？大学院の多変量線形回帰クラスを覚えている場合、独立変数は従属変数に非常に無視できる影響を与えるか、その分布がデータについての仮定に従わない可能性があるため、あまり多くの独立変数を使用しないように注意しました。「多くのIV」を考えるように心を広げたとしても、何百万も考えたことはありませんでした。質問：これは本当に起こりますか、それとも理論的な問題ですか？ 100万個のIVを分析する意味は何ですか？情報を無視するのではなく、得られる情報の価値を大幅に高めることができますか？それとも、最初は何が役に立つのかわからないので、いまいましい回帰を実行して何が役に立つかを確認し、そこから行ってIVのセットをプルーニングするだけでしょうか？「すべて」を分析できるからといって、それをソルバーに投げ込む（または実行する）ことを意味するわけではなく、過去の質問のいくつかが同様のPOVを反映しているからです。私はまだコースを終えておらず、すぐに質問をするかもしれませんが、この「なぜ」思考を頭から外すことができず、私の能力を最大限に理解しようとしています。

18 machine-learning multiple-regression large-data

4

通常の最小二乗法がポアソン回帰よりも優れているのはなぜですか？

私は、都市の各地区における殺人の数を説明する回帰を当てはめようとしています。私のデータはポアソン分布に従うことがわかっていますが、次のようにOLSを近似しようとしました。 L O G（y+ 1 ）= α + βバツ+ ϵlog（y+1）=α+βバツ+ϵlog(y+1) = \alpha + \beta X + \epsilon 次に、（もちろん！）ポアソン回帰も試しました。問題は、OLS回帰の結果が優れていることです。疑似は高く（0.71対0.57）、RMSEも同じです（3.8対8.88。同じ単位を持つように標準化されています）。R2R2R^2 どうして？普通ですか？データの分布が何であれ、OLSを使用することの何が問題になっていますか？編集 kjetil b halvorsenなどの提案に従って、OLSとNegative Binomial GLM（NB）の2つのモデルでデータを適合させました。私が持っているすべての機能から始め、重要ではない機能を1つずつ再帰的に削除しました。OLSは C R Iは、mは電子のa r e a−−−−√= α + βバツ+ ϵcr私mearea=α+βバツ+ϵ\sqrt{\frac{crime}{area}} = \alpha + \beta X + \epsilon weights =。a r e aareaarea summary(w <- lm(sqrt(num/area) …

18 regression least-squares poisson-regression

4

カイ二乗距離を使用した2つのヒストグラムの比較

顔の2つの画像を比較したい。LBPヒストグラムを計算しました。そこで、これら2つのヒストグラムを比較して、これらのヒストグラムがどれだけ等しいか（0〜100％）を知る必要があります。このタスクを解決する方法は数多くありますが、LBPメソッドの著者は、ヒストグラムの交差および対数尤度統計よりもカイ二乗距離の方がパフォーマンスが優れていることを強調しています（ローカルバイナリパターンによる顔の説明：顔認識への応用。2004）。著者は、カイ二乗距離の式も示しています。 ∑i=1n(xi−yi)2(xi+yi)∑i=1n(xi−yi)2(xi+yi) \sum_{i=1}^{n} \cfrac{(x_i - y_i)^2} {(x_i + y_i)} ここで、はビンの数、は最初のビンの値、は2番目のビンの値です。x i y innnxixix_iyiyiy_i いくつかの研究（たとえば、二次-チーヒストグラム距離ファミリ）で、カイ-二乗距離の公式は次のようになっています。 12∑i = 1n（x私− y私）2（x私+ y私）12∑i=1n(xi−yi)2(xi+yi) \cfrac{1}{2}\sum_{i=1}^{n} \cfrac{(x_i - y_i)^2} {(x_i + y_i)} そして、そこhttp://www.itl.nist.gov/div898/handbook/eda/section3/eda35f.htm私は、カイ二乗距離の式を参照してください。 ∑i = 1n（x私− y私）2y私∑i=1n(xi−yi)2yi \sum_{i=1}^{n} \cfrac{(x_i - y_i)^2} {y_i} 私はそれにこだわった。いくつか質問があります。どの表現を使用すべきですか？差異の結果をどのように解釈すればよいですか？差が0であるということは、両方のヒストグラムが等しいことを意味しますが、両方のヒストグラムがまったく異なる場合はどうすればわかりますか？カイ二乗テーブルを使用する必要がありますか？または、しきい値を使用する必要がありますか？基本的に、差をパーセントにマッピングしたいです。これら3つの式が異なる理由

18 chi-squared histogram image-processing

5

エフェクトサイズとは何ですか？なぜそれがさらに便利なのですか？

私は、大学院レベルの入門的な統計の背景を持っています（学部レベルで数学的統計と確率を知っていると仮定し（例えば、Wackerly et al。、Ross 'Probability）、測定理論の知識があります）。私は最近、教育統計で実験計画と統計報告を行う仕事を始めました。そして、基本的に学校の説明責任の指標を評価し、データを分析し、変更を提案するなどのプロジェクトに参加しました。数学統計のバックグラウンドを持つ私の部門の1つ。私の立場では、人々はプログラムの効果を測定するために効果サイズを使用することを強く提案しています。エフェクトサイズについて聞いたことがあるのは、心理学を勉強していた友人からです。私の印象では、効果サイズ= 平均の差標準偏差。効果の大きさ=手段の違い標準偏差。\text{Effect Size} = \dfrac{\text{Difference of Means}}{\text{Standard Deviation}}\text{.} 従来の仮説検定に比べて、このメトリックについて何がそんなに便利なのか、なぜ気にする必要があるのか？私にとっては、2サンプルのt検定の検定統計量に過ぎませんttt。おそらくすべてを同じスケールにすること（これはだれかが実際に「正規化」する理由です）を除けば、これはまったく有用ではありませんが、テスト統計（これはエフェクトサイズのように思えます）は時代遅れであると思いました、およびppp値が推奨されます。

18 effect-size group-differences

1

二次モーメント法、ブラウン運動？

してみましょう標準ブラウン運動すること。LET示すイベントがおよびします。1はインジケーター関数を示します。\ mathbb {P} \ {K_n \ ge \ rho2 ^ {n} \} \ ge \ rho for all nのような\ rho> 0が存在しますか？答えはイエスだと思う。二次モーメント法をいじってみましたが、あまり役に立ちません。これは、セカンドモーメント法で表示できますか？または、私は何か他のものを試してみるべきですか？E j 、n { B t = 0 いくつかの j − 1BtBtB_tEj,nEj,nE_{j, n}K、N=22NΣJ=2N+11のEjを、nは、1ρ>0P{KN≥ρ2N}≥ρnは{Bt=0 for some j−12n≤t≤j2n},{Bt=0 for some j−12n≤t≤j2n},\left\{B_t = 0 \text{ for some }{{j-1}\over{2^n}} \le t \le {j\over{2^n}}\right\},Kn=∑j=2n+122n1Ej,n,Kn=∑j=2n+122n1Ej,n,K_n = …

18 probability self-study moments distributions brownian

2

PCA、LASSO、エラスティックネットの速度、計算費用

Hastie et al。で区別されている線形回帰の3つのグループの方法の計算の複雑さ/推定速度を比較しようとしています。「統計学習の要素」（第2版）、第3章：サブセット選択収縮方法導出された入力方向を使用する方法（PCR、PLS）比較は非常に大雑把なものであり、単に考えを与えるだけです。答えは問題の次元とそれがコンピューターアーキテクチャにどのように適合するかに依存する可能性があるため、具体的な例としては、500および50の候補回帰子のサンプルサイズを考慮することができます。私は主に、計算の複雑さ/推定速度の背後にある動機付けに興味がありますが、特定の例で特定のプロセッサにかかる時間には興味がありません。

18 machine-learning estimation feature-selection algorithms time-complexity

1

モデル選択のパラドックス（AIC、BIC、説明するか予測するか？）

Galit Shmueliの「説明するか予測するか」（2010年）を読んで、私は明らかな矛盾に困惑しています。3つの施設がありますが、 AICベースとBICベースのモデル選択（p。300の終わり-p。301の始まり）：簡単に言えば、AICは予測を目的としたモデルの選択に使用し、BICは説明用のモデルの選択に使用する必要があります。さらに（上記の論文ではありません）、いくつかの条件下では、BIC は候補モデルのセットの中から真のモデルを選択することを知っています。真のモデルは、説明的モデリングで求めているものです（p。293の終わり）。単純な算術：AICは、サイズ8以上のサンプルに対してBICよりも大きなモデルを選択します AICとBICの複雑さのペナルティが異なるため、を満たし）。ln （n ）> 2ln（n）>2\text{ln}(n)>2 「真」のモデル（すなわち、正しい説明変数と正しい機能的な形でモデルが、不完全推定された係数）は、予測のために最良のモデル（P 307）ではないかもしれない：行方不明の予測と回帰モデルは、より良い予測モデルもあり-予測子の欠落によるバイアスの導入は、推定の不正確さによる分散の減少によって相殺される場合があります。ポイント1と2は、より節約的なモデルよりも大きなモデルの方が予測に適している可能性があることを示唆しています。一方、ポイント3は、より控えめなモデルのほうが大きなモデルよりも予測に適しているという反対の例を示しています。これは不可解です。質問：ポイント間の明らかな矛盾{1。および2.}および3.説明/解決されますか？ポイント3に照らして、AICによって選択されたより大きなモデルが、BICによって選択されたよりpar約的なモデルよりも実際に予測に優れている理由と方法について直感的に説明できますか？

18 forecasting model-selection feature-selection aic bic

2

ポアソンモデルでは、時間を共変量またはオフセットとして使用することの違いは何ですか？

最近、時間のログをポアソン回帰のオフセットとして使用して、時間の経過に伴う露出をモデル化する方法を発見しました。オフセットは、係数1と共変量として時間を持つことに対応することを理解しました。時間をオフセットとして使用するか、通常の共変量として使用するか（そのため係数を推定する）の違いをよりよく理解したいと思います。どの状況で、どちらの方法を使用する必要がありますか？アップグレード：面白いかどうかわかりませんが、ランダムに分割されたデータを500回繰り返して使用して2つの方法の検証を実行し、オフセット方法を使用するとテストエラーが大きくなることに気付きました。

18 poisson-regression predictor offset

4

データをトレーニングセットとテストセットに分割するだけでは不十分な理由

分類器のパフォーマンスにアクセスするには、データをトレーニング/テストセットに分割する必要があることを知っています。しかし、これを読んで： SVM用に手動で設定する必要があるC設定など、推定器のさまざまな設定（「ハイパーパラメーター」）を評価する場合、推定器が最適に実行されるまでパラメーターを微調整できるため、テストセットでオーバーフィットするリスクが依然としてあります。この方法では、テストセットに関する知識がモデルに「漏れ」、評価メトリックが一般化パフォーマンスについてレポートしなくなります。この問題を解決するために、データセットのさらに別の部分をいわゆる「検証セット」として保持することができます。トレーニングはトレーニングセットで進行し、その後検証セットで評価が行われ、実験が成功したと思われる場合、テストセットで最終評価を行うことができます。ハイパーパラメーターの調整中にテストセットをオーバーフィットすることで正当化される、別の（3番目の）検証セットが導入されていることがわかります。問題は、この過剰適合がどのように表示されるかを理解できないため、3番目のセットの正当性を理解できないことです。

18 machine-learning cross-validation

4

場合、従属確率変数の積の期待値

ましょうと、。期待は何ですかなど？X I〜U [ X I - 1、1 ] I = 2 、3 、。。。X 1 X 2 ⋯ X n n → ∞X1∼U[0,1]X1∼U[0,1]X_1 \sim U[0,1]Xi∼U[Xi−1,1]Xi∼U[Xi−1,1]X_i \sim U[X_{i - 1}, 1]i=2,3,...i=2,3,...i = 2, 3,...X1X2⋯XnX1X2⋯XnX_1 X_2 \cdots X_nn→∞n→∞n \rightarrow \infty

18 mathematical-statistics random-variable expected-value

3

単位根のないシリーズが非定常である素晴らしい例？

拡張されたDickey-Fullerテストでnullを拒否する人が数回いるのを見て、シリーズが静止していることを主張しています（残念ながら、これらの主張の出所を示すことはできませんが、 1つまたは別のジャーナル）。私はそれが誤解であると主張します（ユニットルートのヌルの拒否は、特にそのようなテストが行われたときに非定常性の代替形式がめったに調査または検討さえされないため、必ずしも定常級数を持つことと同じではありません）。私が求めるのは次のいずれかです。 a）主張に対する良い明確な反例（私は今、カップルを想像することができますが、私以外の誰かが私が考えているものよりも良いものを持っていると確信しています）。おそらくデータ（シミュレーションまたは実物。両方とも利点があります）を使用した特定の状況の説明です。または b）増強されたディッキーフラーでの拒絶が定常性の確立と見なされるべきである理由を説得力のある議論（または、（a）と（b）の両方が賢いと感じている場合）

18 time-series unit-root stationarity augmented-dickey-fuller

1

チートシートANOVAアルファベットのスープと回帰の同等物

この暫定的な（進行中の）試みをANOVAおよび回帰に相当するものにしようとする試みを完了するのを手伝ってもらえますか？私はこれら2つの方法論の概念、命名法、構文を調和させようと試みてきました。このサイトには、その共通性に関する多くの投稿があります。たとえばthisまたはthisです。しかし、開始時に簡単な "you are here"マップを用意しておくとよいでしょう。私はこの投稿を更新する予定であり、間違いを修正するのに役立つことを望んでいます。一元配置分散分析： Structure: DV is continuous; IV is ONE FACTOR with different LEVELS. Scenario: miles-per-gal. vs cylinders Note that Income vs Gender (M, F) is a t-test. Syntax: fit <- aov(mpg ~ as.factor(cyl), data = mtcars); summary(fit); TukeyHSD(fit) Regression: fit <- lm(mpg ~ as.factor(cyl), mtcars) # …

18 regression anova mixed-model

2

独立成分分析の意味を理解する

主成分分析の意味を理解するという質問を見て、楽しんでいますが、今では独立成分分析にも同じ質問があります。ICAを理解する直感的な方法について包括的な質問をしたいのですか？理解したいです。目的を知りたい。私はそれを感じたいです。私は強く信じています：あなたはそれをあなたの祖母に説明できない限り、あなたは本当に何かを理解していません。 - アルバート・アインシュタインまあ、私はこの概念を素人やおばあちゃんに説明することはできません ICAを選ぶ理由このコンセプトの必要性は何ですか？これを素人にどのように説明しますか？

18 intuition ica