統計とビッグデータ

2

最近、応用計量経済学の文献で、特徴選択の問題を扱うとき、選択された変数を使用してLASSOに続いてOLS回帰を実行することは珍しくありません。このような手順の有効性をどのように認定できるのかと思っていました。省略された変数などのトラブルを引き起こしますか？それがより効率的であることを示す証拠、または結果がより解釈可能ですか？関連するディスカッションを次に示します。 LASSOを使用した変数選択 Lasso / Randomを使用した変数選択後のツリーの使用指摘したように、そのような手順が一般的に正しくない場合、なぜそんなに多くの研究がまだあるのですか？LASSO推定器のいくつかの不安な性質と、OLSに対する人々の好みのために、これは単なる経験則、妥協ソリューションであると言えますか？

20 regression feature-selection econometrics least-squares lasso

2

numpyとsklearnのPCAは異なる結果を生成します

私は何かを誤解していますか。これは私のコードです sklearnを使用する import numpy as np import matplotlib.pyplot as plt from mpl_toolkits.mplot3d import Axes3D from sklearn import decomposition from sklearn import datasets from sklearn.preprocessing import StandardScaler pca = decomposition.PCA(n_components=3) x = np.array([ [0.387,4878, 5.42], [0.723,12104,5.25], [1,12756,5.52], [1.524,6787,3.94], ]) pca.fit_transform(x) 出力： array([[ -4.25324997e+03, -8.41288672e-01, -8.37858943e-03], [ 2.97275001e+03, -1.25977271e-01, 1.82476780e-01], [ 3.62475003e+03, …

20 pca python scikit-learn

2

均一分布から指数分布へ、およびその逆

これはおそらく些細な質問ですが、このウィキペディアの記事や「配布の大要」ドキュメントを含め、これまでのところ私の検索は無益です。が均一な分布を持つ場合、は指数分布に従うということですか？e XXXXeXeXe^X 同様に、が指数分布に従う場合、は一様分布に従うことを意味しますか？l n （Y ）YYYln(Y)ln(Y)ln(Y)

20 distributions data-transformation exponential uniform

2

名前の意味：精度（分散の逆数）

直感的には、平均は単なる観測の平均です。分散は、これらの観測値が平均値とどれだけ異なるかです。分散の逆数が精度として知られている理由を知りたいです。これからどのような直観が得られますか？そして、なぜ精度行列は多変量（正規）分布の共分散行列と同じくらい有用なのでしょうか？洞察してください？

20 normal-distribution multivariate-analysis terminology intuition

2

ニューラルネットでは、なぜ他のメタヒューリスティックではなく勾配法を使用するのですか？

深くて浅いニューラルネットワークのトレーニングでは、他のメタヒューリスティックとは対照的に、勾配法（勾配勾配、Nesterov、Newton-Raphsonなど）が一般的に使用されるのはなぜですか？メタヒューリスティックとは、シミュレートされたアニーリング、アリのコロニーの最適化などの方法を意味します。これらの方法は、局所的な最小値にとどまることを避けるために開発されました。

20 neural-networks optimization deep-learning gradient-descent backpropagation

2

バイアス分散トレードオフの導出を理解する

私は、統計学習の要素のバイアス分散トレードオフの章を読んでいます。29ページの式には疑問があります（はランダム）期待値と数と分散。モデルの誤差の期待値を E [（Y-f_k（x））^ 2]とします。ここで、f_k（x）は学習者のxの予測です。本によると、エラーは E [（Y-f_k（x））^ 2] = \ sigma ^ 2 + Bias（f_k）^ 2 + Var（f_k（x））です。 Y=f(x)+ϵY=f(x)+ϵ Y = f(x)+\epsilonε = E [ ε ] = 0 E [ （ε - ε）2 ] = E [ ε 2 ] = σ 2 E [ （Y - F K（X …

20 machine-learning unbiased-estimator mse bias-variance-tradeoff

2

LSTMに最適な最適化方法は何ですか？

theanoを使用してLSTMを実験してきましたが、どの最適化方法（SGD、Adagrad、Adadelta、RMSprop、Adamなど）がLSTMに最適か疑問に思っていましたか？このトピックに関する研究論文はありますか？また、答えは、私がLSTMを使用しているアプリケーションのタイプに依存しますか？もしそうなら、私はテキスト分類のためにLSTMを使用しています（テキストは最初に単語ベクトルに変換されます）。最後に、RNNの回答は同じですか、それとも異なりますか？研究論文へのポインタ、または個人的な洞察は大歓迎です！ LSTMは非常に強力であると思われるため、LSTMの最適な使用方法について詳しく知りたいと思っています。

20 machine-learning neural-networks optimization lstm

2

残差プロット：プロット対フィット値で、観測された値ではないのはなぜですか？

OLS回帰のコンテキストでは、一定の分散をテストし、モデルの仕様を評価するために、従来、残差プロット（適合値に対する）が表示されることを理解しています。なぜ残差は値ではなくフィットに対してプロットされるのですか？情報はこれらの2つのプロットとどのように異なりますか？YYY 私は次の残差プロットを作成するモデルに取り組んでいます：そのため、プロットと近似値の関係は一見良好に見えますが、値に対する2番目のプロットにはパターンがあります。なぜこのような顕著なパターンが残差対適合プロットにも現れないのだろうか...YYY 私はモデルの問題を診断するのに助けを求めていませんが、（1）残差対適合プロット＆（2）残差対プロットの違い（一般的に）を理解しようとしています。 YYY 価値があるのは、2番目のグラフのエラーパターンは、DVに影響する変数の省略によるものだと確信しています。現在、そのデータの取得に取り組んでおり、全体的な適合性と仕様の改善に役立つと期待しています。私は不動産データを扱っています：DV =販売価格。IV：1平方フィートの家、＃ガレージスペース、1年建て、1年建て。 22^2

20 regression residuals

4

相関行列のクラスタリング

すべてのアイテムが他のアイテムとどのように相関しているかを示す相関行列があります。したがって、N個のアイテムについては、すでにN * N相関行列があります。この相関行列を使用して、k番目のビンのNk個のアイテムが同じように動作すると言うことができるように、M個のビンのN個のアイテムをクラスター化する方法を教えてください。親切に私を助けてください。すべてのアイテム値はカテゴリです。ありがとう。さらに情報が必要な場合はお知らせください。Pythonでの解決策が必要ですが、要件に向かって私を押し進める助けは大きな助けになります。

20 clustering python k-means

3

ベイズの定理に正規化因子が必要な理由

ベイズの定理 P(model|data)=P(model)×P(data|model)P(data)P(model|data)=P(model)×P(data|model)P(data) P(\textrm{model}|\textrm{data}) = \frac{P(\textrm{model}) \times P(\textrm{data}|\textrm{model})}{P(\textrm{data})} これはすべて大丈夫です。しかし、私はどこかで読んだことがあります：基本的に、P（data）は正規化定数、つまり事後密度を1に統合する定数に他なりません。およびことがわかります。 0≤P(model)≤10≤P(model)≤10 \leq P(\textrm{model}) \leq 10≤P(data|model)≤10≤P(data|model)≤1 0 \leq P(\textrm{data}|\textrm{model}) \leq 1 したがって、も0から1の間でなければなりません。このような場合、後部を1つに統合するために正規化定数が必要なのはなぜですか？P(model)×P(data|model)P(model)×P(data|model)P(\textrm{model}) \times P(\textrm{data}|\textrm{model})

20 probability bayesian conditional-probability bayes

4

「確率密度関数の下の総面積は1」-何に対してですか？

概念的には、「PDFの下の総面積は1」というフレーズの意味を理解しています。結果の可能性の合計間隔に含まれる可能性が100％であることを意味する必要があります。しかし、「幾何学的」な観点からそれを本当に理解することはできません。たとえば、PDFでx軸が長さを表す場合、xがkmではなくmmで測定された場合、曲線の下の総面積は大きくなりませんか？関数が直線に平坦化された場合、曲線の下の領域がどのように見えるかを常に想像してみます。その行の高さ（y軸上の位置）はどのPDFでも同じでしょうか、それとも関数が定義されているx軸上の間隔に依存する値を持っていますか？

20 probability pdf integral

2

-testと

背景：私は仮説テストの仕事をしている同僚にプレゼンテーションを行っており、そのほとんどをうまく理解していますが、他の人に説明するだけでなく、理解しようとする結び目で自分を縛っている側面があります。これは私が知っていると思うことです（間違っている場合は修正してください！）分散がわかっている場合は正常な統計、分散が不明な場合はttt分布に従う CLT（中央極限定理）：サンプル平均のサンプリング分布は、十分に大きいに対してほぼ正規ですnnn（303030になる可能性があり、大きく歪んだ分布の場合は最大300300300になる可能性があります） ttt -distributionは、自由度のために通常考慮することができる>30>30> 30 次の場合に -testを使用します。zzz 母集団の正規分布と分散が既知（任意のサンプルサイズ）集団正常、分散不明、（CLTによる）n>30n>30n>30 人口二項、、n q > 10np>10np>10np>10nq>10nq>10nq>10 次の場合に -testを使用します。ttt 母集団は正常、分散は不明、n<30n<30n<30 母集団または分散に関する知識はなく、ですが、サンプルデータは正常に見える/テストなどに合格しているため、母集団は正常であると見なすことができますn<30n<30n<30 だから私は残っています：サンプルについてと< ≈ 300（？）、人口と知られている分散/不明についての知識がありません。>30>30>30<≈300<≈300<\approx 300 だから私の質問は：サンプリング分布が非正規に見える場合、平均のサンプリング分布が正常である（つまり、CLTが作動している）と仮定できるのは（母集団の分布または分散に関する知識がない場合）です。一部のディストリビューションにはが必要であることは知っていますが、n > 30の場合は常にzテストを使用すると言うリソースがあるようです...n>300n>300n>300zzzn>30n>30n>30 よくわからない場合は、データが正常かどうかを調べます。サンプルデータが正常に見える場合、検定を使用します（母集団が正常であり、n > 30であるため）。zzzn>30n>30n>30 不明なケースのサンプルデータが正常に見えない場合はどうですか？まだ -testまたはz -testを使用する状況がありますか、または常にノンパラメトリックテストを変換/使用することを検討していますか？CLTにより、nの値によって平均のサンプリング分布は正規に近似することがわかりますが、サンプルデータはそのnの値が何であるかを教えてくれません。サンプルデータは非正規であり、サンプル平均はnormal / tに従います。実際に平均のサンプリング分布が正規/ tであったが、それがわからなかったときに、ノンパラメトリック検定を変換/使用する場合がありますか？ tttzzznnnnnntttttt

20 hypothesis-testing normal-distribution t-test assumptions z-test

2

複数の期間を含む差異モデルの差異の指定

2つの期間の差モデルの差を推定すると、同等の回帰モデルは次のようになります。 a。 Y私のトン=α+γs∗Treatment+λdt+δ∗(Treatment∗dt)+ϵistYist=α+γs∗Treatment+λdt+δ∗（Treatment∗dt)+ϵistY_{ist} = \alpha +\gamma_s*Treatment + \lambda d_t + \delta*(Treatment*d_t)+ \epsilon_{ist} ここで、TreatmentTreatmentTreatmentはダミーであり、観測が治療グループからのものである場合は1に等しいおよび ddd、治療後の期間内に1に等しいダミーで発生しましたしたがって、方程式は次の値を取ります。対照群、治療前：αα\alpha 対照群、治療後：α+λα+λ\alpha +\lambda 治療群、治療前：α+γα+γ\alpha +\gamma 治療後の治療群： α+γ+λ+δα+γ+λ+δ\alpha+ \gamma+ \lambda+ \delta したがって、2期間モデルでは、差の推定値の差はδδ\deltaです。しかし、治療前と治療後の期間が複数ある場合、に関してどうなりますか？治療の前後が1年かどうかを示すダミーを引き続き使用しますか？dtdtd_t または、各年が前処理期間に属するか後処理期間に属するかを指定せずに、代わりに年ダミーを追加しますか？このような： b。Yist=α+γs∗Treatment+yeardummy+δ∗(Treatment∗dt)+ϵistYist=α+γs∗Treatment+yeardummy+δ∗(Treatment∗dt)+ϵistY_{ist} = \alpha +\gamma_s*Treatment + yeardummy + \delta*(Treatment*d_t)+ \epsilon_{ist} または私は（すなわち、両方含むことができ、）？yeardummy+λdtyeardummy+λdtyeardummy +\lambda d_t c。Yist=α+γs∗Treatment+yeardummy+λdt+δ∗(Treatment∗dt)+ϵistYist=α+γs∗Treatment+yeardummy+λdt+δ∗(Treatment∗dt)+ϵistY_{ist} = \alpha +\gamma_s*Treatment + yeardummy + \lambda d_t …

20 regression modeling econometrics panel-data difference-in-difference

2

glmnetのキャレットトレーニング関数は、アルファとラムダの両方を相互検証しますか？

Rのいcaretの両方の上にパッケージクロス検証をalphaしてlambdaためglmnetのモデル？このコードを実行すると、 eGrid <- expand.grid(.alpha = (1:10) * 0.1, .lambda = (1:10) * 0.1) Control <- trainControl(method = "repeatedcv",repeats = 3,verboseIter =TRUE) netFit <- train(x =train_features, y = y_train, method = "glmnet", tuneGrid = eGrid, trControl = Control) トレーニングログは次のようになります。 Fold10.Rep3: alpha=1.0, lambda=NA どういうlambda=NA意味ですか？

20 r machine-learning cross-validation caret glmnet

4

正規分布の混合からランダム変数を生成する

混合分布、特にの正規分布の混合からサンプリングするにはどうすればよいRですか？たとえば、次のものからサンプリングしたい場合： 0.3× N（0 、1 ）+0.5× N（10 、1 ）+0.2× N（3 、.1 ）0.3×N（0、1）+0.5×N（10、1）+0.2×N（3、.1） 0.3\!\times\mathcal{N}(0,1)\; + \;0.5\!\times\mathcal{N}(10,1)\; + \;0.2\!\times\mathcal{N}(3,.1) どうすればそれができますか？

20 r random-generation mixture