統計とビッグデータ regression

1

サイトからのデータをプールするとき、分析には3つのサイトからのデータのプールが含まれるため、2つのサイトに含まれるサンプルが含まれるため同じ。バックグラウンドクライアントは、既存の承認されたメソッドと「同等」であることを示したい新しいアッセイメソッドを持っていました。彼らのアプローチは、同じサンプルに適用された両方の方法の結果を比較することでした。テストには3つのサイトが使用されました。変数のエラー（デミング回帰）が各サイトのデータに適用されました。これは、回帰分析で勾配パラメーターが1に近く、切片が0に近い場合、2つのアッセイ手法でほぼ同じ結果が得られるため、新しい方法を承認する必要があるということです。サイト1には45のサンプルがあり、45のペアの観察結果が得られました。サイト2には40サンプル、サイト3には43サンプルがありました。彼らは、3つの別個のデミング回帰を行いました（2つの方法の測定誤差の比率を1と仮定）。そのため、アルゴリズムは垂直距離の二乗の合計を最小化しました。クライアントは、サイト1とサイト2で使用されているサンプルの一部が同じであると指摘しました。レビューでは、FDAのレビューアは、モデルの仮定を無効にする「干渉」を引き起こす一般的なサンプルが使用されたため、デミング回帰は無効であると述べました。彼らは、この干渉を考慮して、ブートストラップ調整をデミング結果に適用することを要求しました。その時点で、クライアントは私が持ち込まれたブートストラップの方法を知らなかったので、干渉という用語は奇妙であり、レビュアーが何を得ているのか正確にはわかりませんでした。プールされたデータには共通のサンプルがあるため、共通のサンプルに相関があり、したがってモデルの誤差項がすべて独立しているわけではない、というのが実際のポイントだと思いました。クライアントの分析 3つの個別の回帰は非常に似ていました。それぞれが1に近い勾配パラメーターと0に近い切片を持ちました。95％信頼区間には、それぞれ勾配と切片にそれぞれ1と0が含まれていました。主な違いは、サイト3での残留分散がわずかに高いことでした。さらに、これをOLSの実行結果と比較し、非常に類似していることがわかりました（OLSに基づく勾配の信頼区間は1を含みませんでした）。勾配のOLS CIに1が含まれていない場合、区間の上限は0.99のようなものでした。 3つのサイトすべてで結果が非常に類似しているため、サイトデータをプールすることは妥当と思われました。クライアントはプールされたデミング回帰を行い、これも同様の結果をもたらしました。これらの結果を踏まえて、回帰が無効であるという主張に異議を唱えるクライアントのレポートを書きました。私の主張は、両方の変数に同様の測定誤差があるため、クライアントは同意/不一致を示す方法としてデミング回帰を使用するのが正しいということです。特定のサイト内でサンプルが繰り返されなかったため、個々のサイトの回帰には相関エラーの問題はありませんでした。データをプールして、信頼区間をより厳しくします。この問題は、サイト1の一般的なサンプルでデータを単純にプールすることで解決できます。また、3つの個別のサイトモデルには問題がなく、有効です。これは、プーリングなしでも同意の強力な証拠を提供するようです。さらに、共通のサイトのサイト1と2で独立して測定が行われました。そのため、サイト1のサンプルの測定誤差はサイト2の対応するサンプルの測定誤差と相関しないため、すべてのデータを使用したプール分析でも有効であると思います。問題にならないスペース。相関/「干渉」を作成しません。私のレポートでは、調整する相関関係がないため、ブートストラップ分析は不要であると書きました。3つのサイトモデルは有効であり（サイト内で「干渉」の可能性はありません）、プーリングを行うときにサイト1の共通サンプルを削除して、プールされた分析を行うことができました。このようなプールされた分析には干渉の問題はありません。調整するバイアスがないため、ブートストラップ調整は必要ありません。結論クライアントは私の分析に同意しましたが、FDAに持ち込むことを恐れていました。とにかく彼らは私にブートストラップの調整をしてほしい。私の質問 A）（1）クライアントの結果の分析と（2）ブートストラップが不要であるという私の主張に同意しますか。 B）デミング回帰をブートストラップする必要があると仮定すると、ブートストラップサンプルでデミング回帰を実行するために利用可能なSASまたはRの手順はありますか？編集：ビルフーバーの提案を考えると、私はx上のyとx上のxの両方の回帰による変数エラー回帰の限界を見ることを計画しています。OLSの1つのバージョンでは、2つの誤差分散が等しいと仮定した場合、答えは本質的に変数のエラーと同じであることをすでに知っています。これが他の回帰にも当てはまる場合、デミング回帰が適切なソリューションを提供することを示していると思います。同意しますか？クライアントの要求を満たすために、漠然と定義された要求されたブートストラップ分析を行う必要があります。倫理的には、ブートストラップを提供するだけでは、クライアントの実際の問題が解決されないため、アッセイ測定手順を正当化することは間違っていると思います。そこで、少なくとも分析と要求の両方を行い、ブートストラップに加えて、逆回帰を行い、より適切だと思うデミング回帰を制限したことをFDAに伝えるよう要求します。また、分析により、それらの方法が参照と同等であり、したがってデミング回帰も適切であることが示されると思います。 @whuberが彼の答えで提案したRプログラムを使用して、Deming回帰をブートストラップできるようにする予定です。私はRにあまり馴染みがありませんが、できると思います。R StudioとともにRをインストールしています。それは私のような初心者にとって十分に簡単になりますか？また、私はSASを所有しており、SASでより快適にプログラミングできます。SASでこれを行う方法を知っている人がいれば、それについて知っていただければ幸いです。

15 regression errors-in-variables deming-regression pooling

3

最強の相関を持つデータポイントのサブセットを選択する自動手順

（2つの次元に沿って）最も強い相関を持つ大きなプールからデータポイントのサブセットを選択するための標準的な手順（参照として引用するなど）はありますか？たとえば、100個のデータポイントがあるとします。X次元とY次元に沿って可能な限り強い相関を持つ40ポイントのサブセットが必要です。これを行うためのコードの記述は比較的簡単だと思いますが、引用するソースがあるかどうか疑問に思っていますか？

15 regression correlation autocorrelation

2

さまざまな調整済み

私は、以下によって提案された調整済みのR 2乗公式を念頭に置いています。エゼキエル（1930）、これは現在SPSSで使用されているものだと思います。 R2adjusted=1−(N−1)(N−p−1)(1−R2)Radjusted2=1−(N−1)(N−p−1)(1−R2)R^2_{\rm adjusted} = 1 - \frac{(N-1)}{(N-p-1)} (1-R^2) オルキンとプラット（1958） R2unbiased=1−(N−3)(1−R2)(N−p−1)−2(N−3)(1−R2)2(N−p−1)(N−p+1)Runbiased2=1−(N−3)(1−R2)(N−p−1)−2(N−3)(1−R2)2(N−p−1)(N−p+1)R^2_{\rm unbiased} = 1 - \frac{(N-3)(1-R^2)}{(N-p-1)} - \frac{2(N-3)(1-R^2)^2}{(N-p-1)(N-p+1)} どのような状況下で（もしあれば）、「調整された」を「バイアスされていない」R 2に優先すべきR2R2R^2ですか？参照資料エゼキエル、M。（1930）。相関分析の方法。ジョン・ワイリーとサンズ、ニューヨーク。オルキンI.、プラットJW（1958）。特定の相関係数の不偏推定。数理統計学年報、29（1）、201-211。

15 regression r-squared

2

大きなデータセットの有意水準を選択する方法は？

Nが約200,000のデータセットを使用しています。回帰では、r = 0.028などの非常に小さな効果サイズに関連する非常に小さな有意値<< 0.001が見られます。私が知りたいのは、サンプルサイズに関連して適切な有意性閾値を決定する原則的な方法がありますか？このような大きなサンプルを使用してエフェクトサイズを解釈する際に、他に重要な考慮事項はありますか？

15 regression probability statistical-significance sample-size

5

データに平方根変換を使用する理由は何ですか？

平方根でデータを変換するために、私が考えることができる理由はありますか？私がいつも観察しているのは、R ^ 2が増加するということです。しかし、これはおそらくデータをセンタリングするためだけです！どんな考えでも大歓迎です！

15 regression data-transformation variance-stabilizing

2

Rのnls（）を使用したポイント分析の変更

「変更点」分析、またはnls()R を使用したマルチフェーズ回帰を実装しようとしています。ここに私が作ったいくつかの偽のデータがあります。データを近似するために使用する式は次のとおりです。 y= β0+ β1x + β2max （0 、x - δ）y=β0+β1バツ+β2最大（0、バツ−δ）y = \beta_0 + \beta_1x + \beta_2\max(0,x-\delta) これは、特定の切片と勾配（および）で特定のポイントまでデータを近似し、特定のx値（）の後に、勾配をです。それが最大のことです。ポイントの前は、0に等しくなり、はゼロにされます。β0β0\beta_0β1β1\beta_1δδ\deltaβ2β2\beta_2δδ\deltaβ2β2\beta_2 したがって、これを行うための私の機能は次のとおりです。 changePoint <- function(x, b0, slope1, slope2, delta){ b0 + (x*slope1) + (max(0, x-delta) * slope2) } そして、私はこの方法でモデルを適合させようとします nls(y ~ changePoint(x, b0, slope1, slope2, delta), data = data, start = c(b0 …

15 r regression change-point nls

5

価格をモデル化する方法は？

私はmatemathicsスタック交換サイトでこの質問をしましたが、ここで尋ねることをお勧めしました。私は趣味のプロジェクトに取り組んでいますが、次の問題について助けが必要です。少しのコンテキスト機能と価格の説明を含むアイテムのコレクションがあるとしましょう。車と価格のリストを想像してください。すべての車には、エンジンサイズ、色、馬力、モデル、年などの機能のリストがあります。メーカーごとに、次のようなものがあります。 Ford: V8, green, manual, 200hp, 2007, $200 V6, red, automatic, 140hp, 2010, $300 V6, blue, manual, 140hp, 2005, $100 ... さらに進むと、価格付きの車のリストが一定の時間間隔で公開されているため、過去の価格データにアクセスできます。必ずしもまったく同じ車が含まれているとは限りません。問題この基本情報に基づいて自動車の価格をモデル化する方法を理解したいと思います。最も重要なのは、初期リストにない自動車です。 Ford, v6, red, automatic, 130hp, 2009 上記の車については、リストにあるものとほぼ同じですが、馬力と年がわずかに異なります。この価格を設定するには、何が必要ですか？私が探しているのは実用的でシンプルなものですが、このようなものをモデル化するより複雑なアプローチについても聞きたいです。私が試したことここで私がこれまで試してきたことを示します。 1）履歴データを使用して車Xを検索します。見つからない場合、価格はありません。これはもちろん非常に限定されており、時間の経過とともに既知の車の価格を変更するために、これを時間減衰と組み合わせてのみ使用できます。 2）価格設定されたサンプル車と一緒に車の特徴の重み付けスキームを使用する。基本的に基本価格と機能があることは、何らかの要因でそれを変更するだけです。これに基づいて、車の価格が導き出されます。前者は十分ではないことが証明され、後者は常に正しいとは限らないことが証明され、重みを使用するための最良のアプローチがなかったかもしれません。これはまた、重みを維持する上で少し重いようです。そのため、重みを取得したり、他の何かを取得するために、履歴データを何らかの方法で統計として使用する方法があると考えたのはそのためです。どこから始めればいいのかわかりません。その他の重要な側面私が持っているいくつかのソフトウェアプロジェクトに統合します。既存のライブラリを使用するか、自分でアルゴリズムを作成します。新しい履歴データが入ったときの高速再計算。このような問題にどのようにアプローチすることができますか？すべてのアイデアは大歓迎です。事前に感謝し、あなたの提案を読むことを楽しみにしています！

15 regression forecasting econometrics

4

回帰パラメータの信頼区間：ベイジアン対クラシック

長さnの2つの配列xとyが与えられた場合、モデルy = a + b * xに適合し、勾配の95％信頼区間を計算します。これは（b-デルタ、b +デルタ）で、bは通常の方法で検出され、 delta = qt(0.975,df=n-2)*se.slope se.slopeは、勾配の標準誤差です。Rから勾配の標準誤差を取得する1つの方法はsummary(lm(y~x))$coef[2,2]です。ここで、xとyが与えられた勾配の尤度を記述し、これに「フラット」を掛け、MCMC手法を使用して事後分布からサンプルmを描画するとします。定義する lims = quantile(m,c(0.025,0.975)) 私の質問：(lims[[2]]-lims[[1]])/2上記で定義されたデルタとほぼ等しいですか？以下の補遺は、これら2つが異なるように見える単純なJAGSモデルです。 model { for (i in 1:N) { y[i] ~ dnorm(mu[i], tau) mu[i] <- a + b * x[i] } a ~ dnorm(0, .00001) b ~ dnorm(0, .00001) tau <- pow(sigma, -2) sigma …

15 r regression bayesian confidence-interval frequentist

5

重回帰を使用して、他の複数のPCから1つの主成分（PC）を予測できますか？

しばらく前、R-helpメーリングリストのユーザーが、回帰でPCAスコアを使用することの健全性について質問しました。ユーザーは、いくつかのPCスコアを使用して、別のPCのバリエーションを説明しようとしています（詳細については、こちらをご覧ください）。答えはいいえ、PCは互いに直交しているため、これは適切ではありません。誰かがこれがなぜそうなのか、もう少し詳しく説明できますか？

15 regression pca

4

リッジ回帰の等価式の証明

統計学習で最も人気のある本を読みました 1- 統計学習の要素。 2- 統計学習の紹介。どちらも、リッジ回帰には同等の2つの式があることに言及しています。この結果を理解できる数学的な証拠はありますか？ Cross Validatedも通過しましたが、そこには明確な証拠が見つかりません。さらに、LASSOは同じタイプの証明を享受しますか？

15 regression lasso regularization ridge-regression lagrange-multipliers

2

ニューラルネットワークとその他すべて

これに対する満足のいく答えがgoogleから見つかりませんでした。もちろん、私が持っているデータが数百万のオーダーである場合、深層学習が道です。そして、ビッグデータがない場合は、機械学習で他の方法を使用した方が良いかもしれないことを読みました。指定された理由は、過剰適合です。機械学習：すなわち、データの参照、特徴抽出、収集されたものからの新しい特徴の作成など。機械学習全体の9ヤードなど、重相関変数の削除など。そして、私は疑問に思っていました：なぜ1つの隠れ層を持つニューラルネットワークが機械学習問題の万能薬ではないのですか？それらは普遍的な推定量であり、過剰適合はドロップアウト、l2正則化、l1正則化、バッチ正規化で管理できます。トレーニングの例が50,000件しかない場合、通常、トレーニング速度は問題になりません。テスト時は、ランダムフォレストよりも優れています。なぜそうではないのですか？データをきれいにし、一般的に行うように欠損値を代入し、データを中央に配置し、データを標準化し、1つの隠れ層を持つニューラルネットワークのアンサンブルに投げ、過剰適合が見られないように正規化を適用してから訓練しますそれらを最後まで。勾配爆発や勾配消失は、2層のネットワークであるため問題ありません。深い層が必要な場合、それは階層的な機能を学習することを意味し、他の機械学習アルゴリズムも同様に良くありません。たとえば、SVMはヒンジ損失のみのニューラルネットワークです。他のいくつかの機械学習アルゴリズムが、慎重に正規化された2層（おそらく3？）のニューラルネットワークよりも優れている例はありがたいです。問題へのリンクを教えていただければ、できる限り最高のニューラルネットワークをトレーニングし、2層または3層のニューラルネットワークが他のベンチマーク機械学習アルゴリズムに及ばないかどうかを確認できます。

15 regression machine-learning classification neural-networks deep-learning

1

Newey-West（1987）とHansen-Hodrick（1980）の比較

質問： Newey-West（1987）とHansen-Hodrick（1980）の標準エラーを使用した場合の主な違いと類似点は何ですか？これらのいずれかが他の状況よりも優先されるべき状況はどれですか？ノート：これらの各調整手順がどのように機能するかは知っています。しかし、オンラインでも教科書でも、それらを比較する文書をまだ見つけていません。参照は大歓迎です！ Newey-Westは "catch-all" HAC標準エラーとして使用される傾向がありますが、Hansen-Hodrickは重複するデータポイントのコンテキストで頻繁に表示されます（たとえば、この質問またはこの質問を参照）。したがって、私の質問の一つの重要な側面は、それが作るハンセン-Hodrickについては何も存在しているよりニューエイ、西よりの重複データを扱うのに適しては？（結局のところ、データの重複は最終的に直列相関の誤差項につながり、Newey-Westも対処します。）記録については、私はこの同様の質問を知っていますが、それは比較的不十分なポーズであり、投票され、最終的に私がここで尋ねている質問には答えられませんでした（プログラミング関連の部分のみが答えられました）。

15 regression autocorrelation heteroscedasticity robust-standard-error neweywest

2

ロジスティック回帰の行列表記

線形回帰（二乗損失）では、行列を使用して、目的を非常に簡潔に表記します最小限∥ X - Bを∥ 2最小化する ‖Aバツ−b‖2\text{minimize}~~ \|Ax-b\|^2 ここで、AAAはデータ行列、バツバツxは係数、bbbは応答です。ロジスティック回帰の目的に同様の行列表記はありますか？私が見たすべての表記法は、すべてのデータポイント（\ sum _ {\ text data} \ text {L} _ \ text {logistic}（y、\ beta ^ Tx）のようなもの）の合計を取り除くことはできません∑d a t aLロジスティック（y、βTx ）∑dataLロジスティック（y、βTバツ）\sum_{\text data} \text{L}_\text{logistic}(y,\beta^Tx)。編集：joceratopsとAdamOの素晴らしい答えに感謝します。彼らの答えは、線形回帰がより簡潔な表記法を持っている別の理由が、正方形と和またはe ^ \ top eをカプセル化するノルムの定義にあることを理解するのに役立ちましたe⊤ee⊤ee^\top e。しかし、ロジスティック損失では、そのような定義はなく、表記法が少し複雑になります。

15 regression logistic linear-model notation

2

Rの段階的回帰-仕組み

step関数を使用して、Rの段階的回帰と後方回帰の基本的な違いを理解しようとしています。段階的な回帰では、次のコマンドを使用しました step(lm(mpg~wt+drat+disp+qsec,data=mtcars),direction="both") 上記のコードの出力は次のとおりです。後方変数の選択には、次のコマンドを使用しました step(lm(mpg~wt+drat+disp+qsec,data=mtcars),direction="backward") そして、私は後方への以下の出力を得ました私が理解した限りでは、パラメーターが指定されていない場合、Rでパラメーター「upper」および「lower」が指定されない限り、ステップワイズ選択は逆方向として機能します。しかし、ステップワイズ選択の出力には、+ dispが追加されます2番目のステップ。ステップワイズ選択で再度+ dispを追加して達成しようとしている機能は何ですか？結果が後方選択と同じ（AIC値とモデル選択値）なのに、Rが2番目のステップで+ dispを追加するのはなぜですか。段階的な選択でRは正確にどのように機能しますか？この関数がRでどのように機能するかを本当に理解したいと思います。助けてくれてありがとう！

15 r regression

3

「関連するすべての予測変数」を含める必要が本当にありますか？

推論に回帰モデルを使用する基本的な前提は、「すべての関連する予測子」が予測式に含まれていることです。理論的根拠は、重要な現実世界の要因を含めないと、係数に偏りが生じ、そのため不正確な推論（つまり、変数バイアスの省略）につながるということです。しかし、研究の実践では、「関連するすべての予測子」に似たものを含む人を見たことはありません。多くの現象には無数の重要な原因があり、それらすべてを含めることは不可能ではないにしても非常に困難です。すぐに使える例は、結果としてうつ病をモデル化することです：「関連するすべての変数」を含むモデルに近いものは誰も作成していません：例えば、親の歴史、性格特性、ソーシャルサポート、収入、それらの相互作用など。等... さらに、そのような複雑なモデルのフィッティングは、非常に大きなサンプルサイズがない限り、非常に不安定な推定値につながります。私の質問は非常に簡単です。「関連するすべての予測変数を含める」という仮定/アドバイスは、単に「言う」が、実際には決して意味のないものですか。そうでない場合、なぜ実際のモデリングのアドバイスとしてそれを与えるのですか？そして、これはほとんどの係数がおそらく誤解を招くことを意味しますか？（たとえば、いくつかの予測因子のみを使用する人格要因とうつ病に関する研究）。言い換えれば、これは私たちの科学の結論にとってどれほど大きな問題なのでしょうか？

15 regression assumptions bias predictor confounding

タグ付けされた質問 「regression」

タグ付けされた質問「regression」