統計とビッグデータ regression

3

これは潜在的に広範な質問かもしれませんが、GLM（一般化線形モデル）よりもGAM（一般化加算モデル）の使用を示す一般化可能な仮定があるかどうか疑問に思っていましたか？最近、誰かがデータ構造を「加算的」であると仮定した場合にのみGAMを使用すべきだと教えてくれました。つまり、xを追加してyを予測すると予想しています。別の人は、GAMはGLMとは異なるタイプの回帰分析を行い、直線性を仮定できる場合はGLMが好ましいと指摘しました。過去に、生態学的データにGAMを使用してきました。たとえば：連続時系列データが線形形状を持たなかったとき yを予測するために複数のxがあり、「表面プロット」と統計テストを使用して視覚化できる非線形相互作用があると考えました私は明らかに、GAMがGLMとどのように異なるのかをよく理解していません。私はそれが有効な統計的テストであると信じています（少なくとも生態系ジャーナルではGAMの使用が増加していると思います）が、その使用が他の回帰分析よりも示されている場合、よりよく知る必要があります。

13 regression generalized-linear-model gam

2

省略された変数がない場合、回帰は原因ですか？

と両方に影響を及ぼす変数が省略されている場合、でのの回帰は因果関係である必要はありません。しかし、省略された変数と測定誤差がない場合、回帰は原因ですか？つまり、すべての可能な変数が回帰に含まれている場合はどうでしょうか？yyyバツバツxバツバツxyyy

13 regression bias causality

2

なげなわと比較して、最適なサブセット選択が好ましくないのはなぜですか？

統計学習の本の中で最良のサブセット選択について読んでいます。3つの予測子場合、2 3 = 8個のサブセットを作成します。x1,x2,x3x1,x2,x3x_1,x_2,x_323=823=82^3=8 予測子のないサブセット予測子x 1のサブセットx1x1x_1 予測子x 2のサブセットx2x2x_2 予測子x 3のサブセットx3x3x_3 予測子x 1、x 2のサブセットx1,x2x1,x2x_1,x_2 予測子x 1、x 3のサブセットx1,x3x1,x3x_1,x_3 予測子x 2、x 3のサブセットx2,x3x2,x3x_2,x_3 予測子x 1、x 2、x 3のサブセットx1,x2,x3x1,x2,x3x_1,x_2,x_3 次に、テストデータでこれらすべてのモデルをテストして、最適なモデルを選択します。今、私の質問は、なぜなげなわと比較して最良のサブセット選択が好まれないのかということです。最適なサブセットとなげなわのしきい値関数を比較すると、最適なサブセットは、なげなわのようにいくつかの係数をゼロに設定することがわかります。ただし、他の係数（ゼロ以外の係数）にはまだols値があり、バイアスはかけられません。一方、なげなわでは、係数の一部がゼロになり、その他（ゼロ以外の係数）にはバイアスがかかります。下の図はそれをより良く示しています：写真から、最適なサブセットの場合の赤い線の部分は灰色の線の上にあります。他の部分は、いくつかの係数がゼロであるx軸上にあります。灰色の線は、偏りのないソリューションを定義します。投げ縄では、いくつかのバイアスが導入されますます。この図から、最適なサブセットは投げ縄よりも優れていることがわかります！最適なサブセットを使用することの欠点は何ですか？λλ\lambda

13 regression feature-selection lasso bias-variance-tradeoff

2

経済学の研究者がバイナリ応答変数に線形回帰を使用するのはなぜですか？

最近、私は経済学のいくつかの論文（私はあまり詳しくない分野）を読まなければなりませんでした。私が気づいたことの1つは、応答変数がバイナリである場合でも、OLSを使用して近似された線形回帰モデルは遍在するということです。したがって、私の質問は次のとおりです。経済学の分野で、たとえばロジスティック回帰よりも線形回帰が有利なのはなぜですか？これは単なる一般的な慣習ですか、それとも積極的に提唱されている手順ですか（論文、教師など）？バイナリ応答で線形回帰を使用するのが悪い考えである理由や、代替方法が何であるかを尋ねているわけではないことに注意してください。それどころか、私はこれらの2つの質問に対する答えを知っているので、この設定で人々が線形回帰を使用する理由を尋ねています。

13 regression logistic econometrics

3

データサイズが巨大な場合、回帰の統計的有意性はどうなりましたか？

私は、次のようにwhuberが興味深い点を指摘した大規模回帰（リンク）に関するこの質問を読んでいました。「実行する統計テストのほとんどは非常に強力であるため、「重要な」効果を特定するのはほぼ確実です。重要度ではなく、効果の大きさなどの統計的重要性にもっと集中する必要があります。」 --- whuber これが証明できるものなのか、それとも実際の一般的な現象なのか疑問に思っていました。証明/議論/シミュレーションへのポインタは本当に役立つでしょう。

13 regression statistical-significance

4

ノルム

ためノルムが（少なくとも部分的に）ユニークで、P = 1は非凸と凸との間の境界にあります。L 1ノルムが「最もまばらな」凸規範（右？）です。L1L1L_1p=1p=1p=1L1L1L_1 私はそれを理解し、ユークリッドノルムが幾何学にルーツを持ち、寸法が同じ単位を持っている場合には、明確な解釈を持っています。しかし、他の実数p > 1よりも優先的に使用される理由がわかりません：p = 1.5？p = π？完全な連続範囲をハイパーパラメーターとして使用しないのはなぜですか？p=2p=2p=2p>1p>1p>1p=1.5p=1.5p=1.5p=πp=πp=\pi 私は何が欠けていますか？

13 regression regularization sparse

4

線形回帰では、なぜ応答変数は連続的でなければならないのですか？

線形回帰では、応答変数は連続でなければならないことを知っていますが、なぜそうなのですか？応答変数に離散データを使用できない理由を説明するオンラインを見つけることができません。

13 regression linear

2

r、rの2乗、残差標準偏差は線形関係について何を教えてくれますか？

リトル背景私は、回帰分析の解釈に取り組んでいますが、私は本当にRの意味について混乱、rは乗と残留標準偏差。私は定義を知っています：特徴づけ rは、散布図上の2つの変数間の線形関係の強度と方向を測定します R-2乗は、データが近似回帰直線にどれだけ近いかを示す統計的尺度です。残差標準偏差は、線形関数の周囲に形成される点の標準偏差を記述するために使用される統計用語であり、測定される従属変数の精度の推定値です。（ユニットが何であるかわからない、ここのユニットについての情報は役に立つでしょう）（ソース：ここ）質問私はキャラクタリゼーションを「理解」していますが、これらの用語がどのようにデータセットについて結論を導き出すかを理解しています。ここに小さな例を挿入します。これは私の質問に答えるためのガイドとして役立つかもしれません（あなた自身の例を自由に使用してください！）例これは手間がかかる質問ではありませんが、簡単な例を得るために本で検索しました（私が分析している現在のデータセットは複雑すぎて、ここに表示するには大きすぎます）トウモロコシの大きな畑で、それぞれ10 x 4メートルの20のプロットがランダムに選択されました。各プロットについて、植物密度（プロット内の植物の数）と平均穂軸重量（穂軸あたりの穀物のグラム）が観察されました。次の表に結果を示します。（出典：生命科学の統計） ╔═══════════════╦════════════╦══╗ ║ Platn density ║ Cob weight ║ ║ ╠═══════════════╬════════════╬══╣ ║ 137 ║ 212 ║ ║ ║ 107 ║ 241 ║ ║ ║ 132 ║ 215 ║ ║ ║ 135 ║ 225 ║ ║ ║ 115 …

13 r regression regression-coefficients linear pearson-r

3

高次多項式に大きな係数があるのはなぜですか

Bishopの機械学習に関する本では、多項式関数を一連のデータポイントに曲線近似する問題について説明しています。 Mを近似した多項式の次数とします。そのように述べています Mが増加すると、係数の大きさは通常大きくなることがわかります。特に、M = 9多項式の場合、対応する多項式関数が各データポイントに正確に一致するように、ただしデータポイント間で（特に両端の近くで）大きな正および負の値を作成することにより、係数がデータに対して微調整されました範囲）関数は大きな振動を示します。大きな値がデータポイントにより密接に適合することを意味する理由がわかりません。より適切にフィッティングするために、代わりに小数点以下の値がより正確になると思います。

13 regression least-squares curve-fitting polynomial

5

線形回帰を学習する理由

2つのランダム変数とηが与えられると、それらの「相関係数」cを計算し、これら2つのランダム変数間の最適なラインを形成できます。私の質問はなぜですか？ξξ\xiηη\etaccc 1）ランダム変数、とηがあります。これらは最悪の方法で依存しています。つまり、ξ = f （η ）であり、c = 0です。線形回帰に沿って考えるだけなら、これに完全に盲目になるでしょう。ξξ\xiηη\etaξ=f(η)ξ=f(η)\xi = f(\eta)c=0c=0c=0 2）特に線形なのはなぜですか？ランダム変数間に存在できる他の種類の関係があります。なぜ他のすべてからその1つを選抜するのですか

13 regression

1

ダニエルウィルクス（2011）は、主成分回帰が「バイアスされる」と言うのはなぜですか？

で大気科学における統計的手法の予測の中で非常に強いintercorrelations（第3版、ページ559から560）がある場合は、複数の線形回帰は、問題を引き起こす可能性があること、ダニエル・ウィルクス・ノート：多重線形回帰で発生する可能性のある病状は、強い相互相関を持つ予測変数のセットが不安定な回帰関係の計算につながる可能性があることです。（...）次に、主成分回帰を導入します。この問題を解決する方法は、最初に予測子をその相関関係がゼロである主成分に変換することです。ここまでは順調ですね。しかし、次に、彼は説明していない（または少なくとも私が理解するのに十分な詳細ではない）いくつかの声明を出します：すべての主成分が主成分回帰で保持されている場合、完全な予測子セットへの従来の最小二乗近似では何も得られません。（..）および：元の予測子に関して主成分回帰を再表現することは可能ですが、1つまたは少数の主成分予測子のみが使用されている場合でも、結果には一般にすべての元の予測子変数が含まれます。この再構成された回帰は偏りがありますが、多くの場合、分散ははるかに小さく、全体としてMSEが小さくなります。私はこれらの2つの点を理解していません。もちろん、すべての主成分が保持されている場合、元の空間で予測子を使用していたときと同じ情報を使用します。ただし、相互相関の問題は、主成分空間で作業することにより除去されます。私たちはまだ過剰適合しているかもしれませんが、それが唯一の問題ですか？何も得られないのはなぜですか？第二に、主成分を切り捨てたとしても（おそらくノイズ低減および/または過剰適合を防ぐために）、なぜ、どのようにこれが偏った再構成回帰につながるのでしょうか？どのように偏ったのですか？書籍のソース：Daniel S. Wilks、Atmospheric Methods in the Atmospheric Sciences、第3版、2011年。InternationalGeophysics Series Volume 100、Academic Press。

13 regression pca bias

3

回帰モデルの定義と区切り

恥ずかしいほど単純な質問ですが、以前にクロス検証で質問されたことはないようです：回帰モデルの定義は何ですか？また、サポートの質問、何でない回帰モデル？後者に関しては、答えがすぐにはわからないトリッキーな例に興味があります。例えば、潜在変数モデル（ARIMAやGARCHなど）はどうですか？

13 regression linear-model model terminology definition

3

線形回帰：OLSとMLEの同一性を与える非正規分布はありますか？

この質問は、ここでのコメントの長い議論から着想を得ています：線形回帰は正規分布をどのように使用しますか？：通常の線形回帰モデルでは、単純化のためにここで一つだけの予測で書かれた知られている定数であり、ゼロ平均の独立した誤差項です。さらに誤差の正規分布を仮定すると、の通常の最小二乗推定量と最尤推定量は同じです。Yi=β0+β1xi+ϵiYi=β0+β1xi+ϵ私 Y_i = \beta_0 + \beta_1 x_i + \epsilon_i xixix_iϵiϵi\epsilon_iβ0,β1β0,β1\beta_0, \beta_1 だから私の簡単な質問：mleが通常の最小スクアレス推定量と同一になるような誤差項の他の分布はありますか？1つの含意は簡単に表示でき、もう1つの含意はそうではありません。

13 regression normal-distribution mathematical-statistics maximum-likelihood least-squares

1

部分F統計とは何ですか？

部分F統計とは何ですか？それは部分的なF検定と同じですか？いつ部分F統計量を計算しますか？私はこれが回帰モデルの比較と関係があると仮定していますが、私は何かを追っていません（？）

13 regression multiple-regression

2

statsmodel OLSとscikit線形回帰の違い

同じ仕事をしているように見える、異なるライブラリからの2つの異なる方法について質問があります。線形回帰モデルを作成しようとしています。 OLSでstatsmodelライブラリを使用するコードは次のとおりです。 X_train, X_test, y_train, y_test = cross_validation.train_test_split(x, y, test_size=0.3, random_state=1) x_train = sm.add_constant(X_train) model = sm.OLS(y_train, x_train) results = model.fit() print "GFT + Wiki / GT R-squared", results.rsquared この印刷はGFT + Wiki / GT R-squared 0.981434611923 2つ目はscikit学習ライブラリの線形モデル法です。 model = LinearRegression() model.fit(X_train, y_train) predictions = model.predict(X_test) print 'GFT + Wiki / …

13 regression python scikit-learn statsmodels

タグ付けされた質問 「regression」

タグ付けされた質問「regression」