統計とビッグデータ regression

2

結果あり、それがいくつかの予測子とどのように関係するかという古典的なデータ分析の問題を考えてみましょう。ここで念頭に置いたアプリケーションの基本的なタイプは、 X I 1、。。。、X i pYiYiY_{i}Xi1,...,XipXi1,...,XipX_{i1}, ..., X_{ip} YiYiY_{i}は、都市iの犯罪率などのグループレベルの結果iiiです。予測子は、都市iの人口統計学的特徴などのグループレベルの特性ですiii。基本的な目標は、回帰モデルを適合させることです（おそらくランダム効果を使用しますが、今のところは忘れてください）。 E(Yi|Xi)=β0+β1Xi1+...+βpXipE(Yi|Xi)=β0+β1Xi1+...+βpXip E(Y_{i} | {\bf X}_{i} ) = \beta_0 + \beta_1 X_{i1} + ... + \beta_p X_{ip} 1つ（または複数）の予測変数が、ユニットごとに異なるサンプルサイズを持つ調査の結果である場合、いくつかの技術的な困難が生じますか？例えば、仮定Xi1Xi1X_{i1}都市の要約スコアであるiiiの都市からの個体の試料からの平均応答であるiiiが、サンプルは、これらの平均値をに基づいていたサイズが乱暴に異なっています。 C i t y12345⋮S a m p l e s i z e 2010030053⋮C私tySample s私ze120210033004553⋮⋮\begin{array}{c|c} {\rm City} & {\rm Sample \ size} …

14 regression measurement-error errors-in-variables

1

前方段階的回帰アルゴリズムとは何ですか？

たぶん疲れているだけなのかもしれませんが、Forward Stagewise Regressionアルゴリズムを理解しようとすると問題が発生します。「統計的学習の要素」ページ60：前方段階的回帰（FS）は、前方段階的回帰よりもさらに制約されます。これは、[平均] yに等しい切片を持つフォワードステップワイズ回帰のように始まり、最初は係数がすべて0である中心予測子です。各ステップで、アルゴリズムは現在の残差と最も相関する変数を識別します。次に、この選択した変数の残差の単純な線形回帰係数を計算し、その変数の現在の係数に追加します。これは、どの変数も残差と相関関係がなくなるまで続けられます。つまり、N> pのときに最小二乗が適合します。だから、これはアルゴリズムですか？： b[1]=mean(y) b[2..n]=0 r=(y-X*b) index, maxCorr = max(transpose(r)*X) while(abs(maxCorr) > someThreshold) b[index]=b[index]+regress(r,X[1..n][index]) r=(y-X*b) index, maxCorr = max(transpose(r)*X) bは係数の列ベクトル、Xは入力の行列、yは出力の列ベクトルです。すなわち、y = X * b + error。このアルゴリズムは、テストしているデータセットにいくつかの非ゼロ係数のみを提供し（しきい値= .0001）、予測精度はまったく良くないので、質問します。

14 regression algorithms feature-selection

1

直交多項式回帰から生の係数と分散を回復する

それは私のような回帰モデルを持っている場合と思われるyi〜β0+β1バツ私+β2バツ2私+β3バツ3私y私〜β0+β1バツ私+β2バツ私2+β3バツ私3y_i \sim \beta_0 + \beta_1 x_i+\beta_2 x_i^2 +\beta_3 x_i^3生の多項式を当てはめて信頼性の低い結果を得るか、直交多項式を当てはめて直接的な物理的解釈のない係数を得ることができます（たとえば、元のスケールで極値の位置を見つけるのに使用できません）。私は両方の長所を持ち、フィットした直交係数とその分散を元のスケールに変換できるようになっているようです。私は応用線形回帰の大学院コースを受講し（Kutner、5edを使用）、Draperの多項式回帰の章（3ed、Kutnerによって参照）を調べましたが、これを行う方法についての議論は見つかりませんでした。のヘルプテキストpoly()Rの関数はそうではありません。ここを含め、ウェブ検索で何も見つかりませんでした。直交多項式に当てはめられた係数から生の係数を再構築しています（そしてその分散を取得しています）... 不可能で、時間を無駄にしています。おそらく可能ですが、一般的な場合の方法はわかりません。「誰がしたいのか？」可能ですが、「明らか」だから議論されていません。答えが3または4の場合、これを行う方法を説明したり、そうするソースを指摘したりする忍耐があれば、非常に感謝します。それが1または2の場合、私はまだ障害が何であるかを知りたいです。これを読んでくれてありがとう、そして明白な何かを見落としているなら、私は前もって謝罪する。

14 regression linear-model regression-coefficients polynomial

1

カテゴリ変数（R内）で使用できるさまざまなタイプのコーディングと、それらをいつ使用しますか？

線形モデルまたは混合モデルを近似する場合、カテゴリーまたはノミナルバリベールを、ダミーコンディング（Rデフォルト）やエフェクトコーディングなど、パラメーターが推定される多くの変数に変換するために使用できるさまざまなタイプのコーディングがあります。相互作用がある場合、エフェクトコーディング（偏差またはコントラストコーディングと呼ばれることもあります）が好ましいと聞きましたが、可能なコントラストはどのようなもので、どのタイプのコントラストを使用するのですか？コンテキストはを使用したRでの混合モデリングですが、lme4より広範な応答は問題ないと思います。申し訳ありませんが、同様の質問を逃した場合。編集：2つの有用なリンクがあります：効果コーディングと説明されたダミーコーディング。

14 regression mixed-model categorical-data contrasts categorical-encoding

2

ロジスティック回帰に関する質問

バイナリロジスティック回帰を実行して、10年間（1997年から2006年）にわたって独立変数のセットからの競合（従属変数）の有無をモデル化し、毎年107回の観測を行います。私の独立者は：土地の劣化（2種類の劣化のカテゴリ）; 人口増加（0- no; 1-yes）; 生計タイプ（0-タイプ1、1-タイプ2）; 人口密度（3レベルの密度）; NDVI連続（最大野菜生産性）; NDVI t − 1（前年の野菜の減少-0-いいえ、1-はい）およびt − 1t−1_{t-1} およびNDVI t − 2（過去2年からの野菜の減少-0-いいえ、1-はい）。トン- 2t−2_{t-2} 私は全く新しいです-これは私の講師が私に与えたプロジェクトです-だから私はいくつかのアドバイスやガイダンスに感謝するでしょう。私はすでにマルチコリニリティについてテストしました。基本的に、私のデータは10年間（合計1070）をカバーする107の観測単位（空間領域）に分割され、観測単位ごとに、その単位内のその時点の独立変数の条件の「スナップショット」値になります（領域）。ロジスティック回帰（またはテーブル）を設定して、各年の107個の値を個別に認識して、異なる単位年間の一時的なNDVIの変化を評価できるようにする方法を知りたいですか？

14 regression time-series logistic spatial ecology

4

「節度」対「相互作用」？

私はこれらの2つの用語に出くわしましたが、これらの用語は多くの文脈で同じ意味で使用されています。基本的に、モデレーター（M）はXとYの関係に影響を与える要因です。通常、モデレーション分析は回帰モデルを使用して行われます。たとえば、性別（M）は、「製品調査」（X）と「製品購入」（Y）の関係に影響を与える可能性があります。相互作用では、X1とX2が相互作用してYに影響します。ここで同じ例は、「製品研究」（X1）が「性別」（X2）の影響を受け、一緒に「製品購入」（Y）に影響することです。節度では、MはXY関係に影響しますが、相互作用では、M（この場合は性別）が他のIVに影響することがわかります。質問：プロジェクトの目的が性別がXとYの関係にどのように影響するかを確認することである場合、モデレーションまたはインタラクションを使用する必要がありますか？注：私のプロジェクトは、XとYの因果関係ではなく、XとYの相関関係に関するものです。

14 regression interaction interpretation regression-coefficients terminology

3

変数を二分することの効果は何ですか？

変数を二分する場合、プロセスで失われる情報は何ですか？二分法は分析でどのように役立ちますか？

14 regression data-transformation binary-data

2

Box-Jenkinsモデルの選択

時系列分析におけるBox-Jenkinsモデル選択手順は、系列の自己相関関数と部分自己相関関数を調べることから始まります。これらのプロットは、ARMAモデルで適切なと提案できます。この手順は、AIC / BIC基準を適用して、ホワイトノイズエラー項を含むモデルを生成するモデルの中から最もmost約性の高いモデルを選択するようにユーザーに求めることによって続行します。pppqqq（p 、q）（p、q）(p,q) 視覚検査と基準に基づいたモデル選択のこれらのステップが、最終モデルの推定標準誤差にどのように影響するのかと思っていました。たとえば、横断的ドメインでの多くの検索手順は、標準エラーを下向きにバイアスする可能性があることを知っています。最初のステップでは、データ（ACF / PACF）を見て適切な数のラグを選択すると、時系列モデルの標準誤差にどのように影響しますか？ AIC / BICスコアに基づいてモデルを選択すると、断面法の場合と同様の影響があると思います。私も実際にはこの分野についてあまり知りませんので、この点についてもコメントをいただければ幸いです。最後に、各ステップで使用される正確な基準を書き留めた場合、プロセス全体をブートストラップして標準エラーを推定し、これらの懸念を排除できますか？

14 regression time-series arima model-selection box-jenkins

4

エラー項の分布は、応答の分布にどのように影響しますか？

したがって、誤差項が線形回帰で正規分布していると仮定すると、応答変数意味は？yyy

14 regression distributions

7

短い時系列はモデリングする価値がありますか？

ここにいくつかのコンテキストがあります。2つの環境変数（温度、栄養素レベル）が11年間の応答変数の平均値にどのように影響するかを調べることに興味があります。毎年、10万を超える場所からのデータがあります。目標は、11年間で、応答変数の平均値が環境変数の変化に応答したかどうかを判断することです（たとえば、気温が上がる+栄養素が増える=応答が大きくなる）。残念なことに、応答は平均値であるため（平均値を見ずに、定期的な経年変動だけで信号が圧倒される）、回帰は2つの説明変数を持つ11データポイント（1年に1平均値）になります。私にとって、線形の正の回帰でさえ、データセットが非常に小さいことを考えると、意味があると考えるのは難しいでしょう（関係が非常に強い場合を除き、名目上の40ポイント/変数さえ満たしません）。私はこの仮定をする権利がありますか？誰かが私が見逃しているかもしれない他の考え/視点を提供できますか？ PS：いくつかの警告：追加の年を待たずに、より多くのデータを取得する方法はありません。したがって、利用可能なデータは、私たちが本当に取り組まなければならないものです。

14 time-series regression sample-size small-sample

4

異なる従属変数を持つモデルのロジスティック係数を比較しますか？

これは私が数日前に尋ねた質問からのフォローアップ質問です。私はそれが問題に別の傾斜を置くと思うので、新しい質問をリストしました。問題は、異なる従属変数を持つモデル間で係数の大きさを比較できますか？たとえば、単一のサンプルで、経済が下院での票または大統領の票のより強力な予測因子であるかどうかを知りたいと言います。この場合、2つの従属変数は下院での投票（民主党に1、共和党に0をコード化）と大統領（民主党に1、共和党に0）の投票であり、独立変数は経済です。私は両方のオフィスで統計的に有意な結果を期待していますが、どのように一方が他方よりも「大きな」効果があるかをどのように評価しますか？これは特に興味深い例ではないかもしれませんが、私は比較する方法があるかどうか興味があります。係数の「サイズ」だけを見ることができないことは知っています。そう、異なる従属変数を持つモデルの係数を比較することは可能ですか？そして、もしそうなら、どのようにそれを行うことができますか？これのいずれかが意味をなさない場合、私に知らせてください。すべてのアドバイスとコメントを歓迎します。

14 regression logistic

2

健全な段階的回帰？

バイナリ分類子を作成するとします。私は数千の機能と数十のサンプルしか持っていません。ドメインの知識から、クラスラベルは少数の機能のみを使用して正確に予測できると信じるに十分な理由がありますが、どの機能かはわかりません。また、最終決定ルールを解釈/説明しやすくし、さらにいくつかの機能を必要とします。私の機能の特定のサブセットは高度に相関しているため、最も予測の少ない少数を個別に選択しても機能しません。また、自分の機能に対して仮説検定を有意義に実行できるようにしたいと考えています。これらの条件下で、次の段階的な回帰手順は妥当ですか？モデルに既に存在する特徴（または最初の反復での切片のみ）が与えられると、モデルに追加されたときに最大の対数尤度比を生成する特徴を選択します。尤度比カイ二乗検定を使用して、この選択で実行された各仮説検定の名目P値を計算します。ここでのヌルは、追加の変数をモデルに追加しても追加の予測機能が提供されないことです。代替手段は、予測能力を高めることです各反復のステップ1でテストされた仮説を家族として扱い、Benjamini-Hochbergのようなものを使用して、最小のP値（選択した特徴）の誤検出率を計算します。いくつかの停止基準が満たされない限り、1に移動します。個々のフィーチャの誤検出率を報告しますが、モデル全体のP値は報告しません（これは大幅に膨張するため）。これらの複数のテストで修正されたP値のそれぞれは、以前にモデルに追加されたすべての機能を考慮して、その機能の統計的有意性を表します。これらの状況下でこのようなことをすることで、ステップワイズ回帰の典型的な批判をすべてうまく回避できますか？この方法で誤検出率は合理的に計算されていますか？

14 regression logistic multiple-comparisons stepwise-regression

2

Rでのdrop1出力の解釈

Rでは、drop1コマンドは適切なものを出力します。次の2つのコマンドにより、出力が得られます。 example(step)#-> swiss drop1(lm1, test="F") 私のものは次のようになります。 > drop1(lm1, test="F") Single term deletions Model: Fertility ~ Agriculture + Examination + Education + Catholic + Infant.Mortality Df Sum of Sq RSS AIC F value Pr(F) <none> 2105.0 190.69 Agriculture 1 307.72 2412.8 195.10 5.9934 0.018727 * Examination 1 53.03 2158.1 189.86 …

14 r regression self-study stepwise-regression

3

回帰モデルが適合しすぎていることを検出する方法は？

あなたが仕事をしているとき、あなたが何をしているのかを認識していると、モデルに過剰適合したときの感覚を養います。一つには、モデルの調整されたR二乗の傾向または悪化を追跡できます。また、主要変数の回帰係数のp値の同様の劣化を追跡できます。しかし、誰か他の人の研究を読んだだけで、自分の内部モデル開発プロセスに関する洞察力がない場合、モデルが過剰適合であるかどうかを明確に検出する方法はありません。

14 regression multivariate-analysis overfitting

4

不連続性を許容するLOESS

LOESSのように、不連続のタイミングがアプリオリにわからないゼロ、1つ、またはそれ以上の不連続を可能にするモデリング手法はありますか？テクニックが存在する場合、Rに既存の実装はありますか？

14 r regression curve-fitting change-point loess

タグ付けされた質問 「regression」

タグ付けされた質問「regression」