統計とビッグデータ regression

2

私は説明変数のパネルがあるとため、、、ならびにバイナリ結果従属変数のベクトルを。したがって、は最終時間でのみ観測され、それ以前の時間では観測されません。完全に一般的なケースは、各ユニットに対して各時刻にに対して複数のを持たせることですが、簡潔にするためにケース注目しましょう。私は= 1 。。XitXitX_{it}i=1...Ni=1...Ni = 1 ... Nt=1...Tt=1...Tt = 1 ... TYiTYiTY_{iT}YYYTTTXijtXijtX_{ijt}j=1...Kj=1...Kj=1...KiiitttK=1K=1K=1 このような「アンバランス」ペアと時間相関の説明変数の適用例は、（毎日の株価、四半期ごとの配当）、（毎日の天気予報、毎年のハリケーン）または（各移動後のチェスポジションフィーチャ、勝ち/負け結果）です。ゲームの終わり）。(X,Y)(X,Y)(X, Y) 私は、回帰係数（おそらく非直線的）に興味があります行うための予測のトレーニングデータに、初期の観測与えられたことを知って、Xを私トンのためのT < T、それが最終的な結果につながるのY I Tβtβt\beta_tYitYitY_{it}XitXitX_{it}t<Tt<Tt < TYiTYiTY_{iT} Y^it=f(∑tk=1Xikβk),t=1...TY^it=f(∑k=1tXikβk),t=1...T\hat{Y}_{it} = f(\sum_{k=1}^{t} X_{ik} \beta_k), \quad t = 1 ... T 計量経済学のバックグラウンドから来て、そのようなデータに適用される回帰モデリングはあまり見ていません。OTOH、私はそのようなデータに次の機械学習技術が適用されているのを見てきました。データセット全体で教師付き学習を行う、例えば最小化 ∑i,t12(Yit−f(Xitβt))2∑i,t12(Yit−f(Xitβt))2\sum_{i,t}\frac{1}{2}(Y_{it} - f(X_{it} \beta_t))^2 観測されたYを過去のすべての時点に外挿/代入するだけでYYY Yit≡YiT,t=1...T−1Yit≡YiT,t=1...T−1Y_{it} \equiv Y_{iT}, \quad t = 1... T-1 これは、異なる時点間の一時的な相関関係を考慮しないため、「間違っている」と感じます。やって強化学習パラメータの学習で、このような一時的な差としてのおよび割引パラメータλを、再帰的解決のためにβ トンから始まる逆伝搬を通じてT = …

12 regression machine-learning reinforcement-learning

3

従来の統計では、ホールドアウト法（トレーニングとテストにデータを分割する）が使用されないのはなぜですか？

私の教室でのデータマイニングの経験では、モデルのパフォーマンスを評価する方法として、ホールドアウトメソッドが導入されました。ただし、線形モデルで最初のクラスを取ったとき、これはモデルの検証または評価の手段として導入されませんでした。私のオンライン調査でも、交差点は示されていません。ホールドアウト法が古典統計で使用されないのはなぜですか？

12 regression validation model-evaluation out-of-sample

3

線形回帰で使用されるガウス基底関数パラメーターの理解

ガウス基底関数を線形回帰の実装に適用したいと思います。残念ながら、基底関数のいくつかのパラメーターを理解するのに苦労しています。特にμμ\muおよびσσ\sigmaです。私のデータセットは10,000 x 31のマトリックスです。10,000個のサンプルと31個の機能。「各基底関数は入力ベクトルxをスカラー値に変換します」と読みました。したがって、xは1サンプルなので、1 x 31ベクトルであると想定します。ここから私は混乱しています。正確に何であるμjμj\mu_jパラメータは？これが基底関数の位置を支配することを読んだことがあります。これは何かの平均ではありませんか？また、下付き文字j（μμ\muおよびϕϕ\phi）によって投げ捨てられます。これにより、j番目の行と思われます。しかし、それは意味をなさないようです。あるμjμj\mu_jベクトル？さて、σσ\sigmaそれは「空間規模を支配する」。それは正確に何ですか？このパラメーターに対して.1、.5、2.5などの値を試す実装をいくつか見てきました。これらの値はどのように計算されますか？私は研究を行い、そこから学ぶための例を探してきましたが、現時点ではまだ見つけることができていません。どんな助けや指示も大歓迎です！ありがとうございました。

12 regression machine-learning basis-function

2

正規分布のXとYは、正規分布の残差になる可能性が高いですか？

ここでは、線形回帰における正規性の仮定の誤解について説明し（「正規性」は残差ではなくXおよび/またはYを参照する）、ポスターは非正規分布のXおよびYを持つことが可能かどうかを尋ねますまだ正規分布の残差があります。私の質問は、正規分布のXとY は正規分布の残差をもたらす可能性が高いですか？多くの関連する投稿がありましたが、この質問を具体的に尋ねられた人は誰もいないと思います。回帰が1つしかない場合、これはおそらく些細な点ですが、複数のテストがある場合はそれほど重要ではないことを理解しています。だから、100個のX変数があり、それらはすべて同じスキューを持っているので、すべてをテストしたいとします。それらをすべて正規分布に変換した場合、非正規分布の残差のために再検査が必要なX変数が少なくなります（異なる/変換なし）か、または回帰前の変換は完全に任意ですか？

12 regression normal-distribution data-transformation residuals assumptions

5

非常に多数のデータポイントで値の代入を実行する方法は？

非常に大きなデータセットがあり、約5％のランダムな値が欠落しています。これらの変数は互いに相関しています。次のRデータセットの例は、ダミーの相関データを使用した単なるおもちゃの例です。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …

12 r random-forest missing-data data-imputation multiple-imputation large-data definition moving-window self-study categorical-data econometrics standard-error regression-coefficients normal-distribution pdf lognormal regression python scikit-learn interpolation r self-study poisson-distribution chi-squared matlab matrix r modeling multinomial mlogit choice monte-carlo indicator-function r aic garch likelihood r regression repeated-measures simulation multilevel-analysis chi-squared expected-value multinomial yates-correction classification regression self-study repeated-measures references residuals confidence-interval bootstrap normality-assumption resampling entropy cauchy clustering k-means r clustering categorical-data continuous-data r hypothesis-testing nonparametric probability bayesian pdf distributions exponential repeated-measures random-effects-model non-independent regression error regression-to-the-mean correlation group-differences post-hoc neural-networks r time-series t-test p-value normalization probability moments mgf time-series model seasonality r anova generalized-linear-model proportion percentage nonparametric ranks weighted-regression variogram classification neural-networks fuzzy variance dimensionality-reduction confidence-interval proportion z-test r self-study pdf

2

予測間隔を使用して確率的ステートメントを作成できますか？

信頼区間と予測区間の解釈に関するサイト上の多くの優れた議論を読みましたが、1つの概念はまだ少し不可解です： OLSフレームワークを考えてみると、近似モデルが得られました。が与えられ、その応答を予測するように求められます。私たちは、計算のx ^ {* T} \帽子\ベータ版をボーナスとして、我々はまた、私たちの予測を中心に95％予測区間を提供し、そして、ラ・線形モデルで予測制限の式を得ます。この予測間隔をPIと呼びましょう。y^=Xβ^y^=Xβ^\hat y = X\hat\betax∗x∗x^*x∗Tβ^x∗Tβ^x^{*T}\hat\beta さて、PIの正しい解釈は次のうちどれですか（どちらでもありません）？用x∗x∗x^*特に、y(x∗)y(x∗)y(x^*)、95％の確率でPI内にあります。多数のxが与えられた場合xxx、PIを計算するこの手順は、95％の時間で真の応答をカバーします。線形回帰予測間隔の @gungの文言から、前者は正しいように思えます（非常によく誤解される可能性があります）。それが正しいかどう私たちがしているので、それは予測の実現確率変数の対推定パラメータを？（編集）ボーナスの質問：真のが何であるか、つまりデータを生成するプロセスを知っていると仮定すると、見ているだけで、特定の予測に関する確率について話すことができるでしょうか？ββ\betaϵϵ\epsilon これに対する私の最新の試み：（概念的に非常に大まかに言って）予測区間を2つの部分に分解できます。エラー項の範囲。（B）真の予測平均を知っていることを条件に、確率的ステートメントを作成できますが、全体として、予測間隔は、予測値の周りの頻度CIとしてのみ扱うことができます。これはいくらか正しいですか？

12 regression confidence-interval prediction-interval

2

Rの段階的回帰–クリティカルp値

step()段階的回帰のR の関数で使用される重要なp値は何ですか？0.15と仮定していますが、私の仮定は正しいですか？重要なp値を変更するにはどうすればよいですか？

12 r regression p-value stepwise-regression

1

ロジスティック回帰のハットマトリックスからの情報

私には明らかであり、複数のサイトで、ハットマトリックスの対角線上の値が線形回帰にどのような情報を与えるかをよく説明しています。ロジスティック回帰モデルの帽子行列は、私にはあまり明確ではありません。それは、線形回帰を適用して帽子行列から得た情報と同一ですか？これは、CVの別のトピックで見つけた帽子行列の定義です（ソース1）： H= Vバツ（X′Vバツ）−1 X′VH=Vバツ（バツ′Vバツ）−1バツ′VH=VX ( X'V X)^-1 X' V Xでは予測変数のベクトル、Vは対角行列です。（π（1- π））−−−−−−−−√（π（1−π））\sqrt{(π(1−π))} 言い換えれば、観測値のハットマトリックスの特定の値は、共変量空間内の共変量の位置も示すだけで、その観測値の結果値とは何の関係もないということですか？これはAgrestiの「Categorical data analysis」という本に書かれています。観測値のレバレッジが大きいほど、フィットに対する潜在的な影響が大きくなります。通常の回帰と同様に、レバレッジは0から1の間にあり、合計はモデルパラメーターの数になります。通常の回帰とは異なり、帽子の値は近似とモデル行列に依存し、極端な予測値を持つポイントは高いレバレッジを持つ必要はありません。したがって、この定義から、通常の線形回帰で使用するため、使用できないように見えますか？ソース1：Rのロジスティック回帰のハットマトリックスの計算方法

12 regression logistic

1

従属変数に「カットオフ」がある場合のモデリング

私が使用する用語のいずれかが間違っている場合は、事前におApび申し上げます。訂正を歓迎します。「カットオフ」と説明するものが別の名前になっている場合はお知らせください。質問を更新できます。私が興味を持っている状況はこれです：あなたは独立変数xx\bf{x}と単一の従属変数を持っていますyyy。あいまいにしておきますが、これらの変数の良い回帰モデルを取得するのは比較的簡単だと思います。 xx\bf{x}w=min(y,a)w=min(y,a)w = \min(y,a)aaayyyyyywww これの（やや非現実的な）例は、年金を徴収する期間をモデル化しようとした場合です。この場合、xx\bf{x}は性別、体重、週あたりの運動時間などの関連情報になります。「基礎となる」変数yyyは平均余命です。ただし、モデルでアクセスして予測しようとしている変数はw=min(0,y−r)w=min(0,y−r)w = \min(0, y-r)ここで、rは退職年齢です（簡単にするために固定されていると仮定）。回帰モデリングでこれに対処するための良いアプローチはありますか？

12 regression modeling survival censoring

4

回帰残差分布の仮定

誤差に分布の仮定を置く必要があるのはなぜですか、すなわち yi=Xβ+ϵiyi=Xβ+ϵiy_i = X\beta + \epsilon_{i}と、ϵi∼N(0,σ2)ϵi∼N(0,σ2)\epsilon_{i} \sim \mathcal{N}(0,\sigma^{2})。書いてみませんか yi=Xβ+ϵiyi=Xβ+ϵiy_i = X\beta + \epsilon_{i}とyi∼N(Xβ^,σ2)yi∼N(Xβ^,σ2)y_i \sim \mathcal{N}(X\hat{\beta},\sigma^{2})、ここで、いずれの場合にϵi=yi−y^ϵi=yi−y^\epsilon_i = y_i - \hat{y}。分布に関する仮定は、データではなくエラーに置かれていることを強調していますが、説明はありません。私はこれら2つの処方の違いを本当に理解していません。私は、データに分布の仮定が置かれている場所をいくつか見ています（ベイジアンのように見えますが、ほとんどそうです）が、ほとんどの場合、仮定はエラーに置かれています。モデル化するとき、なぜどちらか一方の仮定から始めることを選択するのはなぜですか？

12 regression normal-distribution residuals assumptions notation

5

再帰的（オンライン）正則化最小二乗アルゴリズム

Tikhonov Regularization（正則化された最小二乗法）のオンライン（再帰）アルゴリズムの方向を教えていただけますか？オフライン設定では、元のデータセットを使用してを計算し、n倍交差検証を使用してλを見つけます。y = x ^ T \ hat \ betaを使用して、指定されたxの新しいy値を予測できます。β^=(XTX+λI)−1XTYβ^=(XTX+λI)−1XTY\hat\beta=(X^TX+λI)^{−1}X^TYλλλyyyxxxy=xTβ^y=xTβ^y=x^T\hat\beta オンライン環境では、新しいデータポイントを継続的に描画します。データセット全体（元の+新しい）で完全な再計算を行わずに新しい追加のデータサンプルを描画するときに、を更新するにはどうすればよいですか？β^β^\hat\beta

12 regression machine-learning least-squares regularization online

2

生データで回帰的なモデルの仮定をテストする人と、残差でテストする人がいるのはなぜですか？

私は実験心理学の博士課程の学生であり、データの分析方法に関するスキルと知識の向上に努めています。心理学の5年目まで、私は回帰的モデル（ANOVAなど）が次のことを想定していると考えていました。データの正常性データの分散均一性など私の学部課程では、仮定はデータに関するものであると信じるようになりました。しかし、私の5年目に、私のインストラクターの何人かは、仮定が生データではなく誤差（残差によって推定される）についてであるという事実を強調しました。最近、私の同僚の何人かと仮定の質問について話していました。同僚も、大学の最後の年にのみ残差の仮定をチェックすることの重要性を発見したことを認めました。私がよく理解していれば、回帰的なモデルはエラーを仮定しています。したがって、残差の仮定を確認することは理にかなっています。もしそうなら、なぜ一部の人々は生データの仮定を確認しますか？そのようなチェック手順は、残差をチェックすることで得られるものに近いためでしょうか？私はこの問題について、同僚や私よりも正確な知識を持っている人たちと議論することに非常に興味を持っています。あなたの答えを前もって感謝します。

12 regression dataset residuals assumptions

1

隠れマルコフモデルで「最適な」モデルを選択するための基準

データの潜在状態の数を推定するために、隠れマルコフモデル（HMM）を近似しようとする時系列データセットがあります。これを行うための私の擬似コードは次のとおりです。 for( i in 2 : max_number_of_states ){ ... calculate HMM with i states ... optimal_number_of_states = "model with smallest BIC" ... } さて、通常の回帰モデルでは、BICは最もpar約的なモデルを好む傾向がありますが、HMMの場合、それが何をしているのかわかりません。BIC基準がどのようなHMMの傾向があるのかを実際に知っている人はいますか？また、AICと尤度値も取得できます。州の真の総数を推測しようとしているので、これらの基準の1つは、この目的のために他の基準よりも「優れている」のでしょうか。

12 r aic hidden-markov-model bic spss manova time-series r lme4-nlme regression modeling negative-binomial bayesian bugs state-space-models hypothesis-testing data-transformation factor-analysis sem

2

レベルごとに1つの観測値を持つ混合モデル

ランダム効果モデルglmerをいくつかのビジネスデータに適合させています。目的は、地域のばらつきを考慮して、販売業者による販売実績を分析することです。次の変数があります。 distcode：約800レベルのディストリビューターID region：最上位の地理的ID（北、南、東、西） zone：ネストされた中レベルの地理region、全部で約30レベル territory：内zoneにネストされた低レベルの地理、約150レベル各ディストリビューターは1つの地域でのみ営業しています。トリッキーな部分は、これが要約データであり、ディストリビューターごとに1つのデータポイントがあることです。したがって、800個のデータポイントがあり、正規化された方法ではあるが（少なくとも）800個のパラメーターを近似しようとしています。次のようにモデルを適合させました： glmer(ninv ~ 1 + (1|region/zone/territory) + (1|distcode), family=poisson) メモは出力されますが、これは問題なく実行されます。変量効果のグループ化因子のレベル数は、観測値の数nに等しいこれは賢明なことですか？すべての係数の有限推定値が得られ、AICも不合理ではありません。IDリンクを使用してポアソンGLMMを試すと、AICの方がはるかに悪いので、少なくともログリンクは出発点として適切です。近似値と応答をプロットすると、ディストリビューターごとに1つのデータポイントがあるため、本質的に完全な近似が得られます。それは合理的ですか、または私は完全に愚かなことをしていますか？これは1か月間のデータを使用しています。複数の月のデータを取得し、その方法でレプリケーションを行うことができますが、月ごとの変動と可能な相互作用については新しい用語を追加する必要がありますか？ ETA：上記のモデルをもう一度実行しましたが、family引数はありません（GLMMではなくガウスLMMにすぎません）。今、lmer私に次のエラーが発生しました：エラー（関数（fr、FL、start、REML、verbose））：ランダム効果のグループ化因子のレベル数は、観測値の数より小さくなければなりませんですから、家族を変えても効果はないはずなので、私は賢明なことをしていないと思います。しかし今の問題は、そもそもなぜ機能したのかということです。

12 r regression mixed-model lme4-nlme

2

時系列と回帰の関係と違い？

時系列と回帰の関係と違いは何ですか？モデルと仮定について、時系列モデルはそうではないが、回帰モデルは入力変数の異なる値の出力変数間の独立性を仮定するのは正しいですか？他のいくつかの違いは何ですか？以下のための方法から、ダーリントンによってウェブサイト時系列分析には多くのアプローチがありますが、最もよく知られている2つの方法は、回帰法とBox-Jenkins（1976）またはARIMA（AutoRegressive Integrated Moving Average）法です。このドキュメントでは、回帰方法を紹介します。3つの主な理由から、回帰法はARIMAよりもはるかに優れていると考えています時系列の「回帰方法」がウェブサイト上にあるものと、Box-JenkinsまたはARIMA方法とどのように異なるかについて、私はよくわかりません。誰かがそれらの質問について洞察を与えてくれれば幸いです。よろしくお願いします！

12 regression time-series box-jenkins

タグ付けされた質問 「regression」

タグ付けされた質問「regression」