統計とビッグデータ regression

3

これは、同僚の何人かが従う練習や方法に関する質問です。ロジスティック回帰モデルの作成中に、カテゴリ変数（またはビニングされた連続変数）をそれぞれの証拠の重み（WoE）に置き換える人々を見てきました。これは、リグレッサーと従属変数の間に単調な関係を確立するために行われると思われます。私の知る限り、モデルが作成されると、方程式の変数はデータセットの変数ではありません。むしろ、方程式の変数は、従属変数を分離する際の変数の重要性や重みのようなものになりました！私の質問は、どのようにモデルまたはモデル係数を解釈するのですか？たとえば、次の方程式の場合：ログ（ p1 − p） =β0+ β1バツ1ログ⁡（p1−p）=β0+β1バツ1 \log\bigg(\frac{p}{1-p}\bigg) = \beta_0 + \beta_1x_1 は、変数 1単位増加に対する比の相対的増加であると言えます。exp（β1）exp⁡（β1）\exp(\beta_1) バツ1バツ1x_1 しかし、変数がそのWoEに置き換えられた場合、解釈は次のように変更されます。私はインターネットでこの実践を見てきましたが、この質問の答えはどこにも見つかりませんでした。このコミュニティ自体からのこのリンクは、誰かが書いた似たようなクエリに関連しています： WoEは、ロジスティック回帰の従属変数であるオッズ比の自然対数との線形関係を表示します。したがって、変数の実際の値の代わりにWoEを使用する場合、ロジスティック回帰ではモデルの誤指定の問題は発生しません。しかし、まだ説明がわかりません。不足しているものを理解してください。

13 regression logistic categorical-data modeling

4

ラグと時系列のある多重線形回帰の「機械的な」違いは何ですか？

私は現在、データ工学の修士号を取得するために勉強しているビジネスと経済学を卒業しています。線形回帰（LR）を研究してから、時系列分析（TS）を研究しているときに、疑問が浮かびました。多重線形回帰を使用し、それにラグ変数を追加するのではなく、時系列（ARIMA）などのまったく新しいメソッドを作成する理由（ラグの順序はACFとPACFを使用して決定）？そこで、先生は私がこの問題について少しエッセイを書くことを提案しました。私は手ぶらで助けを求めに来ませんでしたので、私はこのトピックに関する研究を行いました。 LRを使用する場合、ガウスマルコフの仮定に違反すると、OLS回帰は正しくないこと、そしてこれは時系列データ（自己相関など）を使用するときに発生することを既に知っていました。（これに関する別の質問、GMの仮定の1つは、独立変数を正規分布させるべきか、それとも独立変数の条件付き従属変数だけかということです。）また、ここで提案している分散ラグ回帰を使用し、OLSを使用してパラメーターを推定すると、変数間の多重共線性が（明らかに）発生する可能性があるため、推定が間違っていることもわかっています。でTSとLRについて同様のポストここで、@IrishStatは言いました： ...回帰モデルは、動的回帰モデルまたはXARMAXモデルとも呼ばれる伝達関数モデルの特定のケースです。際立ったポイントは、時系列でのモデルの識別、つまり、適切な違い、Xの適切なラグ、適切なARIMA構造、パルスなどの不特定の決定論的構造の適切な識別、レベルシフト、ローカル時間傾向、季節的パルス、および組み込みです。パラメータの変化またはエラー分散を考慮する必要があります。（私はBox JenkinsとLRについてのAutoboxの彼の論文も読んでいます。）しかし、これでも私の疑問は解決しません（または、少なくとも私にとってRLとTSの異なるメカニズムを明確にしません）。遅れた変数でもOLS問題が発生し、効率的でも正確でもないことは明らかですが、最尤法を使用する場合、これらの問題は持続しますか？ARIMAは最尤法で推定されることを読んだので、遅れのあるLRがOLSではなくMLで推定される場合、「正しい」係数が得られます（順序のMAのように、遅延誤差項も含めると仮定します） q）。要するに、問題はOLSですか？MLを適用して問題は解決しましたか？

13 regression time-series multiple-regression least-squares arima

2

95％信頼区間の式

Googleでstats.stackexchangeを検索しましたが、線形回帰のR2R2R^2値の95％信頼区間を計算する式が見つかりません。誰でも提供できますか？さらに良いことに、以下のRで線形回帰を実行したとしましょう。Rコードを使用して、R2R2R^2値の95％信頼区間をどのように計算しますか。 lm_mtcars <- lm(mpg ~ wt, mtcars)

13 r regression confidence-interval inference r-squared

4

ROC曲線の解釈方法は？

SASのデータにロジスティック回帰を適用しました。これがROC曲線と分類表です。私は分類表の数値に満足していますが、roc曲線とその下の領域が何を示すのか正確にはわかりません。どんな説明でも大歓迎です。

13 regression logistic classification roc

2

日次データの重回帰で季節性をキャプチャする

季節性の高い製品の毎日の販売データがあります。回帰モデルで季節性をキャプチャしたい。四半期または毎月のデータがある場合、それぞれ3と11のダミー変数を作成できますが、毎日のデータを処理できますか？ 3年間の毎日のデータがあります。独立変数は、価格、販促フラグ（yes / no）、および温度です。従属変数は、その製品の販売です。重回帰モデルを使用しているため、時系列モデルを探していません。

13 regression time-series multiple-regression categorical-data

4

応答変数が年間イベント（通常）が発生する年の日である回帰モデル

この特定のケースでは、湖が凍る日を指しています。この「アイスオン」の日付は年に1回だけ発生しますが、まったく発生しない場合もあります（冬が暖かい場合）。そのため、1年で湖は20日目（1月20日）に凍結する可能性があり、もう1年でまったく凍結しない可能性があります。目標は、着氷日のドライバーを把握することです。予測因子は、毎年秋/冬の気温などです。年は、長期的な線形トレンドの予測因子になる可能性があります。 1）整数の「年の日」は妥当な応答変数ですか（そうでない場合は何ですか？）？ 2）湖が凍らない年をどう扱うべきか？編集：ここにエチケットが何であるかはわかりませんが、受け取った提案の結果を投稿すると思いました。こちらが論文、オープンアクセスです。@pedrofigueiraと@cboettigに感謝します。もちろん、エラーは私自身のものです。

13 regression time-series survival data-transformation recurrent-events

3

回帰係数の有意性に対してt検定を行うとき、なぜ自由度の数は

ここで、は、回帰係数の有意性のt検定を行うときに使用すべき自由度の数であると読みましたが、その理由はわかりません。私の理解では、t検定には一般にn − 1の自由度がありました。n − p − 1n−p−1n-p-1n − 1n−1n-1

13 regression hypothesis-testing multiple-regression t-test

3

線形回帰を実行しますが、ソリューションに特定のデータポイントを強制的に通過させます

一連のポイントで線形回帰を実行する方法を知っています。つまり、選択した多項式を特定のデータセットに（LSEの意味で）当てはめる方法を知っています。しかし、私が知らないのは、選択した特定のポイントを自分のソリューションに強制的に通過させる方法です。私はこれが以前に行われたことを見ましたが、どのように行われたかは言うまでもなく、プロシージャが何と呼ばれたか覚えていません。非常に単純で具体的な例として、xy平面上に100個の点が散在しており、それらに任意の次数の多項式を当てはめることを選択したとしましょう。私はこの線形回帰の実行方法を非常によく知っています。ただし、x座標x=3x=3x=3、x=19x=19x=19、およびx=89x=89x=89（およびそれらに対応するy座標）で3つのデータポイントを通過するために、ソリューションを「強制」したいとしましょうもちろん）。この一般的な手順は何と呼ばれ、どのように行われますか、また、注意する必要がある特定の落とし穴はありますか？編集：これを行うための具体的な方法を探していることを付け加えます。共分散行列を直接反転するか、勾配降下法を使用して、2つの方法のいずれかで実際に線形回帰を実行するプログラムを作成しました。私が求めているのは、どのように、正確に、ステップバイステップで、特定の点を通過するように多項式解を強制するように、私がやったことをどのように変更するのですか？ありがとう！

13 regression machine-learning least-squares linear-model polynomial

3

回帰の制限付きボルツマンマシン？

RBMに関して以前に尋ねた質問をフォローしています。それらについて記述している多くの文献がありますが、実際に回帰について言及しているものはありません（ラベル付きデータによる分類でさえも）。ラベルのないデータのみに使用されているように感じます。回帰を処理するためのリソースはありますか？または、隠しレイヤーの上に別のレイヤーを追加し、CDアルゴリズムを上下に実行するのと同じくらい簡単ですか？事前に感謝します。

13 regression machine-learning classification neural-networks

3

変数を捨てずに、高い多重共線性を持つ線形回帰で不安定な

高い多重共線性を持つ線形回帰のベータ安定性？線形回帰で、変数x1x1x_1とx2x2x_2多重共線性が高いとしましょう（相関は約0.9です）。 ββ\beta係数の安定性が心配なので、多重共線性を扱う必要があります。教科書の解決策は、変数の1つを捨てることです。しかし、単に変数を捨てることで有用な情報を失いたくありません。助言がありますか？

13 regression multicollinearity

2

階層ロジスティック回帰のベルヌーイパラメーターにベータ分布を使用する理由

現在、クルシュケの優れた「Doing Bayesian Data Analysis」本を読んでいます。ただし、階層ロジスティック回帰の章（第20章）はやや混乱を招きます。図20.2は、ベルヌーイパラメーターがシグモイド関数で変換された係数の線形関数として定義されている階層ロジスティック回帰を示しています。これは、他のオンラインソースでも見たほとんどの例で、階層ロジスティック回帰が行われる方法のようです。たとえば、http：//polisci2.ucsd.edu/cfariss/code/SIMlogit02.bug ただし、予測子が名義の場合、階層にレイヤーを追加します。ベルヌーイパラメーターは、muおよびkappaによって決定されるパラメーターを持つベータ分布（図20.5）から描画されます。ここで、muは係数の線形関数のS字変換です、およびkappaはガンマ事前分布を使用します。これは合理的で、第9章のコインフリッピングの例に似ていますが、名目予測子がベータ分布の追加とどう関係するのかわかりません。メトリック予測変数の場合にこれを行わないのはなぜですか。また、公称予測変数にベータ分布が追加されたのはなぜですか編集：私が言及しているモデルの明確化。まず、メトリック予測子を使用したロジスティック回帰モデル（ベータ事前なし）。これは、上記のバグの例など、階層ロジスティック回帰の他の例に似ています。 yi∼Bernoulli(μi)μi=sig(β0+∑jβjxji)β0∼N(M0,T0)βj∼N(Mβ,Tβ)yi∼Bernoulli⁡(μi)μi=sig⁡(β0+∑jβjxji)β0∼N(M0,T0)βj∼N(Mβ,Tβ) y_i \sim \operatorname{Bernoulli}(\mu_i) \\ \mu_i = \operatorname{sig}(\beta_0 + \sum_j \beta_j x_{ji} ) \\ \beta_0 \sim N(M_0, T_0) \\ \beta_j \sim N(M_\beta, T_\beta) \\ 次に、名目上の予測子を使用した例。ここで、階層の「下位」レベルの役割（ロジスティックな結果を2項式の前にベータに組み込む）の役割と、メトリックの例とは異なる理由をよく理解できません。 z私〜ビン（θ私、N）θ私〜ベータ（ aj、 bj）aj= μjκbj= （1 − μj） κκ 〜Γ （ Sκ、 Rκ）μj= sig（ β0+∑jβjバツj i）β0〜N（M0、T0）βj〜N（0 、τβ）τβ=1/σ2βσ2β∼folded t(Tt,DF)zi∼Bin⁡(θi,N)θi∼Beta⁡(aj,bj)aj=μjκbj=(1−μj)κκ∼Γ(Sκ,Rκ)μj=sig⁡(β0+∑jβjxji)β0∼N(M0,T0)βj∼N(0,τβ)τβ=1/σβ2σβ2∼folded …

13 regression bayesian logistic multilevel-analysis

3

ロジスティック回帰（または他の形式の回帰）での非線形性のテスト

ロジスティック回帰の前提の1つは、ロジットの線形性です。したがって、モデルを立ち上げて実行したら、Box-Tidwellテストを使用して非線形性をテストします。私の連続予測変数（X）の1つは、非線形性が陽性であることをテストしました。次に何をするつもりですか？これは仮定の違反であるため、予測変数（X）を取り除くか、非線形変換（X * X）を含める必要があります。または、変数をカテゴリカルに変換しますか？あなたが参照を持っているなら、あなたも私にそれを指し示すことができますか？

13 regression logistic references assumptions regression-strategies

3

OLSは青です。しかし、偏りと直線性を気にしないとどうなりますか？

ガウスマルコフの定理は、OLS推定量が線形回帰モデルの最良の線形不偏推定量であることを示しています。しかし、私は線形性と偏りを気にしないと仮定します。次に、Gauss-Markovの仮定またはその他の一般的な仮定の下で最も効率的な線形回帰モデルの推定値が他にありますか？もちろん、標準的な結果が1つあります。ガウスマルコフの仮定に加えて、エラーが正規分布していると仮定した場合、OLS自体が最良の不偏推定量です。他の特定のエラー分布については、対応する最尤推定量を計算できます。しかし、私はいくつかの比較的一般的な状況でOLSよりも優れた推定器があるかどうか疑問に思っていましたか？

13 regression unbiased-estimator

6

Yが有界で離散的である場合の線形回帰

質問は簡単です：Yが有界で離散的である場合に線形回帰を使用することは適切ですか（たとえば、テストスコア1〜100、事前定義されたランク1〜17）この場合、線形回帰を使用することは「良くない」のでしょうか、それともそれを使用するのはまったく間違っていますか？

13 regression multiple-regression least-squares linear bounds

3

ビッグデータ設定のために並列/分散方法で線形回帰を実行するにはどうすればよいですか？

私は非常に大きな線形回帰問題に取り組んでいます。データサイズが非常に大きいため、それらをマシンのクラスターに格納する必要があります。すべてのサンプルを1台のマシンのメモリ（ディスクも）に集約するには大きすぎますこれらのデータを回帰するために、私は並列アプローチを考えています。つまり、個々のボックスで回帰を実行し、各ベータの統計（おそらく平均または中央値）に基づいてベータを計算します。これは意味がありますか？もしそうなら、個々のR ^ 2から予想される合計をどのように取得すればよいですか？R2R2R^2R2R2R^2

13 regression linear large-data

タグ付けされた質問 「regression」

タグ付けされた質問「regression」