タグ付けされた質問 「regression」

1つ(または複数)の「従属」変数と「独立」変数の間の関係を分析する手法。

5
周期成分を線形回帰モデルに追加する方法は?
累積頻度データがいくつかあります。線は、データに非常によく適合するように見えますが、線に周期的/周期的な小刻みがあります。累積頻度が特定の値cに達する時期を推定したいと思います。残差対適合値をプロットすると、美しい正弦波の挙動が得られます。y= a x + by=aバツ+by=ax+bccc ここで、別の複雑さを追加するために、残差プロットに注意してください 他よりも低い値を持つ2つのサイクルがあります。これは、週末の影響も考慮する必要があります。 だから、ここからどこに行くのですか?いくつかのコサイン、サイン、またはサイクリック項を回帰モデルに組み合わせて、およそ 累積頻度がに等しくなる時期を推定しますか?ccc

2
Cox回帰でExp(B)を解釈するにはどうすればよいですか?
私は統計を理解しようとしている医学生です!;) 私は、生存分析(Kaplan-Meier、Log-Rank、Cox回帰)を含むかなりの量の統計分析を含むエッセイを書いています。 2つのグループ(高リスク患者または低リスク患者)の患者の死亡の間に有意差を見つけることができるかどうかを確認しようとして、データに対してCox回帰を実行しました。 Cox回帰にいくつかの共変量を追加して、それらの影響を制御しました。 Risk (Dichotomous) Gender (Dichotomous) Age at operation (Integer level) Artery occlusion (Dichotomous) Artery stenosis (Dichotomous) Shunt used in operation (Dichotomous) SEが非常に高いため(976)、共変量リストからArteryオクルージョンを削除しました。他のすべてのSEは、0,064〜1,118です。これは私が得るものです: B SE Wald df Sig. Exp(B) 95,0% CI for Exp(B) Lower Upper risk 2,086 1,102 3,582 1 ,058 8,049 ,928 69,773 gender -,900 ,733 1,508 …

2
変数を分類すると、重要ではないものから重要なものに変わります
多変量ロジスティック回帰モデルでは重要ではないことが判明した数値変数があります。ただし、グループに分類すると、突然重要になります。これは私には非常に直観に反しています。変数を分類するとき、いくつかの情報を放棄します。 どうすればいいの?

3
出力と予測子の間に実質的な相関関係がない場合、どのようにして適切な線形回帰モデルを取得できますか?
一連の変数/機能を使用して、線形回帰モデルをトレーニングしました。モデルのパフォーマンスは良好です。しかし、予測変数と良好な相関関係を持つ変数は存在しないことに気付きました。どうして可能ですか?

3
単純な最小二乗係数を見つけるために「正規方程式」を使用しないのはなぜですか?
私はここでこのリストを見ましたが、最小二乗法を解く方法がたくさんあるとは信じられませんでした。ウィキペディアの「正規方程式」は、かなり単純な方法のように思われました: α^β^= y¯- β^バツ¯、= ∑ni = 1(x私− x¯)(y私− y¯)∑ni = 1(x私− x¯)2α^=y¯−β^x¯,β^=∑i=1n(xi−x¯)(yi−y¯)∑i=1n(xi−x¯)2 {\displaystyle {\begin{aligned}{\hat {\alpha }}&={\bar {y}}-{\hat {\beta }}\,{\bar {x}},\\{\hat {\beta }}&={\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})(y_{i}-{\bar {y}})}{\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}\end{aligned}}} では、なぜそれらを使用しないのですか?マークLの上の最初のリンクで、SVDまたはQRは統計ソフトウェアで一般的な方法であり、正規方程式は「信頼性と数値精度の観点からは劣っています」と述べていることから、計算または精度の問題があるに違いないと思いました。ただし、次のコードでは、3つの一般的なpython関数と比較すると、正規方程式により小数点以下12桁までの精度が得られます。numpy's polyfit ; scipy's linregress ; およびscikit-learnのLinearRegression。 さらに興味深いのは、n = 100000000の場合に正規方程式法が最速であることです。私にとっての計算時間は次のとおりです。polyfitの場合は12.9秒。LinearRegressionの4.2秒。正規方程式の場合は1.8秒。 コード: import numpy as np from sklearn.linear_model import LinearRegression from scipy.stats import …

1
同時L1およびL2正則化(別名エラスティックネット)を使用した線形回帰のベイジアン解釈はありますか?
ペナルティを伴う線形回帰は、係数のガウス事前分布が与えられたMAP推定値を見つけることと同等であることはよく知られています。同様に、l 1ペナルティを使用することは、事前分布としてラプラス分布を使用することと同等です。l2l2l^2l1l1l^1 とl 2の正規化の重み付き組み合わせを使用することは珍しくありません。これは、係数の事前分布に相当すると言うことができます(直感的には、そうでなければならないようです)。この分布に素敵な分析形式(ガウスとラプラシアンの混合物)を与えることができますか?そうでない場合は、なぜですか?l1l1l^1l2l2l^2

2
応答変数の0と1をベータ回帰で正確に処理できないのはなぜですか?
多くの場合、0から1の間の値をとる分数、比率、確率などの応答を処理するために、ベータ回帰(ベータ分布と通常はロジットリンク関数を使用するGLM)が推奨されます:結果の回帰(比率または分数) 0と1の間。 ただし、応答変数が0または1に少なくとも1回等しくなるとすぐにベータ回帰を使用できないと常に主張されています。その場合、ゼロ/ 1膨張ベータモデルを使用するか、応答の変換などを行う必要があります。1および0を含む比率データのベータ回帰。 私の質問は次のとおりです。ベータ分布のどのプロパティが、ベータ回帰が正確な0と1を処理するのを妨げますか、そしてその理由は何ですか? とはベータ配布をサポートしていないと思います。しかし、すべての形状パラメータのためにと、両方の0と1があるベータ分布の支援では、分布が片側または両側に無限大に行くことをより小さな形状パラメータのみです。そしておそらく、サンプルデータは、とが最適に適合し、両方とも超えるようなものです。000111α>1α>1\alpha>1β>1β>1\beta>1αα\alphaββ\beta111 場合によっては、実際にはゼロ/ 1でもベータ回帰を使用できるということですか? もちろん、0と1がベータ分布をサポートしている場合でも、正確に0または1を観測する確率はゼロです。しかし、他の与えられた数えられる値のセットを観察する確率はそうなので、これは問題になりえないでしょうか?(@Glen_bによるこのコメント)。 \hskip{8em} ベータ回帰のコンテキストでは、ベータ分布は異なる方法でパラメーター化されますが、では、すべてのに対してで明確に定義される必要があります。ϕ=α+β>2ϕ=α+β>2\phi=\alpha+\beta>2[0,1][0,1][0,1]μμ\mu

2
回帰分析と曲線近似の違い
可能であれば例を使って、回帰分析と曲線近似(線形および非線形)の実際の違いを説明してもらえますか? どちらも2つの変数間の関係(従属と独立)を見つけようとし、提案されているモデルに関連するパラメーター(または係数)を決定しようとするようです。たとえば、次のようなデータセットがある場合: Y = [1.000 1.000 1.000 0.961 0.884 0.000] X = [1.000 0.063 0.031 0.012 0.005 0.000] 誰もがこれら2つの変数間の相関式を提案できますか?これら2つのアプローチの違いを理解するのが困難です。他のデータセットで答えをサポートしたい場合、それは適合しにくいと思われるので大丈夫です(おそらく私だけのために)。 上記のデータセットは、受信者動作特性(ROC)曲線のおよび軸を表します。ここで、は真陽性率(TPR)、は偽陽性率(FPR)です。xxxy xyyyyyyxxx 特定のFPR(またはその逆)のTPRを推定するために、これらのポイントの中で、曲線を近似するか、元の質問に従って回帰分析を行っていますが、まだ定かではありません。 まず、2つの独立変数(TPRとFPR)の間にこのような曲線近似関数を見つけることは科学的に受け入れられますか? 第二に、実際のネガティブなケースと実際のポジティブなケースの分布が正規でないことを知っている場合、そのような関数を見つけることは科学的に受け入れられますか?

1
LOESSの予測間隔の計算方法
RのLOESSモデルを使用して適合させたデータがあり、これを提供します。 データには1つの予測子と1つの応答があり、不均一です。 信頼区間も追加しました。問題は、区間がラインの信頼区間であるのに対して、予測区間に興味があることです。たとえば、下部パネルは上部パネルよりも可変性がありますが、これは間隔でキャプチャされません。 この質問はやや関連しています: 多項式回帰からの信頼帯、特に@AndyWによる答えを理解しますが、彼の例では、にinterval="predict"存在する比較的単純な引数を使用していますがpredict.lm、にはありませんpredict.loess。 したがって、非常に関連する2つの質問があります。 LOESSのポイントごとの予測間隔を取得するにはどうすればよいですか? その間隔をキャプチャする値をどのように予測できますか?つまり、最終的に元のデータのように見える一連の乱数を生成できますか? LOESSを必要とせず、他の何かを使用する必要がある可能性がありますが、自分のオプションに慣れていません。基本的には、ローカル回帰または多重線形回帰を使用してラインに適合し、ラインのエラー推定値に加えて、さまざまな説明変数のさまざまな分散も提供するため、特定のx値で応答変数(y)の分布を予測できます。

2
追加変数プロット(部分回帰プロット)は、重回帰で何を説明しますか?
Moviesデータセットのモデルがあり、回帰を使用しました。 model <- lm(imdbVotes ~ imdbRating + tomatoRating + tomatoUserReviews+ I(genre1 ** 3.0) +I(genre2 ** 2.0)+I(genre3 ** 1.0), data = movies) res <- qplot(fitted(model), resid(model)) res+geom_hline(yintercept=0) 出力は次のとおりです。 今、私は最初にAdded Variable Plotと呼ばれるものを試しましたが、次の出力が得られました: avPlots(model, id.n=2, id.cex=0.7) 問題は、Googleを使用して追加変数プロットを理解しようとしましたが、その深さを理解できませんでした。プロットを見て、出力に関連する各入力変数に基づいたスキューの表現の種類を理解しました。 データの正規化を正当化する方法など、もう少し詳細を取得できますか?

1
ロジスティック回帰の省略された変数バイアスと通常の最小二乗回帰の省略された変数バイアス
ロジスティック回帰および線形回帰の省略された変数バイアスについて質問があります。 線形回帰モデルからいくつかの変数を省略したとします。これらの省略された変数は、モデルに含めた変数と無相関であると仮定します。これらの省略された変数は、私のモデルの係数にバイアスをかけません。 しかし、ロジスティック回帰では、これは真実ではないことがわかりました。省略された変数が含まれた変数と無相関であっても、省略された変数は含まれた変数の係数にバイアスをかけます。私はこのトピックに関する論文を見つけましたが、それについて頭や尾を作ることはできません。 これが論文とパワーポイントのスライドです。 バイアスは、明らかにゼロに向かっています。誰もこれがどのように機能するか説明できますか?

2
順序ロジスティック回帰の解釈
この順序ロジスティック回帰をRで実行しました。 mtcars_ordinal <- polr(as.factor(carb) ~ mpg, mtcars) 私はこのモデルの概要を得ました: summary(mtcars_ordinal) Re-fitting to get Hessian Call: polr(formula = as.factor(carb) ~ mpg, data = mtcars) Coefficients: Value Std. Error t value mpg -0.2335 0.06855 -3.406 Intercepts: Value Std. Error t value 1|2 -6.4706 1.6443 -3.9352 2|3 -4.4158 1.3634 -3.2388 3|4 -3.8508 1.3087 -2.9425 …


2
回帰における定性的変数コーディングは「特異点」につながります
「品質」という独立変数があります。この変数には、応答の3つのモダリティ(低品質、中品質、高品質)があります。この独立変数を多重線形回帰に導入したいと思います。バイナリ独立変数(ダミー変数、0/ をコーディングできます1)がある場合、それを多重線形回帰モデルに導入するのは簡単です。 しかし、応答の3つのモダリティを使用して、この変数を次のようにコーディングしようとしました。 Bad quality Medium quality High quality 0 1 0 1 0 0 0 0 1 0 1 0 しかし、多重線形回帰を行おうとすると問題がありMedium qualityますNA:モダリティは私に与えます: Coefficients: (1 not defined because of singularities) この変数「品質」を3つのモダリティでどのようにコーディングできますか?因子(factorin R)として変数を作成する必要がありますが、この因子を多重線形回帰に導入できますか?

1
Rの関数「効果」は何をしますか?
effects()Rののヘルプファイルの説明がわかりません。 lmまたはによって近似された線形モデルの場合aov、効果は、近似プロセス中にQR分解によって生成された連続する直交部分空間にデータを投影することによって得られた無相関の単一自由度の値です。 誰もこれが何を意味するのか説明できますか? 直交部分空間は、QR分解のQ部分の列にまたがる(したがって、互いに直交する)1次元部分空間を暗示していますか?または、それらは他の何かに直交することになっていますか?
17 r  regression 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.