統計とビッグデータ regression

3

それはまったく奇妙な質問かもしれませんが、主題の初心者として、回帰の仮定の1つが回帰が適用されているデータがiidでなければならない場合、なぜ回帰を使用して時系列をトレンドダウンするのか疑問に思っています非iid？

14 regression time-series trend iid

2

2つの線形回帰モデルがある場合、どちらのモデルのほうがパフォーマンスが向上しますか？

私は大学で機械学習コースを始めました。クイズの1つで、この質問が尋ねられました。モデル1：y=θx+ϵy=θx+ϵ y = \theta x + \epsilon モデル2：y=θx+θ2x+ϵy=θx+θ2x+ϵ y = \theta x + \theta^2 x + \epsilon 上記のモデルのどれがデータによりよく適合しますか？（線形回帰を使用してデータをモデル化できると仮定）（教授によると）正しい答えは、両方のモデルが同等にうまく機能するということです。ただし、最初のモデルの方が適していると思います。これが私の答えの背後にある理由です。以下のように書き換えることができる第2のモデル、αx+ϵαx+ϵ \alpha x + \epsilon 、α=θ+θ2α=θ+θ2\alpha = \theta + \theta^2第一のモデルと同じではないであろう。αα\alpha実際に放物線であるため、最小値を有する（−0.25−0.25 -0.25 この場合は）。このため、最初のモデルのθθ \theta の範囲は、2番目のモデルのの範囲よりも大きくなっていますαα \alpha 。したがって、データがそのようなもので、最適な近似の勾配が-−0.25−0.25-0.25、第2のモデルは、最初の1に比べて非常にうまく機能しないでしょう。ただし、ベストフィットの勾配が−0.25−0.25-0.25、両方のモデルのパフォーマンスは同等です。最初の方が良いのですか、それともまったく同じですか？

14 regression machine-learning self-study modeling model

4

なぜですか？（1変数線形回帰）

注： =合計平方和、 = 平方誤差合計、 =回帰平方和。タイトルの方程式は、多くの場合次のように記述されます。SSTSSTSSTSSESSESSESSRSSRSSR ∑i = 1n（y私− y¯）2= ∑i = 1n（y私− y^私）2+ ∑i = 1n（y^私− y¯）2∑私=1n（y私−y¯）2=∑私=1n（y私−y^私）2+∑私=1n（y^私−y¯）2\sum_{i=1}^n (y_i-\bar y)^2=\sum_{i=1}^n (y_i-\hat y_i)^2+\sum_{i=1}^n (\hat y_i-\bar y)^2 かなり簡単な質問ですが、直感的な説明を探しています。直感的には、がより理にかなっているように思えます。たとえば、ポイントに対応するy値およびとします。ここで、は回帰直線上の対応するポイントです。また、データセットの平均y値がと仮定し。次に、この特定のポイントiについて、、および。明らかに、です。この結果はデータセット全体に一般化されませんか？わかりません。SST≥ SSE+ SSRSST≥SSE+SSRSST\geq SSE+SSRバツ私バツ私x_i、Y iが = 3 、Y I ˉ Y = 0 S S T = （5 - 0 ）2 = 5 2 = 25 …

14 regression least-squares r-squared

2

データを平滑化し、単調性を強制する方法

平滑化されたポイントが単調に減少するように、平滑化するデータがいくつかあります。私のデータは急激に減少し、その後横ばいになり始めます。Rを使用した例を次に示します df <- data.frame(x=1:10, y=c(100,41,22,10,6,7,2,1,3,1)) ggplot(df, aes(x=x, y=y))+geom_line() 使用できる優れた平滑化手法は何ですか？また、最初の平滑化されたポイントを強制的に観測ポイントに近づけることができればいいと思います。

14 regression smoothing

3

ディープニューラルネットワーク—画像分類専用ですか？

深い信念または畳み込みニューラルネットワークを使用して見つけたすべての例は、画像分類、チャットの検出、または音声認識にそれらを使用します。ディープニューラルネットワークは、特徴が構造化されていない（たとえば、シーケンスまたはグリッドに配置されていない）古典的な回帰タスクにも役立ちますか？はいの場合、例を挙げることができますか？

14 regression machine-learning neural-networks deep-learning

3

スプラインとガウス過程回帰

Gaussian Process Regression（GPR）は、柔軟な非線形モデルのフィッティングにスプラインを使用する代わりになることを知っています。特にベイジアン回帰フレームワークにおいて、どちらの状況が他の状況よりも適しているかを知りたいと思います。私はすでに見てきましたスプライン、平滑化スプライン、およびガウス過程エミュレータを使用することの利点/欠点は何？しかし、この投稿にはGPRに関するものは何もないようです。

14 regression gaussian-process splines kriging

1

混合効果モデルが依存関係を解決するのはなぜですか？

学生の試験の成績が、それらの学生が勉強する時間数によってどのように影響されるかに興味があるとします。この関係を調べるために、次の線形回帰を実行できます。 exam.gradesi=a+β1×hours.studiedi+eiexam.gradesi=a+β1×hours.studiedi+ei \text{exam.grades}_i = a + \beta_1 \times \text{hours.studied}_i + e_i しかし、複数の異なる学校の生徒をサンプリングすると、同じ学校の生徒は、異なる学校の生徒よりも互いに似ていると思われるかもしれません。この依存関係の問題に対処するために、多くの教科書/ Webでのアドバイスは、混合効果を実行し、ランダム効果として学校に入ることです。したがって、モデルは次のようになります。しかし、これにより、線形回帰？exam.gradesi=a+β1×hours.studiedi+schoolj+eiexam.gradesi=a+β1×hours.studiedi+schoolj+ei \text{exam.grades}_i = a + \beta_1 \times \text{hours.studied}_i + \text{school}_j + e_i 12歳の子供と話しているかのように返信してください

14 regression mixed-model random-effects-model non-independent

2

GLM：配布およびリンク機能の選択の検証

ガウス分布と対数リンク関数を採用した一般化線形モデルがあります。モデルをフィッティングした後、残差をチェックします：QQプロット、残差対予測値、残差のヒストグラム（十分な注意が必要であることを認める）。すべてがよさそうだ。これは、（私にとって）ガウス分布の選択が非常に合理的だったことを示唆しているようです。または、少なくとも、残差がモデルで使用した分布と一致していること。 Q1：配布の選択を検証することを述べるのは遠すぎますか？応答変数は常に正であるため、ログリンク関数を選択しましたが、それが適切な選択であることを何らかの確認が必要です。 Q2：リンク関数の選択をサポートできる、分布の選択の残差をチェックするようなテストはありますか？（リンク関数を選択することは、私には少しarbitrary意的であると思われます。私が見つけることができる唯一のガイドラインは、おそらく正当な理由のために、非常に曖昧で手ぶれです。）

14 regression generalized-linear-model link-function

1

exp（係数）からオッズ比まで、および要因を使用したロジスティック回帰でのその解釈

私は、SATスコアおよび家族/民族的背景に対する大学への受け入れの線形回帰を実行しました。データは架空のものです。これは、すでに回答済みの前の質問のフォローアップです。この質問は、SATスコアを単純化するために脇に置いておくときのオッズ比の収集と解釈に焦点を当てています。変数はAccepted（0または1）およびBackground（ "red"または "blue"）です。「赤」の背景を持つ人々が入る可能性が高くなるようにデータを設定しました。 fit <- glm(Accepted~Background, data=dat, family="binomial") exp(cbind(Odds_Ratio_RedvBlue=coef(fit), confint(fit))) Odds_Ratio_RedvBlue 2.5 % 97.5 % (Intercept) 0.7088608 0.5553459 0.9017961 Backgroundred 2.4480042 1.7397640 3.4595454 質問：「青い」背景の人の奇数比は0.7ですか？私がこれを求めているのはBackgroundblue、代わりに次のコードを実行すると、「」に対して0.7も得られるからです。 fit <- glm(Accepted~Background-1, data=dat, family="binomial") exp(cbind(OR=coef(fit), confint(fit))) 「赤」のオッズ比（）だけの逆数ではありません：（O d d s B l u e = 1 / O d d s R e …

14 r regression logistic

2

変数を別の変数に対して回帰するとはどういう意味ですか

をに対して回帰するということは、が独立変数であり、Yが従属変数であることを意味しますか？すなわち、です。YYYバツバツXバツバツXY= X+ bY=aバツ+bY =aX + b

14 regression terminology

5

打ち切りデータとは正確には何ですか？

打ち切りデータのさまざまな説明を読みました。 A）このスレッドで説明されているように、特定のしきい値を下回るまたは上回る数量化されていないデータは打ち切られます。数量化されていないということは、データが特定のしきい値を上回るか下回ることを意味しますが、正確な値はわかりません。データは、回帰モデルの低しきい値または高しきい値でマークされます。これは、このプレゼンテーションの説明と一致しますが、非常に明確であることがわかりました（最初のページの2番目のスライド）。つまり、は最小値、最大値、またはその両方に制限されます。これは、その範囲外の真の値がわからないためです。YYY B）友人から、未知の結果に関する少なくともいくつかの制限情報があれば、打ち切りデータモデルを部分的に未知の観測に適用できると言われました。たとえば、いくつかの定性的基準（商品の種類、国、入札者の富など）に基づいて、サイレントオークションと公開オークションの組み合わせの最終価格を推定します。公開オークションではすべての最終価格わかりますが、サイレントオークションでは最初の入札（たとえば1,000ドル）だけがわかり、最終価格はわかりません。この場合、データは上から打ち切られ、打ち切り回帰モデルを適用する必要があると言われました。YYYYiYiY_iYiYiY_i C）最後によって与えられた定義があるウィキペディア完全に欠けているが、予測因子が利用可能ですが。この例が切り捨てられたデータとどのように異なるかはわかりません。YYY では、打ち切られたデータとは正確には何ですか？

14 regression terminology censoring

4

「相関」は回帰分析の傾きも意味しますか？

私は論文を読んでおり、著者は次のように書いています。 Yに対するA、B、Cの影響は、重回帰分析を使用して調査されました。A、B、Cは、従属変数としてYを使用して回帰式に入力されました。分散分析を表3に示します。Yに対するBの効果は有意であり、Bは.27をYと相関させます。英語は私の母国語ではなく、私はここで本当に混乱しました。最初に、彼は回帰分析を実行すると述べ、次に分散分析を示しました。どうして？そして、彼は相関係数について書きました、それは相関分析からではありませんか？または、この単語を使用して回帰勾配を説明することもできますか？

14 regression correlation terminology

1

回帰係数と偏回帰係数の違いは何ですか？

私はAbdi（2003）でそれを読みました独立変数がペアワイズ直交である場合、回帰における各変数の効果は、この独立変数と従属変数間の回帰の勾配を計算することにより評価されます。この場合（つまり、IVの直交性）、偏回帰係数は回帰係数と等しくなります。他のすべての場合、回帰係数は偏回帰係数とは異なります。ただし、このドキュメントでは、これらの2種類の回帰係数の違いを説明していませんでした。 Abdi、H.（2003）。偏回帰係数。Lewis-Beck M.、Bryman、A.、Futing T.（編）（2003）Encyclopedia of Social Sciences：Research Methods。カリフォルニア州サウザンドオークス：SAGE Publications。

14 regression multiple-regression regression-coefficients terminology

4

ランダムフォレスト手法を線形回帰に適用できますか？

ランダムフォレストは、元のトレーニングデータのブートストラップサンプル（入力変数と観測値の両方のサンプル）を使用して各ツリーが作成される決定ツリーのアンサンブルを作成することにより機能します。同様のプロセスを線形回帰に適用できますか？k個の回帰ごとにランダムブートストラップサンプルを使用してk個の線形回帰モデルを作成するモデルのような「ランダム回帰」を作成しない理由は何ですか？ありがとう。基本的に誤解していることがあれば教えてください。

14 regression predictive-models ensemble

3

多項式回帰から信頼帯を理解する

以下のグラフに表示される結果を理解しようとしています。通常、Excelを使用して線形回帰線を取得する傾向がありますが、以下の場合はRを使用しており、コマンドで多項式回帰を取得します： ggplot(visual1, aes(ISSUE_DATE,COUNTED)) + geom_point() + geom_smooth() だから私の質問はこれに要約されます：青い回帰線の周りの灰色の領域（矢印＃1）は何ですか？これは多項式回帰の標準偏差ですか？灰色の領域の外側（矢印＃2）が「外れ値」であり、灰色の領域の内側（矢印＃3）が標準偏差内にあると言えますか？

14 r regression data-visualization outliers

タグ付けされた質問 「regression」

タグ付けされた質問「regression」