タグ付けされた質問 「regression」

1つ(または複数)の「従属」変数と「独立」変数の間の関係を分析する手法。

4
外れ値にロバストな高速線形回帰
外れ値のある線形データを扱っていますが、その一部は推定回帰線から5標準偏差以上離れています。私は、これらのポイントの影響を減らす線形回帰技術を探しています。 これまでのところ、すべてのデータで回帰直線を推定し、非常に大きな2乗残差(上位10%など)を持つデータポイントを破棄し、それらのポイントなしで回帰を繰り返しました。 文献には多くの可能なアプローチがあります:最小二乗、分位点回帰、m-推定量など。どのアプローチを試すべきか本当に分かりませんので、提案を探しています。私にとって重要なのは、最適化ルーチンの各ステップでロバスト回帰が計算されるため、選択した方法が高速であることです。どうもありがとう!

1
Scikit-learnでのワンホットエンコーディングとダミーエンコーディング
カテゴリー変数をエンコードするには、2つの異なる方法があります。たとえば、1つのカテゴリ変数にn個の値があります。ワンホットエンコーディングに変換してN個の変数ながらダミーコードへと変換し、N-1の変数。カテゴリ変数がk個あり、それぞれにn個の値がある場合。1つのホットエンコーディングはkn変数で終わり、ダミーエンコーディングはkn-k変数で終わります。 ワンホットエンコーディングの場合、インターセプトにより共線性の問題が発生し、モデルが正常に機能しないことがあります。誰かがそれを「ダミー変数トラップ」と呼びます。 私の質問: Scikit-learnの線形回帰モデルにより、ユーザーはインターセプトを無効にできます。ワンホットエンコーディングの場合、常にfit_intercept = Falseを設定する必要がありますか?ダミーエンコーディングの場合、fit_interceptは常にTrueに設定する必要がありますか?ウェブサイトに「警告」は表示されません。 ワンホットエンコーディングではより多くの変数が生成されるため、ダミーエンコーディングよりも自由度が高くなりますか?

2
重回帰の他の変数を「制御する」と「無視する」の間に違いはありますか?
重回帰の説明変数の係数は、その説明変数と従属変数の関係を示しています。これらすべては、他の説明変数を「制御」します。 これまでの表示方法: 各係数が計算されている間、他の変数は考慮されないため、それらは無視されると考えます。 「制御された」と「無視された」という用語は同じ意味で使用できると思いますか?

4
ANOVAが線形回帰と同等なのはなぜですか?
ANOVAと線形回帰は同じものだと読みました。ANOVAの出力が値と値であり、これに基づいてサンプルが異なるサンプル全体で同じか異なるかを判断すると、どのようになりますか。pFFFppp しかし、平均が等しくないと仮定すると(帰無仮説を棄却)、ANOVAは線形モデルの係数については何も伝えません。では、線形回帰はどのように分散分析と同じですか?
50 regression  anova 


7
単純な線形回帰におけるスイッチング応答と説明変数の効果
レッツは、間にいくつかの「真」の関係が存在することを言いyyy及びxxxようにy=ax+b+ϵy=ax+b+ϵy = ax + b + \epsilon、ここで及びbは定数であり、εは、 IID正常ノイズです。そのRコードからランダムにデータを生成し、次にのようなモデルに適合させると、明らかにaとbのかなり良い推定値が得られます。aaabbbϵϵ\epsilonx <- 1:100; y <- ax + b + rnorm(length(x))y ~ xaaabbb (x ~ y)ただし、変数の役割をinのように切り替えてから、の結果をxのyyy関数に書き換えると、結果の勾配は常に回帰で推定される勾配よりも急(負または正)になります。私はそれがなぜなのかを正確に理解しようとしているので、そこで何が起こっているのかについて誰かが私に直観を与えることができれば感謝しています。xxxy ~ x
48 regression 

7
経験豊富な開発者向けの統計情報をどこから始めるか
2015年の前半に、機械学習のコースコースを受講しました(Andrew Ng、素晴らしいコースによる)。機械学習の基礎を学びました(線形回帰、ロジスティック回帰、SVM、ニューラルネットワーク...) また、私は10年間開発者でしたので、新しいプログラミング言語を習得しても問題はありません。 最近、機械学習アルゴリズムを実装するためにRの学習を開始しました。 しかし、学習を続けたい場合は統計のより正式な知識が必要であり、現在は非公式の知識が必要であることに気付きましたが、たとえば、いくつかの線形モデルのどれを適切に決定することができなかったのかより良いでしょう(通常、私はR平方を使用する傾向がありますが、明らかにそれはあまり良い考えではありません)。 だから私には統計の基礎を学ぶ必要があることはかなり明白です(私は大学でそれを勉強しましたが、ほとんどのことを忘れました)、どこで学ぶべきか、私は本当に完全に包括的なコースを必要としないことに注意してください1か月以内に十分な知識が得られるので、熱心になり、さらに学ぶことができます:)。 これまでに「涙のない統計」について読んだことがありますか?

11
プロットと線形代数を使用せずに単純な線形回帰を実行できますか?
私は完全に盲目で、プログラミングの経験があります。 私がやろうとしているのは、機械学習を学ぶことです。これを行うには、まず線形回帰について学ぶ必要があります。この主題について私が見つけているインターネット上のすべての説明は、最初にデータをプロットします。グラフやプロットに依存しない線形回帰の実用的な説明を探しています。 単純な線形回帰の目的についての私の理解は次のとおりです。 単純な線形回帰は、一度与えれXば、の最も近い推定値を提供する式を見つけようとしていますY。 したがって、私が理解しているように、予測変数(たとえば、平方フィートの家の面積)を独立変数(価格)と比較する必要があります。私の例では、おそらくその地域から家の価格を計算するための最良の式を取得する非視覚的な方法を作成できます。たとえば、近所の1000軒の住宅の面積と価格を取得し、価格をその面積に分割するとしますか?結果(少なくとも私の住んでいるイランでは)は非常にわずかな変動しかありません。したがって、おそらく次のようなものが得られます。 Price = 2333 Rials * Area of the house もちろん、データセット内の1000の家すべてを調べ、上記の式に面積を入れ、推定値を実際の価格と比較し、結果を2乗する必要があります(分散が互いに相殺されないようにするためです)そして、数字を取得2333し、エラーを減らすためにをいじり続けます。 もちろん、これはブルートフォースオプションであり、おそらくエラーを計算して最適なオプションに到達するまでに時間がかかりますが、私が言っていることはわかりますか?グラフ、線、プロット上の点、または既存のデータに線を当てはめる最良の方法については何も言いませんでした。 では、なぜ散布図と線形代数が必要なのでしょうか?非視覚的な方法はありませんか? 最初に、私は自分の仮定に正しいですか?そうでない場合は、修正したいと思います。しかし、私がそうであるかどうかにかかわらず、線形代数をいじることなく式を思いつく方法はありますか? 説明とともに例を得ることができれば、それを本当に感謝します。そうすれば、テキストと一緒にそれを理解できます。

2
スプラインはデータをオーバーフィットしていますか?
私の問題:最近、統計学者に会いましたが、スプラインはデータの探索にのみ有用であり、オーバーフィットの影響を受けるため、予測には役立ちません。彼は単純な多項式で探索することを好みました...私はスプラインの大ファンなので、これは私の直感に反するので、これらの引数がどのくらい有効であるか、そしてアンチスプラインの大規模なグループがある場合、活動家はいますか? 背景:モデルを作成するときは、フランクハレルの回帰モデリング戦略(1)を追います。彼は、制限された3次スプラインが連続変数を探索するための有効なツールであると主張します。彼はまた、多項式はしきい値、対数などの特定の関係のモデリングが不十分であると主張しています(2)。モデルの線形性をテストするために、彼はスプラインの分散分析テストを提案しています。 H0:β2=β3=…=βk−1=0H0:β2=β3=…=βk−1=0H_0: \beta_2 = \beta_3 = … = \beta_{k-1} = 0 私はスプラインでオーバーフィッティングすることをグーグルで調べましたが、それほど便利ではありませんでした(あまり多くのノットを使用しないことに関する一般的な警告は別として)。このフォーラムでは、スプラインモデリング、Kolassa、Harrell、gungが優先されているようです。 多項式についてのブログ投稿を1つ見つけました。これは、多項式の予測について語る過剰適合の悪魔です。投稿はこれらのコメントで終わります: ここで紹介する例はある程度不正です—多項式回帰は非常にロバストでないことが知られています。実際には、多項式よりもスプラインを使用する方がはるかに優れています。 ここで、この例でスプラインがどのように機能するかを確認するように促されました。 library(rms) p4 <- poly(1:100, degree=4) true4 <- p4 %*% c(1,2,-6,9) days <- 1:70 set.seed(7987) noise4 <- true4 + rnorm(100, sd=.5) reg.n4.4 <- lm(noise4[1:70] ~ poly(days, 4)) reg.n4.4ns <- lm(noise4[1:70] ~ ns(days,4)) dd <- datadist(noise4[1:70], …

5
2つのグループのt検定とANOVAが同等である場合、それらの仮定が同等ではないのはなぜですか?
私はこれを完全に頭に包んでいると確信していますが、私はそれを理解することができません。 t検定は、Z分布を使用して2つの正規分布を比較します。これが、データに正規性の仮定がある理由です。 ANOVAは、ダミー変数を使用した線形回帰に相当し、OLSと同様に平方和を使用します。それが、残差の正常性の仮定がある理由です。 私は数年かかったが、私は最終的にそれらの基本的な事実を把握したと思います。それでは、なぜt検定は2つのグループのANOVAと同等なのでしょうか?データについて同じことを想定していない場合、どうすれば同等になりますか?

5
回帰を理解する-モデルの役割
パラメータを取得しようとしている関数がわからない場合、回帰モデルはどのように使用できますか? 私は、子供を母乳で育てた母親は、後の人生で糖尿病を患う可能性が低いと言った研究を見ました。この研究は約1000人の母親の調査から得られたもので、さまざまな要因が管理されており、対数線形モデルが使用されました。 これは、糖尿病の可能性を決定するすべての要因を考慮して、ログを持つ線形モデルにきちんと変換される素敵な機能(おそらく指数関数的)と、女性の母乳が統計的に有意であることが判明したことを意味しますか? 私は確かに何かを見逃していますが、彼らはどのようにモデルを知っていますか?

4
コントラストマトリックスとは
どのような正確に対比行列は(用語、カテゴリ予測と分析に関係する)で、どのように正確にコントラスト行列が指定されていますか?すなわち、列jとiは何ですか、行とは何ですか、そのマトリックスの制約は何ですか?列と行の数は何を意味しますか?私はドキュメントとウェブを調べようとしましたが、誰もがそれを使用しているようですが、どこにも定義はありません。利用可能な定義済みのコントラストをバックワードエンジニアリングできますが、定義はそれなしでも利用できるはずです。 > contr.treatment(4) 2 3 4 1 0 0 0 2 1 0 0 3 0 1 0 4 0 0 1 > contr.sum(4) [,1] [,2] [,3] 1 1 0 0 2 0 1 0 3 0 0 1 4 -1 -1 -1 > contr.helmert(4) [,1] [,2] [,3] 1 -1 …


3
対数変換された予測子および/または応答の解釈
従属変数のみ、従属変数と独立変数の両方、または独立変数のみが対数変換されるかどうかの解釈に違いがあるのか​​と思います。 の場合を考えます log(DV) = Intercept + B1*IV + Error IVはパーセントの増加として解釈できますが、 log(DV) = Intercept + B1*log(IV) + Error または私が持っているとき DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

3
Yを正規に配布する必要があるという誤解はどこから来ますか?
一見信頼できるソースは、従属変数は正規分布でなければならないと主張しています。 モデルの仮定:は正規分布、エラーは正規分布、独立、は固定、定数分散です。E I〜N (0 、σ 2)X σ 2YYYei∼N(0,σ2)ei∼N(0,σ2)e_i \sim N(0,\sigma^2)XXXσ2σ2\sigma^2 ペンシルベニア州立大学、STAT 504離散データの分析 第二に、線形回帰分析では、すべての変数が多変量正規である必要があります。 統計解、線形回帰の仮定 これは、応答変数に正規分布がある場合に適切です。 ウィキペディア、一般化線形モデル この誤解がどのように、またはなぜ広まったのか、良い説明はありますか?その起源は知られていますか? 関連する 線形回帰と応答変数に関する仮定

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.