タグ付けされた質問 「regression」

1つ(または複数)の「従属」変数と「独立」変数の間の関係を分析する手法。

7
連続予測変数を分割することの利点は何ですか?
モデルで使用する前に、連続予測変数を取得してそれを分割(たとえば、五分位数に分割)することの価値は何かと思っています。 変数をビニングすると情報が失われるように思えます。 これは、非線形効果をモデル化できるからですか? 変数を連続的に保ち、それが実際に直線関係ではなかった場合、データに最適な何らかの曲線を考え出す必要がありますか?

3
例:バイナリ結果にglmnetを使用したLASSO回帰
私は興味のある結果が二分されglmnetているLASSO回帰の使用に手を出し始めています。以下に小さな模擬データフレームを作成しました。 age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

3
Rが負の場合
私の理解では、は乗なので負にはなり得ません。しかし、単一の独立変数と従属変数を使用してSPSSで単純な線形回帰を実行しました。私のSPSS出力は、負の値を与えます。Rから手動でこれを計算する場合、は正になります。これを負として計算するためにSPSSは何をしましたか?R 2 R 2R2R2R^2R2R2R^2R2R2R^2 R=-.395 R squared =-.156 B (un-standardized)=-1261.611 私が使用したコード: DATASET ACTIVATE DataSet1. REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT valueP /METHOD=ENTER ageP 負の値を取得します。誰もこれが何を意味するのか説明できますか?

5
段階的回帰の最新の簡単に使用できる代替手段は何ですか?
約30の独立変数を持つデータセットがあり、それらと従属変数との関係を調べるために一般化線形モデル(GLM)を構築したいと思います。 この状況で教えられた方法である段階的回帰は、現在統計的な罪と見なされていることを認識しています。 この状況では、どのような最新のモデル選択方法を使用する必要がありますか?

3
なげなわが変数選択を提供するのはなぜですか?
Elements of Statistics Learningを読んでいますが、なぜLassoが変数選択を提供し、リッジ回帰が提供しないのかを知りたいと思います。 どちらの方法も、残差平方和を最小化し、パラメーター可能な値に制約がありますββ\beta。投げ縄の場合、制約は||β||1≤t||β||1≤t||\beta||_1 \le t、尾根のためにそれがあるのに対し||β||2≤t||β||2≤t||\beta||_2 \le t、いくつかのためにttt。 私は本でダイヤモンド対楕円の絵を見ましたが、なぜ投げ縄が制約領域の角に当たることができるかについていくつかの直感があります。しかし、私の直感はかなり弱く、私は確信していません。見やすいはずですが、なぜそうなのかわかりません。 だから、私は数学的な正当化、または残差平方和の輪郭が角に当たる可能性が高い理由の直感的な説明を探していると思います 。| β | | 1||β||1||β||1||\beta||_1制約領域(一方、制約が場合、この状況は起こりそうにありません||β||2||β||2||\beta||_2)。


3
ロジスティック回帰の診断?
線形回帰の場合、診断プロット(残差プロット、標準QQプロットなど)をチェックして、線形回帰の仮定に違反しているかどうかをチェックできます。 ロジスティック回帰の場合、ロジスティック回帰モデルの適合を診断する方法を説明するリソースを見つけるのに問題があります。GLMのいくつかのコースノートを掘り下げて、ロジスティック回帰近似の診断を実行するには残差のチェックは役に立たないと単純に述べています。 インターネットを見回すと、モデルの逸脱をチェックしたり、カイ2乗検定を実行するなど、さまざまな「診断」手順もあるようですが、他の情報源は、これは不適切であり、Hosmer-Lemeshow適合度を実行する必要があると述べていますテスト。次に、このテストは実際のグループ化とカットオフ値に大きく依存する可能性がある(信頼できない可能性がある)と述べる他のソースを見つけます。 それでは、ロジスティック回帰の適合性をどのように診断する必要がありますか?

6
閉形式の数学ソリューションが利用可能な場合、線形回帰に勾配降下法を使用する理由は何ですか?
私はオンラインで機械学習コースを受講しており、仮説の最適値を計算するための勾配降下について学びました。 h(x) = B0 + B1X 以下の式で値を簡単に見つけることができる場合、なぜ勾配降下を使用する必要があるのですか?これも簡単で簡単です。しかし、GDは値を取得するために複数の反復を必要とします。 B1 = Correlation * (Std. Dev. of y/ Std. Dev. of x) B0 = Mean(Y) – B1 * Mean(X) 注:https : //www.dezyre.com/data-science-in-r-programming-tutorial/linear-regression-tutorialのように撮影 私は以下の質問をチェックしましたが、私にとっては理解するのが明確ではありませんでした。 なぜ勾配降下が必要なのですか? 最適化が分析ソリューションではなく勾配降下で解決されるのはなぜですか? 上記の回答では、GDと派生物の使用を比較しています。

9
線形回帰分析で外れ値をどのように扱う必要がありますか?
多くの場合、統計アナリストにセットのデータセットが渡され、線形回帰などの手法を使用してモデルに適合するように求められます。データセットには、「そうそう、これらのデータポイントのいくつかを収集するのがめちゃくちゃになった-できることをする」というような免責条項が付いていることが非常に多い。 この状況は、データの誤りである可能性のある外れ値の存在によって大きな影響を受ける回帰適合につながります。次の場合: 科学的にも道徳的にも、「フィット感が悪く見える」以外の理由でデータを捨てることは危険です。 実際には、データを収集した人は、「このデータセットを生成するとき、どの点を正確に台無しにしましたか」などの質問に答えることができません。 線形回帰分析で外れ値を除外するための基礎として使用できる統計的テストまたは経験則は何ですか? 多重線形回帰に関する特別な考慮事項はありますか?

7
重回帰の最小サンプルサイズの経験則
社会科学の研究提案の文脈の中で、私は次の質問をされました。 重回帰の最小サンプルサイズを決定するときは、常に100 + m(mは予測子の数)になりました。これは適切ですか? 同様の質問が頻繁に出ますが、多くの場合、経験則が異なります。また、さまざまな教科書でそのような経験則をかなり読みました。引用に関するルールの人気は、基準がどれだけ低く設定されているかに基づいているのかと疑問に思うことがあります。ただし、意思決定を簡素化する上での優れたヒューリスティックの価値も認識しています。 質問: 調査研究を設計する応用研究者の文脈の中で、最小サンプルサイズの単純な経験則の有用性は何ですか? 重回帰の最小サンプルサイズの代替経験則を提案しますか? あるいは、重回帰の最小サンプルサイズを決定するために、どのような代替戦略を提案しますか?特に、非統計学者が戦略を容易に適用できる程度に値が割り当てられるとよいでしょう。


2
閉形式と勾配降下の回帰パラメータの解決
Andrew Ngの機械学習コースでは、線形回帰とロジスティック回帰を紹介し、勾配降下法とニュートン法を使用してモデルパラメーターを近似する方法を示しています。 勾配降下は、機械学習の一部のアプリケーション(逆プロパゲーションなど)で役立つことがありますが、より一般的なケースでは、閉形式のパラメーターを解かない理由があります。コスト関数と微積分による解? 一般に、閉じた形式のソリューションに対して勾配降下法などの反復アルゴリズムを使用する場合、使用できる場合、その利点は何ですか?

8
既存の変数と定義された相関関係を持つランダム変数を生成します
シミュレーション研究のために、既存の変数に対する事前定義された(母集団)相関を示すランダム変数を生成する必要があります。YYY 私は、に見えたRパッケージcopulaとCDVine特定の依存構造を持つランダムな多変量分布を生成することができました。ただし、結果の変数の1つを既存の変数に修正することはできません。 アイデアや既存の機能へのリンクを歓迎します! 結論: さまざまなソリューションで、2つの有効な答えが出ました。 カラカルによるR スクリプト。事前定義された変数との正確な(サンプル)相関を持つランダム変数を計算します 事前定義された変数に対する定義された母集団相関を持つランダム変数を計算するR 関数 [@ttnphnsの追加:質問のタイトルを単一の固定変数の場合から任意の数の固定変数に拡大するために自由を取りました。すなわち、いくつかの固定された既存の変数と事前定義された相関を持つ変数を生成する方法]

12
線形回帰に関する最も一般的な誤解は何ですか?
他の研究者と協力して幅広い経験をお持ちの方にとって、あなたが遭遇する線形回帰についての最も一般的な誤解は何ですか? よくある誤解を事前に考えて、 人々の間違いを予測し、いくつかの誤解が間違っている理由を明確に説明できる 自分でいくつかの誤解を抱いているかどうかを理解してください! 私が考えることができるいくつかの基本的なもの: 独立/従属変数は正規分布する必要があります 正確な解釈のために変数を標準化する必要があります 他のもの? すべての回答は大歓迎です。

4
正準相関分析の機能を視覚化する方法(主成分分析の機能と比較して)
正準相関分析(CCA)は、主成分分析(PCA)に関連する手法です。散布図を使用してPCAまたは線形回帰を教えるのは簡単ですが(Googleの画像検索に関する数千の例を参照)、CCAの同様の直感的な2次元の例を見たことはありません。線形CCAの機能を視覚的に説明する方法

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.