タグ付けされた質問 「regression」

1つ(または複数)の「従属」変数と「独立」変数の間の関係を分析する手法。


10
時系列が静止している必要があるのはなぜですか?
定常時系列とは、その平均と分散が時間とともに一定であることを理解しています。別のARIMAまたはARMモデルを実行する前に、データセットが静止していることを確認する必要がある理由を誰かが説明できますか?これは、自己相関および/または時間が要因ではない通常の回帰モデルにも適用されますか?

5
なぜANOVAは線形回帰と比較して異なる研究方法論であるかのように教えられ/使用されますか?
ANOVAは、適切なダミー変数を使用した線形回帰と同等です。ANOVAを使用するか線形回帰を使用するかに関係なく、結論は同じままです。 それらの同等性に照らして、ANOVAが線形回帰の代わりに使用される理由はありますか? 注:線形回帰の代わりにANOVAを使用する技術的な理由について特に興味があります。 編集 一元配置分散分析を使用した1つの例を次に示します。男性と女性の平均身長が同じかどうかを知りたいとします。仮説をテストするために、男性と女性のランダムサンプル(それぞれ30個)からデータを収集し、ANOVA分析(性別とエラーの平方和)を実行して、効果が存在するかどうかを判断します。 次のように、線形回帰を使用してこれをテストすることもできます。 定義: 回答者が男性の場合は、それ以外の場合は。 ここで:Gender=1Gender=1\text{Gender} = 1000Height=Intercept+β∗Gender+errorHeight=Intercept+β∗Gender+error \text{Height} = \text{Intercept} + \beta * \text{Gender} + \text{error} error∼N(0,σ2)error∼N(0,σ2)\text{error}\sim\mathcal N(0,\sigma^2) 次に、かどうかのテストは、仮説と同等のテストです。β=0β=0\beta = 0
91 regression  anova 

11
線形回帰はいつ「機械学習」と呼ばれるべきですか?
最近のコロキウムでは、講演者の要約は、彼らが機械学習を使用していると主張しました。講演中、機械学習に関連する唯一のことは、データに対して線形回帰を実行することでした。5Dパラメーター空間で最適な係数を計算した後、あるシステムのこれらの係数を他のシステムの最適な係数と比較しました。 線形回帰の機械学習は、単に最適な線を見つけるのではなく、いつ行われますか?(研究者の抽象的な誤解を招くものでしたか?) 最近、機械学習が注目を集めているため、このような区別をすることが重要だと思われます。 私の質問はこれに似ていますが、その質問は「線形回帰」の定義を求めますが、私の質問は線形回帰(多数のアプリケーションを持っています)が適切に「機械学習」と呼ばれる場合を尋ねます。 明確化 線形回帰が機械学習と同じであるかどうかは問いません。一部の人が指摘したように、単一のアルゴリズムは研究分野を構成しません。使用しているアルゴリズムが単なる線形回帰であるときに、機械学習を行っていると言ってもいいのかどうかを尋ねています。 1つは、彼らがされていない場合、あなたの名前にいくつかの金の星を追加するために機械学習を行っていると言うことは非倫理的であるため、わきすべてのジョーク(コメントを参照してください)、私はこれを頼む理由の一つは、実際に機械学習を行います。(多くの科学者は自分の仕事に最適なラインを計算しますが、これは機械学習を行っているという意味ではありません。)一方、機械学習の一部として線形回帰が使用されている状況は明らかにあります。これらの状況を分類するのに役立つ専門家を探しています。;-)

4
PCAと分散の割合の説明
一般に、PCAのような分析における分散の割合は、最初の主成分によって説明されると言うことは何を意味しますか?誰かがこれを直感的に説明できますが、主成分分析(PCA)の観点から「分散の説明」の意味を正確に数学的に定義することもできますか?バツxx 単純な線形回帰の場合、最適な直線のr乗は常に説明された分散の割合として記述されますが、それをどうするかはわかりません。ここでの分散の割合は、最適なラインからのポイントの偏差の延長ですか?

1
plot.lm()の解釈
Rのplot(lm)によって生成されたグラフの解釈について質問がありました。スケール位置プロットとレバレッジ残差プロットの解釈方法を教えていただけませんか。コメントをいただければ幸いです。統計、回帰、計量経済学の基本的な知識があると仮定します。

9
多重共線性が線形回帰の問題である理由を直感的に説明できますか?
wikiでは、多重共線性が線形回帰の問題である場合に発生する問題について説明しています。基本的な問題は、多重共線性により不安定なパラメーター推定が発生し、従属変数に対する独立変数の影響を評価することが非常に困難になることです。 私は問題の背後にある技術的な理由を理解しています(を逆変換できない、条件が悪いなど)。X ′ Xバツ′バツX′XX' Xバツ′バツX′XX' X 線形回帰のコンテキストで多重共線性が問題となる理由について、幾何学的またはおそらく他の簡単に理解できる形式の説明はありますか?



8
最適なラインは、良いフィットのようには見えません。どうして?
このExcelグラフをご覧ください。 「常識的な」最適なラインは、ポイントの中心を真っ直ぐに通るほぼ垂直の線に見えます(手作業で赤で編集)。ただし、Excelによって決定された線形トレンドラインは、示されている黒い斜めのラインです。 Excelが(人間の目には)間違っているように見える何かを生成したのはなぜですか? もう少し直感的に見える最適な線(赤い線など)を作成するにはどうすればよいですか? 更新1.データとグラフを含むExcelスプレッドシートは、サンプルデータ、PastebinのCSVで入手できます 。type1およびtype2回帰手法はExcel関数として利用できますか? 更新2。このデータは、風と共に漂流している間にサーマルで登るパラグライダーを表します。最後の目的は、風の強さと方向が高さによってどのように変化するかを調べることです。私はエンジニアであり、数学者や統計学者ではないので、これらの回答の情報は、私が研究するためのより多くの分野を与えてくれました。

5
「クローズドフォームソリューション」とはどういう意味ですか?
「クローズドフォームソリューション」という用語に出くわすことがよくあります。閉じた形式のソリューションとはどういう意味ですか?特定の問題に対して厳密な形式の解決策が存在するかどうかをどのように判断しますか?オンラインで検索すると、いくつかの情報が見つかりましたが、統計的または確率的モデル/ソリューションを開発するという文脈では何も見つかりませんでした。 私は回帰を非常によく理解しているので、だれかが回帰またはモデルのあてはめを参照して概念を説明できるなら、それは使いやすいでしょう。:)


3
ロジスティック回帰を行う場合、不均衡なサンプルは重要ですか?
さて、20:1の経験則を考慮して、十分なサンプルがあると思います:合計7つの予測変数のかなり大きなサンプル(N = 374)。 私の問題は次のとおりです。使用する予測変数のセットが何であれ、100%の特異性と0%の感度よりも分類が良くなることはありません。満足のいくものではありませんが、候補予測変数のセット(これから逸脱することはできません)を考えると、これは実際には最良の結果になる可能性があります。 しかし、私はもっと良くできると思わずにはいられなかったので、従属変数のカテゴリはほぼ4:1の非常に不均一なバランスであることに気付きました。よりバランスのとれたサブサンプルで分類を改善できますか?


5
曲線下面積(AUC)またはc統計を手で計算する方法
バイナリロジスティック回帰モデルの曲線下面積(AUC)またはc統計を手動で計算することに興味があります。 たとえば、検証データセットでは、従属変数の真の値である保持(1 =保持、0 =保持されない)、およびモデルである回帰分析により生成された各観測の予測保持ステータスがありますトレーニングセットを使用して構築されます(これは0〜1の範囲です)。 私の最初の考えは、モデル分類の「正しい」数を特定し、「正しい」観測値の数を総観測値の数で単純に割ってc統計量を計算することでした。「正しい」とは、観測の真の保持ステータス= 1であり、予測される保持ステータスが> 0.5である場合、それは「正しい」分類です。さらに、観測の真の保持ステータス= 0で、予測保持ステータスが0.5未満の場合、それも「正しい」分類です。予測値= 0.5のときに「タイ」が発生すると想定していますが、検証データセットではその現象は発生しません。一方、「誤った」分類は、観測の真の保持ステータス= 1であり、予測される保持ステータスが0未満の場合です。5または結果の真の保持ステータス= 0であり、予測保持ステータスが> 0.5である場合。私はTP、FP、FN、TNを知っていますが、この情報を与えられたc統計を計算する方法を知りません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.