タグ付けされた質問 「linear」

線形回帰や線形混合モデルなど、線形性の仮定を含む統計トピック、または統計に適用される線形代数の説明。

3
PCAの線形性
ただし、PCAは線形手順と見なされます。 PCA(X)≠PCA(X1)+PCA(X2)+…+PCA(Xn),PCA(X)≠PCA(X1)+PCA(X2)+…+PCA(Xn),\mathrm{PCA}(X)\neq \mathrm{PCA}(X_1)+\mathrm{PCA}(X_2)+\ldots+\mathrm{PCA}(X_n), ここで 。これは、データ行列 PCAによって取得された固有ベクトルが、データ行列合計でPCAによって取得された固有ベクトルに等しくならないということです。しかし、線形関数定義は次のことではありません。X=X1+X2+…+XnX=X1+X2+…+XnX=X_1+X_2+\ldots+X_nXiXiX_iXiXiX_ifff f(x+y)=f(x)+f(y)?f(x+y)=f(x)+f(y)?f(x+y)=f(x)+f(y)? では、PCAがこの非常に基本的な線形性の条件を満たさない場合、なぜ「線形」と見なされるのでしょうか。
35 pca  linear 

3
意思決定の切り株は線形モデルですか?
決定切り株は、分割が1つしかない決定木です。また、区分関数として書くこともできます。 たとえば、がベクトルであり、がxの最初のコンポーネントであると仮定すると、回帰設定では、いくつかの決定スタンプがx 1 xxxxx1x1x_1バツxx f(x )= { 35バツ1≤ 2バツ1> 2f(x)={3x1≤25x1>2f(x)= \begin{cases} 3& x_1\leq 2 \\ 5 & x_1 > 2 \\ \end{cases} しかし、それは線形モデルですか?ここでf(x)= \ beta ^ T xと書くことができますf(x )= βTバツf(x)=βTxf(x)=\beta^T xか?この質問は奇妙に聞こえるかもしれません。答えとコメントで述べたように、区分的関数をプロットする場合、それは線ではないからです。この質問をする理由については、次のセクションをご覧ください。 編集: この質問をする理由は、ロジスティック回帰が(一般化された)線形モデルであり、決定境界が線であり、これも決定の切り株であるためです。この質問もあることに注意してください:ロジスティック回帰はなぜ線形モデルなのですか?。一方、意思決定の切り株が線形モデルであることは事実ではないようです。 私がこれを尋ねたもう一つの理由は、この質問のためです: ブースティングでは、ベース学習者が線形モデルである場合、最終モデルは単なる線形モデルですか? ここで、ベースモデルとして線形モデルを使用すると、線形回帰以外の何も得られません。しかし、ベースラーナーを決定の切り株として選択すると、非常に興味深いモデルが得られます。 これは、2つの特徴と1つの連続的な応答を使用した回帰での決定切り株ブースティングの1つの例です。

1
多重線形回帰では、なぜ予測点のプロットが直線上にないのですか?
YとX1、X2の関係を記述するために、多重線形回帰を使用しています。 理論から、重回帰ではYと各X(YとX1、YとX2)の間の線形関係を仮定していることがわかりました。Xの変換は使用していません。 そのため、R = 0.45とすべての有意なX(P <0.05)のモデルを取得しました。次に、X1に対してYをプロットしました。モデルの予測である赤色の円が線を形成しない理由がわかりません。前に言ったように、YとXの各ペアは線で近似されると予想しました。 プロットは、Pythonで次のように生成されます。 fig, ax = plt.subplots() plt.plot(x['var1'], ypred, 'o', validation['var1'], validation['y'], 'ro'); ax.set_title('blue: true, red: OLS') ax.set_xlabel('X') ax.set_ylabel('Y') plt.show()

1
線形モデルのBLUE(OLSソリューション)以外の不偏推定量
線形モデルの場合、OLSソリューションはパラメーターに最適な線形不偏推定量を提供します。 もちろん、より低い分散、例えばリッジ回帰のバイアスをトレードオフできます。しかし、私の質問はバイアスがないということです。偏りはないが、OLS推定パラメーターよりも高い分散を持つ、やや一般的に使用される推定器は他にありますか? 巨大なデータセットがある場合は、もちろんそれをサブサンプリングし、より少ないデータでパラメーターを推定し、分散を増やすことができます。これは仮説的に有用だと思います。 BLUE推定量について読んだときに、より悪い代替案が提供されていないため、これは修辞的な質問です。悪い選択肢を提供することは、人々が青い推定器の力をよりよく理解するのにも役立つと思います。


5
線形回帰が、仮説と入力データポイント間の垂直距離に基づくコスト関数を使用するのはなぜですか?
入力(予測)および出力(応答)データポイントA、B、C、D、Eがあり、それらのポイントを通る直線を当てはめたいとします。これは質問を説明するための簡単な問題ですが、より高い次元にも拡張できます。 問題文 現在の最適または仮説は、上の黒い線で表されています。青い矢印()は、ポイントから直線と交差するまで垂直線を引くことにより、データポイントと現在の最適な点との間の垂直距離を表します。→→\color{blue}\rightarrow 緑の矢印()は、交差点で現在の仮説に垂直になるように描画され、データ点と現在の仮説の間の最小距離を表します。ポイントAおよびBの場合、現在の最良の推測に垂直で、x軸に垂直な線に類似するように描かれた線。これらの2つのポイントでは、青と緑の線が重なりますが、C、D、Eの点では重なりません。→→\color{green}\rightarrow 最小二乗の原理は、データポイント(A、B、C、D、またはE)を介して推定仮説(→→\color{blue}\rightarrow任意のトレーニングサイクルで)までます。 、およびによって表されます CostFunction=∑Ni=1(yi−hθ(xi))2CostFunction=∑i=1N(yi−hθ(xi))2Cost Function = \sum_{i=1}^N(y_i-h_\theta(x_i))^2 ここではデータポイントを表し、(xi,yi)(xi,yi)(x_i, y_i)hθ(xi)hθ(xi)h_\theta(x_i)は最適な近似を表します。 ポイント(A、B、C、D、またはE)間の最小距離は、そのポイントから現在の最良の推測(緑の矢印)まで引いた垂直線で表されます。 最小二乗関数の目的は、最小化されたときに仮説とすべてのポイントを組み合わせた距離が最小になる目的関数を定義することですが、必ずしも仮説と単一の入力ポイント間の距離は最小化されません。 **質問** ()?→→\color{green}\rightarrow


2
線形回帰には残差に関する仮定があるのに、一般化線形モデルには応答に関する仮定があるのはなぜですか?
線形回帰と一般化モデルに一貫性のない仮定があるのはなぜですか? 線形回帰では、残差がガウス型になると仮定します 他の回帰(ロジスティック回帰、ポイズン回帰)では、応答が何らかの分布(二項分布、ポアソンなど)から生じると想定しています。 なぜ残余を想定し、他の時間は応答を想定するのですか?異なるプロパティを導出したいからですか? 編集:mark999は2つの形式が等しいことを示していると思います。しかし、私はiidに関してもう1つの疑問を持っています。 私の他の 質問、ロジスティック回帰にiidの仮定はありますか?一般化線形モデルにiidの仮定がないことを示します(独立していますが同一ではありません) 線形回帰の場合、残差に仮定を設定するとiidが得られますが、応答に仮定を設定すると、独立ではあるが同一ではないサンプル(異なる異なるガウス)になりますか?μμ\mu

3
線形回帰では、F統計、Rの2乗、残差標準誤差は何を示しますか?
私は、次の用語の線形回帰のコンテキストに関する意味の違いについて本当に混乱しています。 F統計 Rの2乗 残留標準誤差 私が見つかりました。このwebstie私の線形回帰に関連するさまざまな面で素晴らしい洞察力、非常に多くのように見えるのA上記ただし条件を与えた(私が理解限りが)。私が読んだものと私を混乱させたものを引用します: 残差標準誤差は、線形回帰フィットの品質の尺度です。......残差標準誤差は、応答(dist)が真の回帰直線から逸脱する平均量です。 1.これは実際には、lmラインからの観測値の平均距離ですか? R二乗統計は、モデルが実際のデータにどれだけ適合しているかの尺度を提供します。 2.観測点が回帰直線からどれだけ離れているかをRSEが示す場合、低RSEが実際に「観測データ点に基づいてモデルが適切に適合している」ことを示しているため、混乱しています。モデルが適合するので、R 2乗とRSEの違いは何ですか? F統計は、予測変数と応答変数の間に関係があるかどうかの良い指標です。 3. RSEが高く、Rの2乗が低いように、NON LINEARである強い関係を示すF値を持つことができるのは本当ですか


2
r、rの2乗、残差標準偏差は線形関係について何を教えてくれますか?
リトル背景 私は、回帰分析の解釈に取り組んでいますが、私は本当にRの意味について混乱、rは乗と残留標準偏差。私は定義を知っています: 特徴づけ rは、散布図上の2つの変数間の線形関係の強度と方向を測定します R-2乗は、データが近似回帰直線にどれだけ近いかを示す統計的尺度です。 残差標準偏差は、線形関数の周囲に形成される点の標準偏差を記述するために使用される統計用語であり、測定される従属変数の精度の推定値です。(ユニットが何であるかわからない、ここのユニットについての情報は役に立つでしょう) (ソース:ここ) 質問 私はキャラクタリゼーションを「理解」していますが、これらの用語がどのようにデータセットについて結論を導き出すかを理解しています。ここに小さな例を挿入します。これは私の質問に答えるためのガイドとして役立つかもしれません(あなた自身の例を自由に使用してください!) 例 これは手間がかかる質問ではありませんが、簡単な例を得るために本で検索しました(私が分析している現在のデータセットは複雑すぎて、ここに表示するには大きすぎます) トウモロコシの大きな畑で、それぞれ10 x 4メートルの20のプロットがランダムに選択されました。各プロットについて、植物密度(プロット内の植物の数)と平均穂軸重量(穂軸あたりの穀物のグラム)が観察されました。次の表に結果を示します。(出典:生命科学の統計) ╔═══════════════╦════════════╦══╗ ║ Platn density ║ Cob weight ║ ║ ╠═══════════════╬════════════╬══╣ ║ 137 ║ 212 ║ ║ ║ 107 ║ 241 ║ ║ ║ 132 ║ 215 ║ ║ ║ 135 ║ 225 ║ ║ ║ 115 …


3
ビッグデータ設定のために並列/分散方法で線形回帰を実行するにはどうすればよいですか?
私は非常に大きな線形回帰問題に取り組んでいます。データサイズが非常に大きいため、それらをマシンのクラスターに格納する必要があります。すべてのサンプルを1台のマシンのメモリ(ディスクも)に集約するには大きすぎます これらのデータを回帰するために、私は並列アプローチを考えています。つまり、個々のボックスで回帰を実行し、各ベータの統計(おそらく平均または中央値)に基づいてベータを計算します。 これは意味がありますか?もしそうなら、個々のR ^ 2から予想される合計をどのように取得すればよいですか?R2R2R^2R2R2R^2

5
線形回帰は時代遅れですか?[閉まっている]
閉じた。この質問は意見に基づいています。現在、回答を受け付けていません。 この質問を改善したいですか?この投稿を編集して事実と引用で答えられるように質問を更新してください。 閉じた2年前。 現在、線形回帰のクラスにいますが、私が学んでいることは、現代の統計や機械学習のどちらにももはや関係がないという感覚を揺るがすことはできません。最近、非常に多くの興味深いデータセットが線形回帰の非現実的な仮定の多くに違反しているのに、単純または多重線形回帰の推論に多くの時間を費やしているのはなぜですか?代わりに、サポートベクターマシンまたはガウス過程を使用した回帰のような、より柔軟で最新のツールの推論を教えてみませんか?スペースで超平面を見つけるよりも複雑ですが、これは現代の問題に取り組むためのより良い背景を学生に与えませんか?

4
問題が線形回帰に適しているという手がかり
Montgomery、Peck、およびViningによる「Introduction to Linear Regression Analysis」を使用して線形回帰を学習しています。データ分析プロジェクトを選択したいと思います。 線形回帰は、説明変数と応答変数の間に線形の関数関係があると疑われる場合にのみ適していると単純に考えています。しかし、実際のアプリケーションの多くは、この基準を満たしているとは思えません。しかし、線形回帰は非常に一般的です。 経験豊富な統計学者は、プロジェクトのどの側面を考慮して、自分の立場にあるかを考え、線形回帰に適した質問とデータを探します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.