統計とビッグデータ error

1

わかりました、公正な警告です。これは数字を含まない哲学的な質問です。エラーが時間の経過に伴ってデータセットに侵入する方法と、それをアナリストがどのように処理する必要があるのか、あるいはそれが本当に重要なのかについて、私は多くのことを考えてきました。背景として、私は7〜8年間でおそらく25人が収集した多くのデータセットを含む長期的な研究で分析を行っています。誰もすべてのデータを一貫した構造に持ってきたことはありません（それが私の仕事です）。私は多くのデータ入力（古いラボノートブックのコピーからの転記）を行っており、他の人が作成した小さな転記エラーを見つけ続けています。また、ほとんどの場合、インクが原因で、読み取りが困難または不可能であるデータエントリを見つけています。時間の経過とともに色あせています。私はコンテキストを使用して、データが何を言っているかについて「最良の推測」をし、私がかなり確実でない場合はデータを完全に指摘します。しかし、データがコピーされるたびに、元のデータが完全に失われるまで、エラーの頻度は必然的に増加するという事実を考え続けます。したがって、これは私に考えを導きます：機器/測定エラー、および記録エラーに加えて、時間の経過とともに増加し、データの処理が増える基本的な「データ処理エラー」コンポーネントがあります（補足：これはおそらく熱力学の第2法則を説明する別の方法ですよね？データエントロピーは常に増加します）。結果として、データセットのライフヒストリーを説明するために導入されたある種の「訂正」（ボンフェローニ訂正に似たもの）があるのだろうか？言い換えれば、古い、またはコピーされたデータセットは正確性が低いと想定すべきですか？そうであれば、それに応じて調査結果を調整する必要がありますか？しかし、私のもう1つの考えは、エラーはデータ収集とデータ処理の本質的な部分であり、すべての統計テストは実際のデータを使用して開発されているため、おそらくこれらのエラーの原因は分析に「価格が設定されている」でしょうか。また、注目に値するもう1つの点は、データエラーはランダムであるため、改善するよりも発見の強度を低下させる可能性がはるかに高いということです。つまり、データ処理エラーは、タイプ1エラーではなくタイプ2エラーにつながります。。したがって、多くのコンテキストでは、古い/疑問のあるデータを使用していても効果が見つかった場合、その効果が本物であるという確信が高まります（データセットへのランダムエラーの追加に耐えるのに十分強力だったため）。したがって、その理由から、おそらく「修正」は逆の方向に進むべきです（「発見」に必要なアルファレベルを上げる）か、単に私たちを困らせないのですか？とにかく、非常に冗長で鈍くて申し訳ありませんが、私はこの質問をより簡潔に尋ねる方法が本当にわかりません。私を支えてくれてありがとう。

10 dataset error

2

エラー伝播SD対SE

私は、2つの異なる条件（AとB）で、1人あたり3〜5個の特性を測定しています。各条件の各個人の平均をプロットしており、標準誤差（つまり、、 =測定数）を誤差範囲として使用しています。 NSD / N−−√SD/NSD/\sqrt{N}NNN ここで、条件Aと条件Bの個人ごとの平均測定値の差をプロットしたいと思います。次のようにして伝搬エラーを特定できることがわかります。 SD = SD2あ+ SD2B−−−−−−−−−−√SD=SDA2+SDB2SD=\sqrt{SD_A^2+SD_B^2} しかし、標準偏差の代わりに標準誤差を伝搬するにはどうすればよいですか（測定の平均を扱っているため）。これはまったく意味がありますか？

10 standard-deviation standard-error error error-propagation

1

正規分布クロックの不正確さの修正

特定のイベントの発生を測定する、世界中に分散した何百ものコンピューターで実行される実験があります。各イベントは互いに依存しているので、それらを昇順に並べてから、時間差を計算できます。イベントは指数的に分布する必要がありますが、ヒストグラムをプロットすると、次のようになります。コンピュータのクロックが不正確であるため、一部のイベントには、依存するイベントよりも早いタイムスタンプが割り当てられます。 PDFのピークが0ではない（全体が右にシフトした）ために、クロック同期が非難されるのではないかと思いますか？クロックの差が正規分布している場合、影響が互いに相殺し、計算された時間差だけを使用すると仮定できますか？

10 error measurement-error exponential

2

なぜ残差を使用して回帰のエラーに関する仮定をテストするのですか？

我々はモデルがあるとYi=β0+β1Xi1+β2Xi2+⋯+βkXik+ϵiYi=β0+β1Xi1+β2Xi2+⋯+βkXik+ϵiY_i = \beta_0 + \beta_1X_{i1} + \beta_2X_{i2} + \dots + \beta_kX_{ik} + \epsilon_i。回帰には、誤差ϵiϵi\epsilon_iが平均ゼロと一定の分散で正規分布する必要があるなど、いくつかの仮定があります。私は、残差の正規性テストに通常のQQプロットを使用して、これらの仮定を確認するために教えられてきたei=Yi−Y^iei=Yi−Y^ie_i = Y_i - \hat{Y}_iとフィットプロット対残差は残差が一定の分散をゼロ付近変化することを確認すること。ただし、これらのテストはすべて誤差ではなく残差に対して行われます。私が理解していることから、エラーは各観測値の「真の」平均値からの偏差として定義されています。そこで、我々は書くことができϵi=Yi−E[Yi]ϵi=Yi−E[Yi]\epsilon_i = Y_i - \mathbb{E}[Y_i]。これらのエラーは、弊社では確認できません。* 私の質問はこれです：残差はエラーを模倣するのにどれほど良い仕事ですか？残差で仮定が満たされているように見える場合、これは誤差でも仮定が満たされていることを意味しますか？モデルをテストデータセットに適合させ、そこから残差を取得するなど、他の（より良い）仮定をテストする方法はありますか？ *さらに、モデルを正しく指定する必要はありませんか？これは、応答が本当に予測因子との関係を持っていること、であるX1,X2,X1,X2,X_1, X_2,モデルによって指定された方法でなど。我々はいくつかの予測子含まれていない場合（例えば、、次に期待値）E [ Y I ] = β 0 + β 1 X I 1 + β 2 X I 2 + ⋯ …

10 regression residuals error

2

1つのセットのサンプルを使用して、複数のセットの共通部分のサイズを推定する

私は、少なくとも2つのセットの交差によって生成されるセットのサイズを計算する必要があるアルゴリズムに取り組んでいます。すなわち： z=|A0∩…∩An|z=|A0∩…∩An| z = \left |A_0 \cap \ldots \cap A_n \right | 交差するセットはSQLクエリによって生成され、高速に保つために、各クエリの数を事前に取得し、最小数（）のセットを取得して、それらのIDを残りの大きなクエリなので、交差は事実上次のようになります。A0A0A_0 z=|(A0∩A1)∩…∩(A0∩An)|z=|(A0∩A1)∩…∩(A0∩An)| z = \left |\left ( A_0 \cap A_1 \right ) \cap \ldots \cap \left ( A_0 \cap A_n \right ) \right | この戦略でさえ、から、かなり大きなクエリを実行する必要があります大きくなることもあります。これに対処するための私の考えは、ランダムなサンプルを取り、それを適切な推定値に外挿する前に残りのセットと交差させることです。私の質問は、サンプリングしてから外挿して値に戻る最良の方法は何ですか？完全に正確ではないにしても、予測可能なエラー範囲がありますか？|A0||A0|\left | A_0 \right |A0A0A_0zzzzzz これが私がこれまでに試したものです（疑似コードのようなものです）： sample_threshold := 10000 factor := 1 if (len(A0) …

10 error sample

1

測定誤差に基づく事前分布の選択

機器の測定誤差がある場合、どのように適切な事前計算を行いますか？この段落は、Cressieの本「時空間データの統計」からのものです。多くの場合、測定誤差の分散に関するいくつかの事前情報が利用可能であり、かなり有益なパラメータモデルを指定できます。我々は条件付き独立した測定誤差を想定している場合、例えば、IIDされる、我々はのために有益前指定する必要があり。周囲の気温に関心があり、計器メーカーの仕様に±0.1℃の「誤差」が示されていることがわかりました。この「エラー」が2つの標準偏差（チェックする必要があるという仮定）に対応していると仮定すると、\ sigma _ {\ epsilon} ^ {2}を指定して、以前の平均が（0.1 / 2）^ 2 = 0.0025になるようにします。Gau(0,σ2ϵ)Gau(0,σϵ2)Gau(0, \sigma_{\epsilon}^2)σ2ϵσϵ2\sigma_{\epsilon}^2±0.1°C±0.1°C±0.1°Cσ2ϵσϵ2\sigma_{\epsilon}^{2}(0.1/2)2=0.0025(0.1/2)2=0.0025(0.1/2)^2 = 0.0025。機器メーカーの仕様により、0.0025に明確に定義されたかなり狭いピーク（たとえば、逆ガンマ）を持つ分布を想定します。実際、0.0025に修正するだけで済みます。ただし、データモデルエラーには、他にも不確実性の要素がある場合があります（セクション7.1）。プロセスモデルのエラーによる識別可能性の問題の可能性を回避するには、データを複製するように設計されたサイドスタディを行うことを含め、モデル作成者がサイエンスの許す限り不確実性を減らすことが非常に重要です。上記のように事前の値を取得するための一般的な手順は何か知っていますか（段落では事前の平均を取得することのみを参照していますが）。

9 bayesian standard-error error prior measurement-error

1

適切なスコアリングルールが分類設定における一般化のより良い推定になるのはいつですか？

分類問題を解決するための一般的なアプローチは、候補モデルのクラスを識別し、交差検証などの手順を使用してモデル選択を実行することです。通常、最も正確なモデル、またはなどの問題固有の情報をエンコードする関連関数を選択し。FβFβ\text{F}_\beta 最終目標が正確な分類子を作成することであると仮定すると（正確性の定義は再び問題に依存します）、どのような状況で、正確さ、精度、再現率などの不適切なものではなく、適切なスコアリングルールを使用してモデル選択を実行する方が良いでしょう。、など？さらに、モデルの複雑さの問題を無視して、すべてのモデルを等しく可能性があると見なすアプリオリと仮定します。以前は私は決して言わなかっただろう。正式な意味では、分類は回帰[1]、[2]よりも簡単な問題であり、前者の方が後者よりも厳しい境界を導出できる（）。さらに、確率を正確に一致させようとすると、誤った決定の境界や過剰適合が発生する場合があります。しかし、ここでの会話とそのような問題に関するコミュニティの投票パターンに基づいて、私はこの見解に疑問を投げかけています。∗∗* デブロイ、リュック。パターン認識の確率論。巻。31.スプリンガー、1996年、セクション6.7 カーンズ、マイケルJ.、ロバートE.シャピレ。確率論的概念の効率的な配布フリー学習。コンピュータサイエンスの基礎、1990年。IEEE、1990年。 (∗)(∗)(*)このステートメントは少しずさんになるかもしれません。私は、特にフォームの所与の標識されたデータを意味するとと、条件付き確率を正確に推定するよりも、決定境界を推定する方が簡単のようです。S={(x1,y1),…,(xn,yn)}S={(x1,y1),…,(xn,yn)}S = \{(x_1, y_1), \ldots, (x_n, y_n)\}xi∈Xxi∈Xx_i \in \mathcal{X}yi∈{1,…,K}yi∈{1,…,K}y_i \in \{1, \ldots, K\}

9 machine-learning model-selection error scoring-rules

2

楽観バイアス-予測誤差の推定

本の統計的学習の要素（PDFオンラインで入手可能）は、楽観バイアス（7.21、229ページ）について説明しています。楽観バイアスは、トレーニングエラーとサンプル内エラー（元の各トレーニングポイントで新しい結果値をサンプリングした場合に観察されるエラー）の差であると述べています（以下を参照）。次に、この楽観バイアス（）は、推定されたy値と実際のy値（以下の式）の共分散に等しいと述べています。なぜこの式が楽観バイアスを示しているのか理解できません。単純に、実際のyと予測されたyの間の強い共分散は、楽観主義ではなく、単に正確さを表すと考えていました。誰かが公式の導出を手伝ってくれるか、直感を共有できるかどうか教えてください。 ωω\omegayyyyyy

9 error bias validation

3

呼び出された平均観測値で正規化されたRMSEは何ですか？

私はRoot Mean Squared Error（RMSE）を使用して、モデルを使用して予測された値の精度を測定しています。返された値が（パーセンテージではなく）メジャーの単位を使用していることを理解しています。ただし、パーセンテージとして値を引用したいと思います。私が取ったアプローチRMSEは、私の観察の平均値によって正規化することです。の用語はありRMSE/meanますか？

9 error terminology

1

2次のテイラー級数を使用したエラーの伝播

ジョン・ライスの「数学統計とデータ分析」というテキストを読んでいます。確率変数の期待値と分散を近似することに関心があります。確率変数の期待値と分散を計算でき、関係わかっています。したがって、についてテイラー級数展開を使用すると、期待値と分散を近似することができます。YYYXXXY=g(X)Y=g(X)Y = g(X)YYYgggμXμX\mu_X 162ページで、彼は3つの方程式を示しています。 1次のテイラー級数展開を使用したの期待値。それは：です。これは後で質問でと呼ばれます。YYYμY≈g(μX)μY≈g(μX)\mu_Y \approx g(\mu_X)E(Y1)E(Y1)E(Y_1) 1次テイラー級数展開を使用したの分散。それは：です。これは後で質問でと呼ばれます。YYYσ2Y≈σ2X(g′(μX))2σY2≈σX2(g′(μX))2\sigma_Y^2 \approx \sigma_X^2 (g'(\mu_X))^2Var(Y1)Var(Y1)Var(Y_1) 2次のテイラー級数展開を使用したの期待値。それは。これは、後で質問でE（Y_2）と呼ばれます。YYYμY≈g(μX)+12σ2Xg′′(μX)μY≈g(μX)+12σX2g″(μX)\mu_Y \approx g(\mu_X) + \frac12 \sigma_X^2 g''(\mu_X)E(Y2)E(Y2)E(Y_2) Yには2つの異なる式があることに注意してくださいYYY。これは、テイラー級数展開で2つの異なる次数を使用しているためです。式1および2は、Y1=g(X)≈g(μX)+(X−μX)g′(μX)Y1=g(X)≈g(μX)+(X−μX)g′(μX)Y_1 = g(X) \approx g(\mu_X) + (X-\mu_X)g'(\mu_X)ます。式3は、Y2=g(X)≈g(μX)+(X−μX)g′(μX)+12(X−μX)2g′′(μX)Y2=g(X)≈g(μX)+(X−μX)g′(μX)+12(X−μX)2g″(μX)Y_2 = g(X) \approx g(\mu_X) + (X-\mu_X)g'(\mu_X) + \frac12 (X-\mu_X)^2 g''(\mu_X)ます。特にVar（Y_2）の式Var(Y2)Var(Y2)Var(Y_2)は与えられていないことに注意してください。後で、著者はY1Y1Y_1（式2）の分散の方程式を使用しているようですが、実際には、Y2Y2Y_2（式3）の期待値を参照しています。これはVar（Y_2）= Var（Y_1）を意味するようVar(Y2)=Var(Y1)Var(Y2)=Var(Y1)Var(Y_2) = Var(Y_1)です。手動で計算しようとしましたが、やや複雑な式になっています。これが私の仕事です（最後に期待項を取得しているので停止しました）： X 3 V a r （Y 2）Var(Y2)Var(Y2)Var(Y_2)X3X3X^3Var(Y2)=E[(g(μX)+(X−μX)a+12(X−μX)2b−g(μX)−12σ2Xb)2]=E[((X−μX)a+(12(X−μX)2−12σ2X)b)2]=E[(ca+(12c2−12σ2X)b)2]=E[c2a2+ca(c2−σ2X)b+14(c2−σ2X)2b2]=E[(X2−2XμX+μ2X)a2+(X−μX)a((X2−2XμX+μ2X)−σ2X)b+14((X2−2XμX+μ2X)−σ2X)2b2]Var(Y2)=E[(g(μX)+(X−μX)a+12(X−μX)2b−g(μX)−12σX2b)2]=E[((X−μX)a+(12(X−μX)2−12σX2)b)2]=E[(ca+(12c2−12σX2)b)2]=E[c2a2+ca(c2−σX2)b+14(c2−σX2)2b2]=E[(X2−2XμX+μX2)a2+(X−μX)a((X2−2XμX+μX2)−σX2)b+14((X2−2XμX+μX2)−σX2)2b2] \begin{aligned} Var(Y_2) &= …

9 self-study mathematical-statistics error

1

このエラー指標に受け入れられる名前はありますか？

モデルの再構成エラーを定量化するために使用されるエラーメトリックに遭遇しました：、YiはあるI番目のデータ点、mはiはモデルの推定値であるI番目のデータ点、及び ˉ yはすべてのデータポイントの平均です。分子はモデルの総二乗誤差であり、分母はデータの平均からの二乗偏差です。ε = ∑私（y私− m私）2Σ私（y私− y¯）2ε=∑i(yi−mi)2∑i(yi−y¯)2 \varepsilon = \frac{\sum_i{\left(y_i-m_i\right)^2}}{\sum_i{\left(y_i-\bar{y}\right)^2}} y私yiy_i私iiメートル私mim_i私iiy¯y¯\bar{y} このメトリックには標準的な名前がありますか？そうでない場合、それを何と呼びますか？

8 terminology error model-evaluation

2

膨大なデータセットが与えられた場合、なぜ統計モデルは過剰適合しますか？

現在のプロジェクトでは、特定のグループの行動を予測するモデルを構築する必要があるかもしれません。トレーニングデータセットには6つの変数のみが含まれます（idは識別目的のみです）。 id, age, income, gender, job category, monthly spend その中で monthly spend応答変数です。ただし、トレーニングデータセットには約300万行が含まれid, age, income, gender, job category、予測されるデータセット（応答変数は含まれるが、含まれない）には100万行が含まれます。私の質問は、統計モデルにあまりにも多くの行（この場合は300万行）を投げた場合に潜在的な問題はありますか？計算コストが懸念事項の1つであることを理解していますが、他に懸念事項はありますか？データセットのサイズの問題を完全に説明している本/紙はありますか？

8 modeling large-data overfitting clustering algorithms error spatial r regression predictive-models linear-model average measurement-error weighted-mean error-propagation python standard-error weighted-regression hypothesis-testing time-series machine-learning self-study arima regression correlation anova statistical-significance excel r regression distributions statistical-significance contingency-tables regression optimization measurement-error loss-functions image-processing java panel-data probability conditional-probability r lme4-nlme model-comparison time-series probability probability conditional-probability logistic multiple-regression model-selection r regression model-based-clustering svm feature-selection feature-construction time-series forecasting stationarity r distributions bootstrap r distributions estimation maximum-likelihood garch references probability conditional-probability regression logistic regression-coefficients model-comparison confidence-interval r regression r generalized-linear-model outliers robust regression classification categorical-data r association-rules machine-learning distributions posterior likelihood r hypothesis-testing normality-assumption missing-data convergence expectation-maximization regression self-study categorical-data regression simulation regression self-study self-study gamma-distribution modeling microarray synthetic-data

1

残差eは誤差の推定量ですか？

この質問は私が始めた別のスレッドで出てきたので、もっと多くの人々の意見を得たいと思いました。私の質問は残差eは誤差の推定量ですか？εϵ\epsilon 私が尋ねる理由は次のとおりです。OLSでは、残差の分散は回帰の分散として知られています（RSSは残差の二乗和です）。同様に、この分散の平方根であるは、回帰の標準誤差です。分散の平方根が標準誤差であることを、この分散が推定量の分散であることを意味するはずです。私たちはすでにそれが残差の分散であることを知っています。したがって、残差は推定量ですか？（私はを想定しています） √RSS（n − K）RSS(n−K)\frac{\text{RSS}}{(n - K )} RSSRSS（n − K）−−−−−√RSS(n−K)\sqrt\frac{\text{RSS}}{(n - K )} ϵRSS（n − K）RSS(n−K)\frac{\text{RSS}}{(n - K )}εϵ\epsilon 考え？

8 standard-error residuals error estimators

2

予測された分布の質の評価

データポイントセットがあり、は独立変数であり、各は、パラメーターを使用した指数分布から描画されるものとしてモデル化できると思います。Xi,yiXi,yiX_i, y_ixxxyiyiy_iλiλi\lambda_i を使用してを予測する場合、観測値に関して予測した分布の品質をどのように評価できますか？XiXiX_iλiλi\lambda_iyiyiy_i 編集：これは基本的に、ベルヌーイ実験の確率推定器の品質を評価する方法と同じ質問ですか？しかし、二項式の文脈ではなく、連続的な文脈で。この場合、クロスエントロピーの代わりに何を使用するかは明らかではありません。

7 regression distributions error scoring-rules

1

線形回帰のホモセダスティシティ仮定対スチューデント化された残差の概念

スチューデント化された残差について読みましたが、予測子の特定の値を条件として、さまざまな残差分散の考え方が理解できません。 XXX （スチューデント化された残差の概念によって暗示されるように）は、単一の予測子変数を使用する線形回帰モデルにおける等分散性の仮定と本質的に矛盾していません。それは私の教科書で、等分散性の仮定は、 YYY （従属変数）条件付き X=xX=xX = x（独立予測変数の特定の実現）は、この予測変数の値の範囲全体で一定です。この条件付き分散は、残差変数の条件付き分散にも等しいと言いますεε\varepsilon 与えられた xxx。私の理解では、これは人口レベルでの発言です。まとめると、次のようになります。 Var(Y|X)=Var(ε|X)=σ2εVar(Y|X)=Var(ε|X)=σε2Var(Y|X) = Var(\varepsilon|X) = \sigma^2_\varepsilon 後でこの本は、従属変数の外れ値の検出を扱い、標準化およびスチューデント化された残差の使用を提案しています。標準化された残差は個々の残差ですεiεi\varepsilon_i 推定標準偏差で割った σ^εσ^ε\hat\sigma_\varepsilon母集団の残差変数の。標準化された残差の場合、各残差εiεi\varepsilon_i したがって、同じ定数値を使用して標準化されます σ^εσ^ε\hat\sigma_\varepsilon 等分散性を仮定できる場合： Stand.Resi=εiσ^εStand.Resi=εiσ^εStand.Res_i = \frac{\varepsilon_i}{\hat\sigma_\varepsilon}。ただし、次の段落では、スチューデント化された残差が導入されています。本は言う： "残差の推定の精度が距離とともに増加することを示すことができますxixix_i その平均から x¯x¯\bar x。スチューデント化された残差の場合、残差はその推定標準誤差全体ではなく、その場所での残差の推定標準偏差で除算されます。xixix_i。この標準偏差は、次の式から取得できます。 Student.Resi=εiσ^ε⋅1−hi√Student.Resi=εiσ^ε⋅1−hiStudent.Res_i = \frac{\varepsilon_i }{\hat\sigma_\varepsilon \cdot \sqrt {1-h_i}} と hihih_i （この単純な場合：単数）予測子のレバレッジスコア xixix_i。したがって、この場合、残差はすべて同じ定数値で除算されるのではなく（標準化された残差の場合のように）、代わりにてこ比の値に依存する残差標準誤差の分布があるように見えます。このサイトの他の質問で説明されているように、これらのレバレッジ値は予測変数の両端で大きくなります。ウィキペディア（https://en.wikipedia.org/wiki/Errors_and_residuals#Regressions）には次のように書かれています：回帰分析では、エラーと残差の区別は微妙で重要であり、スチューデント化された残差の概念につながります。独立変数を従属変数に関連付ける観測できない関数（たとえば、線）がある場合、この関数からの従属変数の観測値の偏差は観測できないエラーです。一部のデータに対して回帰を実行する場合、フィットされた関数からの従属変数の観測値の偏差は残差です。[...]ただし、回帰プロセスの動作により、エラー自体が同じように分布していても、（入力変数の）異なるデータポイントでの残差の分布は異なる場合があります。具体的には、誤差が同じように分布する線形回帰では、ドメインの中央にある入力の残差の変動性は、ドメインの端にある残差の変動性よりも高くなります[必要な引用]：線形回帰は、中央よりも良いエンドポイントに適合します。これは、回帰係数のさまざまなデータポイントの影響関数にも反映されます。エンドポイントの影響が大きくなります。これは直感的に私には理にかなっていますが、それが同等分散性の仮定に矛盾しないことを私はよく理解していません。これは、母集団レベルでは、エラー分散がすべてのレベルで等しくなる可能性があるためです。XXX しかし、回帰直線をあてはめて誤差分散を推定すると（母集団レベルでの誤差の推定値として残差を使用できるように）、次の条件の残差標準偏差の分布が自動的かつ人工的に作成されます。 XXXその残差標準偏差をすべての残差の等しい特異値にする代わりに？つまり、標準化された残差は、（観測不能な）母集団レベルでのみ本当に有用であることを意味しますよね？与えられたサンプルについて、標準化された残差は、すべての値の正確な推定量になる可能性があるためですxixix_i 遠い x¯x¯\bar x 単に回帰モデルが当てはまる方法のためですか？ただし、そうである場合、予測変数に対してスチューデント化された残差をプロットし、残差の分散が …

7 regression residuals heteroscedasticity error

タグ付けされた質問 「error」

タグ付けされた質問「error」