統計とビッグデータ regression

1

私は現在、線形モデル（family = gaussian）を生物多様性の指標に適用しようとしています。生物多様性はゼロ未満の値を取ることはできず、ゼロで膨張し、連続しています。値の範囲は0から0.25強です。その結果、モデルの残差には明らかなパターンがありますが、私はそれを取り除くことができませんでした。誰もこれを解決する方法についてアイデアを持っていますか？

15 regression zero-inflation tobit-regression tweedie-distribution

1

QR分解について

私はさらに理解しようとしている（Rでの）実用的な例を持っています。私は線形モデルを作成するためにLimmaを使用しており、倍率変更の計算でステップごとに何が起こっているのかを理解しようとしています。私は主に、係数を計算するとどうなるかを理解しようとしています。私が理解できることから、係数を取得するためにQR分解が使用されているので、本質的に説明または計算中の方程式、またはqr（）のソースコードをステップバイステップで見る方法を探しています自分でトレースするR。次のデータを使用します。 expression_data <- c(1.27135202935009, 1.41816160331787, 1.2572772420417, 1.70943398046296, 1.30290218641586, 0.632660015122616, 1.73084258791384, 0.863826352944684, 0.62481665344628, 0.356064235030147, 1.31542028558644, 0.30549909383238, 0.464963176430548, 0.132181421105667, -0.284799809563931, 0.216198538884642, -0.0841133304341238, -0.00184472290008803, -0.0924271878885008, -0.340291804468472, -0.236829711453303, 0.0529690806587626, 0.16321956624511, -0.310513510587778, -0.12970035111176, -0.126398635780533, 0.152550803185228, -0.458542514769473, 0.00243517688116406, -0.0190192219685527, 0.199329876859774, 0.0493831375210439, -0.30903829000185, -0.289604319193543, -0.110019942085281, -0.220289950537685, 0.0680403723818882, -0.210977291862137, 0.253649629045288, 0.0740109953273042, 0.115109148186167, 0.187043445057404, 0.705155251555554, 0.105479342752451, 0.344672919872447, 0.303316487542805, …

15 r regression linear-model

1

線形モデルのBLUE（OLSソリューション）以外の不偏推定量

線形モデルの場合、OLSソリューションはパラメーターに最適な線形不偏推定量を提供します。もちろん、より低い分散、例えばリッジ回帰のバイアスをトレードオフできます。しかし、私の質問はバイアスがないということです。偏りはないが、OLS推定パラメーターよりも高い分散を持つ、やや一般的に使用される推定器は他にありますか？巨大なデータセットがある場合は、もちろんそれをサブサンプリングし、より少ないデータでパラメーターを推定し、分散を増やすことができます。これは仮説的に有用だと思います。 BLUE推定量について読んだときに、より悪い代替案が提供されていないため、これは修辞的な質問です。悪い選択肢を提供することは、人々が青い推定器の力をよりよく理解するのにも役立つと思います。

15 regression least-squares linear unbiased-estimator blue

2

バイアスと分散のトレードオフに関する質問

バイアスと分散のトレードオフ、推定器のバイアスとモデルのバイアスの関係、および推定器の分散とモデルの分散の関係を理解しようとしています。私はこれらの結論に達しました：推定量のバイアスを無視すると、つまり、モデルの分散を無視してモデルのバイアスのみを最小化することを目的とする場合（言い換えると、考慮せずに推定量の分散を最小化することのみを目的とする場合）推定量のバイアスも）逆に、推定量の分散を無視する場合、つまりモデルのバイアスを無視するモデルの分散のみを最小化することを目的とする場合（つまり、モデルのバイアスを最小化することのみを目的とする場合、推定量の分散も考慮しない推定量）。私の結論は正しいですか？

15 regression variance bias bias-variance-tradeoff

1

設定での回帰：正則化方法（ラッソ、PLS、PCR、リッジ）の選択方法

私はのために行くかどうかを確認しようとしているリッジ回帰、LASSO、主成分回帰（PCR）、または部分最小二乗変数/機能（の数が多い状況で（PLS））およびサンプルの数が少ない（N < p）、私の目的は予測です。pppn<pn<pn np>10np>10np>10n 変数（およびY）は、異なる程度で互いに相関しています。XXXYYY 私の質問は、この状況に最適な戦略はどれですか？どうして？

15 regression pca lasso ridge-regression partial-least-squares

3

異分散データの分散の予測

私は、誤差分散と線形モデルの観点からの平均値を予測しようとする異分散データの回帰を試みています。このようなもの： y(x,t)ξ(x,t)y¯(x,t)σ(x,t)=y¯(x,t)+ξ(x,t),∼N(0,σ(x,t)),=y0+ax+bt,=σ0+cx+dt.y(x,t)=y¯(x,t)+ξ(x,t),ξ(x,t)∼N(0,σ(x,t)),y¯(x,t)=y0+ax+bt,σ(x,t)=σ0+cx+dt.\begin{align}\\ y\left(x,t\right) &= \bar{y}\left(x,t\right)+\xi\left(x,t\right),\\ \xi\left(x,t\right) &\sim N\left(0,\sigma\left(x,t\right)\right),\\ \bar{y}\left(x,t\right) &= y_{0}+ax+bt,\\ \sigma\left(x,t\right) &= \sigma_{0}+cx+dt. \end{align} 言い換えると、データは、さまざまな値のxおよびtでのの反復測定で構成さy(x,t)y(x,t)y(x,t)れています。私は、これらの測定は、「真の」平均値から成ると仮定ˉ Y（X 、T ）の線形関数であり、X及びT加法ガウス雑音で、ξ （X 、T ）私は持っていない、その標準偏差（または分散また、x 、tに線形に依存します。（xにより複雑な依存関係を許可し、xxxttty¯(x,t)y¯(x,t)\bar{y}(x,t)xxxtttξ(x,t)ξ(x,t)\xi(x,t)x,tx,tx,txxxttt –線形形式の強力な理論的動機付けはありませんが、この段階で物事を複雑にしすぎないようにしたいです。）私は「不均一」ここでは検索用語がある知っているが、すべては私がこれまでよりよく予測することがそれを削除/削減する方法の議論されている見つけることができましたy¯y¯\bar{y}、しかししようという点では何もすることが予測しない σσ\sigmaの観点から独立変数。私は推定したいと思いy0,a,b,σ0,cy0,a,b,σ0,cy_0, a, b, \sigma_0, c及びddd信頼区間（またはベイジアン当量）で、そしてとても良くSPSSでそれを行うための簡単な方法があるかどうか！私は何をすべきか？ありがとう。

15 regression spss variance residuals heteroscedasticity

4

データを変換するときに避けるべき落とし穴？

応答を二重に変換した後、変数XXXとYYY変数の間に強い線形関係を達成しました。モデルとなった Y∼XY∼XY\sim X が、私はそれを変換 YX−−√∼X−−√YX∼X\sqrt{\frac{Y}{X}}\sim \sqrt{X} 改善R2R2R^20.76に0.19から。明らかに、私はこの関係でいくつかのまともな手術をしました。過度の変換の危険性や統計原則の違反の可能性など、これを行うことの落とし穴について誰でも議論できますか？

15 regression data-transformation r-squared

1

帰無仮説の下で交換可能なサンプルの背後にある直感は何ですか？

順列テスト（ランダム化テスト、再ランダム化テスト、または正確なテストとも呼ばれます）は非常に便利で、たとえば、必要な正規分布の仮定がt-test満たされていない場合や、ランク付けによる値の変換時に役立ちますノンパラメトリックテストのようにMann-Whitney-U-test、より多くの情報が失われます。ただし、この種の検定を使用する場合、帰無仮説の下でのサンプルの交換可能性の仮定は1つだけの仮定を見落とすべきではありません。coinRパッケージで実装されているようなサンプルが3つ以上ある場合にも、この種のアプローチを適用できることも注目に値します。この仮定を説明するために、平易な英語で比fig的な言葉や概念的な直観を使ってください。これは、私のような非統計学者の間で見過ごされているこの問題を明確にするのに非常に役立つでしょう。注：置換テストの適用が同じ仮定の下で保持または無効にならない場合に言及することは非常に役立ちます。更新：私の地区の地元の診療所から無作為に50人の被験者を収集したとします。彼らは、1：1の比率で薬またはプラセボを無作為に割り当てられました。それらはすべてPar1、V1（ベースライン）、V2（3か月後）、およびV3（1年後）のパラメーター1について測定されました。50個の被験者はすべて、機能Aに基づいて2つのグループにサブグループ化できます。Aポジティブ= 20およびAネガティブ=30。これらは、機能Bに基づいて別の2つのグループにサブグループ化することもできます。Bポジティブ= 15およびBネガティブ=35 。今、私はPar1すべての訪問ですべての被験者からの値を持っています。交換可能性の仮定の下で、次のPar1場合に順列検定を使用するレベルを比較できますか？-薬物と被験者をV2でプラセボを投与した被験者と比較するますか？-機能Aの対象とV2の機能Bの対象を比較しますか？ -V2で機能Aを持つ対象とV3で機能Aを持つ対象を比較しますか？ -この比較はどのような状況で無効であり、交換可能性の仮定に違反しますか？

15 hypothesis-testing permutation-test exchangeability r statistical-significance loess data-visualization normal-distribution pdf ggplot2 kernel-smoothing probability self-study expected-value normal-distribution prior correlation time-series regression heteroscedasticity estimation estimators fisher-information data-visualization repeated-measures binary-data panel-data mathematical-statistics coefficient-of-variation normal-distribution order-statistics regression machine-learning one-class probability estimators forecasting prediction validation finance measurement-error variance mean spatial monte-carlo data-visualization boxplot sampling uniform chi-squared goodness-of-fit probability mixture theory gaussian-mixture regression statistical-significance p-value bootstrap regression multicollinearity correlation r poisson-distribution survival regression categorical-data ordinal-data ordered-logit regression interaction time-series machine-learning forecasting cross-validation binomial multiple-comparisons simulation false-discovery-rate r clustering frequency wilcoxon-mann-whitney wilcoxon-signed-rank r svm t-test missing-data excel r numerical-integration r random-variable lme4-nlme mixed-model weighted-regression power-law errors-in-variables machine-learning classification entropy information-theory mutual-information

4

変換しても正常ではない非正常データで回帰を実行するにはどうすればよいですか？

21個のアンケート項目に対するリッカート尺度の回答から得られたデータ（158件）があります。アンケートのどの項目が全体的な項目（満足度）に対する応答を予測するかを確認するために、回帰分析を実行したい/本当に必要です。応答は（KSテストによると）通常は分散されておらず、考えられるあらゆる方法（逆、ログ、log10、sqrt、2乗）に変換しました。残差プロットはあちこちに見えるので、線形回帰を行い、正常に動作するふりをすることは本当に合法ではないと思います（ポアソン分布ではありません）。これは、回答が非常に密集しているためだと思います（平均は3.91、95％CI 3.88〜3.95）。そのため、データを変換する新しい方法が必要か、何らかのノンパラメトリック回帰が必要かと考えていますが、SPSSでできることはわかりません。

15 regression distributions nonparametric

2

影響力のあるポイント、高レバレッジポイント、および外れ値の正確な意味と比較？

ウィキペディアから影響力のある観測とは、回帰モデルの予測に比較的大きな影響を与える観測です。ウィキペディアからレバレッジポイントは、独立変数の極値または外れ値で行われた観測値であり、隣接する観測値の欠如は、近似回帰モデルがその特定の観測値の近くを通過することを意味します。ウィキペディアからの次の比較はなぜですか通常、影響力のあるポイントには高いレバレッジがありますが、高いレバレッジポイントは必ずしも影響力のあるポイントではありません。

15 regression outliers leverage

1

ベータ回帰から係数を解釈する方法は？

0〜1の範囲のデータがありますbetareg。R のパッケージを使用して、制限されたデータを従属変数として回帰モデルに適合させました。私の質問は、回帰の係数をどのように解釈すればよいですか？

15 r regression interpretation beta-distribution regression-coefficients

4

「教師なし回帰」はありますか？

私が正しい場合、「教師なし分類」はクラスタリングと同じです。次に、「教師なし回帰」がありますか？ありがとう！

15 regression unsupervised-learning

3

調整されたR 2乗がモデルをより良く予測する場合、調整されたR 2乗はR 2乗よりも小さいのはなぜですか？

私が理解している限り、R2R2R^2はモデルが観測をどれだけうまく予測できるかを説明しています。調整済みR2R2R^2は、より多くの観測値（または自由度）を考慮したものです。それでは、Adjusted R2R2R^2はモデルをより良く予測しますか？では、なぜこれがよりも小さいのR2R2R^2でしょうか？多くの場合、それ以上のはずです。

15 regression r-squared

1

ggplotは回帰の信頼区間をどのように計算しますか？

Rプロットパッケージggplot2には、関連する信頼帯を使用して回帰直線（または曲線）をプロットするためのstat_smoothという素晴らしい関数があります。ただし、回帰線（または「メソッド」）のたびに、この信頼帯がどのように生成されるかを正確に把握するのは困難です。どうすればこの情報を見つけることができますか？

15 r regression confidence-interval ggplot2

7

ランダムフォレストが過剰適合

scikits-learnでRandom Forest Regressionを使用しようとしています。問題は、非常に高いテストエラーが発生していることです。 train MSE, 4.64, test MSE: 252.25. これは私のデータがどのように見えるかです：（青：実データ、緑：予測）：トレーニングに90％、テストに10％を使用しています。これは、いくつかのパラメーターの組み合わせを試した後に使用しているコードです。 rf = rf = RandomForestRegressor(n_estimators=10, max_features=2, max_depth=1000, min_samples_leaf=1, min_samples_split=2, n_jobs=-1) test_mse = mean_squared_error(y_test, rf.predict(X_test)) train_mse = mean_squared_error(y_train, rf.predict(X_train)) print("train MSE, %.4f, test MSE: %.4f" % (train_mse, test_mse)) plot(rf.predict(X)) plot(y) フィッティングを改善するための可能な戦略は何ですか？基礎となるモデルを抽出するために他にできることはありますか？同じパターンを何度も繰り返した後、モデルが新しいデータに対して非常にひどく振る舞うのは信じがたいようです。このデータに合わせようとする希望はありますか？

15 regression random-forest scikit-learn

タグ付けされた質問 「regression」

タグ付けされた質問「regression」