統計とビッグデータ curve-fitting

3

私は興味のある結果が二分されglmnetているLASSO回帰の使用に手を出し始めています。以下に小さな模擬データフレームを作成しました。 age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …

77 r self-study lasso regression interpretation anova statistical-significance survey conditional-probability independence naive-bayes graphical-model r time-series forecasting arima r forecasting exponential-smoothing bootstrap outliers r regression poisson-distribution zero-inflation genetic-algorithms machine-learning feature-selection cart categorical-data interpretation descriptive-statistics variance multivariate-analysis covariance-matrix r data-visualization generalized-linear-model binomial proportion pca matlab svd time-series correlation spss arima chi-squared curve-fitting text-mining zipf probability categorical-data distance group-differences bhattacharyya regression variance mean data-visualization variance clustering r standard-error association-measure somers-d normal-distribution integral numerical-integration bayesian clustering python pymc nonparametric-bayes machine-learning svm kernel-trick hyperparameter poisson-distribution mean continuous-data univariate missing-data dag python likelihood dirichlet-distribution r anova hypothesis-testing statistical-significance p-value rating data-imputation censoring threshold

4

データには2つの傾向があります。独立したトレンドラインを抽出する方法は？

特定の方法で順序付けられていないデータのセットがありますが、明確にプロットすると2つの明確な傾向があります。ここでは、2つのシリーズが明確に区別されているため、単純な線形回帰は適切ではありません。2つの独立した線形トレンドラインを取得する簡単な方法はありますか？記録のために、私はPythonを使用しており、機械学習を含むプログラミングとデータ分析にかなり満足していますが、絶対に必要な場合はRに飛び乗ります。

34 time-series python curve-fitting

1

lmerモデルからの効果の再現性の計算

混合効果モデリングによる測定の再現性（別名信頼性、別名クラス内相関）の計算方法を説明するこの論文に出会ったばかりです。Rコードは次のようになります。 #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …

28 mixed-model reliability intraclass-correlation repeatability spss factor-analysis survey modeling cross-validation error curve-fitting mediation correlation clustering sampling machine-learning probability classification metric r project-management optimization svm python dataset quality-control checking clustering distributions anova factor-analysis exponential poisson-distribution generalized-linear-model deviance machine-learning k-nearest-neighbour r hypothesis-testing t-test r variance levenes-test bayesian software bayesian-network regression repeated-measures least-squares change-scores variance chi-squared variance nonlinear-regression regression-coefficients multiple-comparisons p-value r statistical-significance excel sampling sample r distributions interpretation goodness-of-fit normality-assumption probability self-study distributions references theory time-series clustering econometrics binomial hypothesis-testing variance t-test paired-comparisons statistical-significance ab-test r references hypothesis-testing t-test normality-assumption wilcoxon-mann-whitney central-limit-theorem t-test data-visualization interactive-visualization goodness-of-fit

4

対数正規分布とべき法則分布の違いの解釈（ネットワーク次数分布）

まず、私は統計学者ではありません。しかし、私は博士号の統計ネットワーク分析を行っています。ネットワーク分析の一環として、ネットワーク度の相補累積分布関数（CCDF）をプロットしました。私が見つけたのは、従来のネットワーク分布（WWWなど）とは異なり、分布は対数正規分布に最も適しているということです。私はそれをべき法則に適合させようとしましたが、Clauset et alのMatlabスクリプトを使用して、曲線の尾部がカットオフのあるべき法則に従うことがわかりました。点線はべき乗則を表します。紫色の線は、対数正規フィットを表します。緑の線は指数近似を表します。私が理解するのに苦労しているのは、これがすべて意味するものですか？このトピックについて少し触れているNewmanのこの論文を読んだことがあります：http : //arxiv.org/abs/cond-mat/0412004 以下に私の推測を示します。次数の分布がべき法則の分布に従う場合、リンクとネットワークの次数の分布に線形の優先的アタッチメントがあることを理解します（豊かになるほど豊かな効果またはユールプロセス）。私が目撃している対数正規分布では、曲線の始まりに準線形の優先的付着があり、べき乗則によって適合することができる尾部に向かってより線形になると言うのは正しいですか？また、対数正規分布は確率変数の対数（Xなど）が正規分布しているときに発生するため、対数正規分布ではXの値が小さく、Xの値が小さいべき法則分布に従うランダム変数はさらに重要なことは、ネットワーク度の分布に関して、対数正規の優先添付ファイルはまだスケールフリーネットワークを示唆していますか？私の本能は、曲線の尾部がべき法則で適合できるため、ネットワークはスケールフリー特性を示すと結論付けることができることを教えてくれます。

22 curve-fitting networks lognormal power-law

1

同じ箱とひげのプロット（平均/標準/中央値/ MAD /最小/最大）を持つAnscombeのようなデータセット

編集：この質問が膨らんだので、要約：同じ混合統計（平均、中央値、ミッドレンジ、およびそれらに関連する分散、および回帰）を持つ異なる意味のある解釈可能なデータセットを見つけます。 Anscombeカルテット（高次元データを視覚化する目的を参照してください）は、同じ周辺平均/標準偏差（4つのと4つので別々に）と同じOLS線形フィットを持つ4つの -データセットの有名な例です、回帰および残差平方和、相関係数。したがって、タイプの統計（周辺および結合）は同じですが、データセットはまったく異なります。y x yxxxyyyxxxyyyℓ 2R2R2R^2ℓ2ℓ2\ell_2 編集（OPコメントから）小さいデータセットサイズを別にして、いくつかの解釈を提案させてください。セット1は、分布ノイズとの標準的な線形（アフィン、正確には）関係として見ることができます。セット2は、より高度な適合の絶頂である可能性のあるきれいな関係を示しています。セット3は、1つの外れ値を持つ明確な線形統計依存性を示しています。セット4はよりトリッキーですからを「予測」する試みは失敗に結びついているようです。の設計により、値の範囲が不十分なヒステリシス現象、量子化効果（が過度に量子化される可能性があります）、またはユーザーが従属変数と独立変数を切り替えました。x x xyyyxxxxxxxxx したがって、サマリー機能は非常に異なる動作を隠します。セット2は、多項式近似によりうまく対処できます。セット4と同様に、外れ値に耐性のあるセット（など）およびセット4。編集（OPコメントから）：ブログ投稿Curious Regressionsは次のように述べています：ℓ 1ℓ2ℓ2\ell_2ℓ1ℓ1\ell_1 ちなみに、Frank Anscombeがこれらのデータセットをどのように思いついたかは明らかにしなかったと聞いています。要約統計量と回帰結果をすべて同じにすることが簡単な作業だと思う場合は、試してみてください！でアンスコムの例と同様の目的のために構築されたデータセット、いくつかの興味深いデータセットは、同じ位数ベースのヒストグラムと、たとえば、与えられています。意味のある関係と統計の混合が見られませんでした。私の質問は次のとおりℓ2ℓ2\ell_2です。同じタイプの統計を持つことに加えて、2変量（または視覚化を維持するための3変量）Anscombeのようなデータセットがあります。それらのプロットは、測定と測定の間の法則を探しているかのように、と関係として解釈できます。yxxxyyy それらは同じ（より堅牢な）限界特性（同じ中央値と絶対偏差の中央値）を持ち、ℓ1ℓ1\ell_1 同じ境界ボックス：同じ最小値、最大値（したがってタイプのミッドレンジおよびミッドスパン統計）。ℓ∞ℓ∞\ell_\infty このようなデータセットは、各変数に同じ「箱ひげ」プロットの要約（最小、最大、中央値、絶対偏差/ MADの中央値、平均、標準）を持ち、解釈がまったく異なります。少なくとも絶対回帰がデータセットで同じである場合はさらに興味深いでしょう（しかし、私はすでにあまりにも多くを求めています）。ロバストな回帰とロバストでない回帰について説明する際の注意点として、リチャードハミングの引用を覚えておいてください。計算の目的は、数値ではなく洞察です編集（OPコメントから）同様の問題は、同一の統計情報を使用したデータの生成、非類似グラフィックス、Sangit Chatterjee＆Aykut Firata、The American Statistician、2007、またはクローンデータ：まったく同じ多重線形回帰近似Jでのデータセットの生成で扱われますオースト。N.-Z. 統計 J. 2009。 Chatterjee（2007）の目的は、同じ平均と初期データセットからの標準偏差を持つ新しいペアを生成し、異なる「相違/相違」目的関数を最大化することです。これらの関数は非凸関数または非微分関数になる可能性があるため、遺伝的アルゴリズム（GA）を使用します。重要な手順はオルソ正規化で構成されます。これは、平均と（単位）分散の保存と非常に一貫しています。論文の数字（論文の内容の半分）は、入力データとGA出力データを重ね合わせます。私の意見では、GA出力は元の直感的な解釈の多くを失います。(x,y)(x,y)(x,y) 技術的には、中央値も中間値も保持されず、論文では、、および統計を保持する繰り込み手順については言及されていません。ℓ 1ℓ2ℓ2\ell_2ℓ1ℓ1\ell_1ℓ∞ℓ∞\ell_\infty

21 regression descriptive-statistics curve-fitting estimators

5

データマイニングの新しい革新的な方法は？

次の抜粋は、一貫して成功しているヘッジファンドマネージャーのJaffray WoodriffとのインタビューであるSchwagerのHedge Fund Market Wizzards（2012年5月）からのものです。「データマイニングで発生する最悪のエラーにはどのようなものがありますか？」：多くの人は、トレーニングにサンプル内データを使用し、テストにサンプル外データを使用するため、大丈夫だと考えています。次に、サンプル内のデータで実行した方法に基づいてモデルを並べ替え、サンプル外のデータでテストするのに最適なモデルを選択します。人間の傾向は、サンプル外のデータで引き続き成功するモデルを採用し、それらのモデルを取引用に選択することです。このタイプのプロセスは、サンプル外のデータをトレーニングデータの一部に単純に変換します。これは、サンプル外の期間で最高の結果が得られたモデルを選択するためです。これは、人々が犯す最も一般的なエラーの1つであり、通常適用されるデータマイニングがひどい結果をもたらす理由の1つです。インタビュアーは、「あなたは代わりに何をすべきですか？」平均して、サンプル外のすべてのモデルが引き続き良好に機能するパターンを探すことができます。サンプル外モデルの平均がサンプル内スコアのかなりの割合である場合、あなたはうまくやっていることがわかります。一般的に、サンプル外の結果がサンプル内の50％を超える場合、実際にどこかに到達しています。SASとIBMが優れた予測モデリングソフトウェアを構築していた場合、QIMのビジネスモデルは機能しませんでした。私の質問これは理にかなっていますか？彼はどういう意味ですか？あなたは手がかりを持っていますか？あるいは提案された方法といくつかの参考文献の名前さえありますか？または、この男は誰も理解していない聖杯を見つけましたか？彼はこのインタビューで、彼の方法は潜在的に科学に革命をもたらす可能性があるとも述べています...

21 data-mining curve-fitting out-of-sample

4

新しいベクターをPCA空間に投影する方法は？

主成分分析（PCA）を実行した後、新しいベクトルをPCA空間に投影します（つまり、PCA座標系で座標を見つけます）。を使用してR言語でPCAを計算しましたprcomp。これで、ベクトルにPCA回転行列を掛けることができるはずです。このマトリックスの主成分を行または列に配置する必要がありますか？

21 r pca r variance heteroscedasticity misspecification distributions time-series data-visualization modeling histogram kolmogorov-smirnov negative-binomial likelihood-ratio econometrics panel-data categorical-data scales survey distributions pdf histogram correlation algorithms r gpu parallel-computing approximation mean median references sample-size normality-assumption central-limit-theorem rule-of-thumb confidence-interval estimation mixed-model psychometrics random-effects-model hypothesis-testing sample-size dataset large-data regression standard-deviation variance approximation hypothesis-testing variance central-limit-theorem kernel-trick kernel-smoothing error sampling hypothesis-testing normality-assumption philosophical confidence-interval modeling model-selection experiment-design hypothesis-testing statistical-significance power asymptotics information-retrieval anova multiple-comparisons ancova classification clustering factor-analysis psychometrics r sampling expectation-maximization markov-process r data-visualization correlation regression statistical-significance degrees-of-freedom experiment-design r regression curve-fitting change-point loess machine-learning classification self-study monte-carlo markov-process references mathematical-statistics data-visualization python cart boosting regression classification robust cart survey binomial psychometrics likert psychology asymptotics multinomial

2

Rのロジスティック成長曲線を近似する最も簡単な方法は何ですか？

これは、明確にするために、カテゴリ変数を予測するために回帰を使用するという意味でロジスティック回帰について話していないので、Googleにとって他のことほど簡単ではありません。ロジスティック成長曲線を特定のデータポイントに適合させることについて話しています。具体的には、は1958年から2012年までの特定の年であり、は年の11月の推定CO2 ppm（二酸化炭素の百万分の1）です。y xバツxxyyyバツバツx 今は加速していますが、ある時点で横ばいになります。ロジスティックカーブが必要です。これを行う比較的簡単な方法はまだ見つかりませんでした。

19 r nonlinear-regression curve-fitting logistic-curve

4

線形関数、指数関数、および対数関数から最適な曲線近似関数を決定する

環境： Mathematics Stack Exchange （プログラムを構築できますか？）の質問から、誰かが点のセットを持ち、それに線形、指数、または対数曲線を当てはめたいと思っています。通常の方法は、これらのいずれか（モデルを指定）を選択して開始し、統計計算を実行することです。x − yバツ−yx-y しかし、本当に求められているのは、線形、指数、または対数から「最良の」曲線を見つけることです。表向きは、3つすべてを試して、最適な相関係数に従って3つの最適な曲線を選択できます。しかし、どういうわけか私はこれが全くコーシャーではないと感じています。一般的に受け入れられている方法は、最初にモデルを選択し、3つのうちの1つ（または他のリンク関数）を選択してから、データから係数を計算します。そして、事実上の最高のピッキングはチェリーピッキングです。しかし、データから関数または係数を決定するかどうかは同じですが、あなたの手順は最高の...ものを発見しています（どの関数が別の係数であるかを発見してみましょう）。質問：適合統計の比較に基づいて、線形、指数、および対数モデルから最適なモデルを選択することは適切ですか？もしそうなら、これを行うための最も適切な方法は何ですか？回帰が関数内のパラメーター（係数）を見つけるのに役立つ場合、3つの曲線族のどれが最適であるかを選択する離散パラメーターがないのはなぜですか？

18 regression predictive-models model-selection curve-fitting

2

回帰分析と曲線近似の違い

可能であれば例を使って、回帰分析と曲線近似（線形および非線形）の実際の違いを説明してもらえますか？どちらも2つの変数間の関係（従属と独立）を見つけようとし、提案されているモデルに関連するパラメーター（または係数）を決定しようとするようです。たとえば、次のようなデータセットがある場合： Y = [1.000 1.000 1.000 0.961 0.884 0.000] X = [1.000 0.063 0.031 0.012 0.005 0.000] 誰もがこれら2つの変数間の相関式を提案できますか？これら2つのアプローチの違いを理解するのが困難です。他のデータセットで答えをサポートしたい場合、それは適合しにくいと思われるので大丈夫です（おそらく私だけのために）。上記のデータセットは、受信者動作特性（ROC）曲線のおよび軸を表します。ここで、は真陽性率（TPR）、は偽陽性率（FPR）です。xxxy xyyyyyyxxx 特定のFPR（またはその逆）のTPRを推定するために、これらのポイントの中で、曲線を近似するか、元の質問に従って回帰分析を行っていますが、まだ定かではありません。まず、2つの独立変数（TPRとFPR）の間にこのような曲線近似関数を見つけることは科学的に受け入れられますか？第二に、実際のネガティブなケースと実際のポジティブなケースの分布が正規でないことを知っている場合、そのような関数を見つけることは科学的に受け入れられますか？

17 regression multiple-regression fitting roc curve-fitting

3

負のR 2乗とはどういう意味ですか？

いくつかのデータがあり、そのデータをモデルに適合させたとしましょう（非線形回帰）。次に、Rの2乗（R2R2R^2）を計算します。 R-2が負の場合、それはどういう意味ですか？それは私のモデルが悪いということですか？の範囲はR2R2R^2[-1,1]になります。ときR2R2R^2平均のことだけでなく何をするか、0でありますか？

17 regression goodness-of-fit r-squared curve-fitting

7

パーセンテージデータにはどのような曲線（またはモデル）を適合させる必要がありますか？

ウイルスコピーとゲノムカバレッジ（GCC）の関係を示す図を作成しようとしています。これは私のデータのようです：最初、私は線形回帰をプロットしましたが、スーパーバイザーはそれが間違っていると私に言って、シグモイド曲線を試してみました。そこで、geom_smoothを使用してこれを行いました。 library(scales) ggplot(scatter_plot_new, aes(x = Copies_per_uL, y = Genome_cov, colour = Virus)) + geom_point() + scale_x_continuous(trans = log10_trans(), breaks = trans_breaks("log10", function(x) 10^x), labels = trans_format("log10", math_format(10^.x))) + geom_smooth(method = "gam", formula = y ~ s(x), se = FALSE, size = 1) + theme_bw() + theme(legend.position = 'top', legend.text …

15 regression modeling curve-fitting percentage

1

曲線近似から共分散行列を解釈するにはどうすればよいですか？

私は統計があまり得意ではないので、これが単純な質問であればおifびします。一部のデータに曲線を当てはめていますが、データがの形の負の指数関数に最適な場合があり、a ∗ e （− b ∗ x 2）に近い場合があります+ C。ただし、これらの両方が失敗する場合があり、線形フィットにフォールバックしたいと思います。私の質問は、どのモデルが特定のデータセットに最も適合するかを、結果の分散共分散行列から最適に決定する方法です。a ∗ e（− b ∗ x ）+ ca∗e（−b∗バツ）+ca * e^{(-b * x)} + ca ∗ e（− b ∗ x2）+ ca∗e（−b∗バツ2）+ca * e^{(-b * x^2)} + cscipy.optimize.curve_fit（）関数？分散はこの行列の対角線の1つにあると思いますが、どのように解釈するのかわかりません。更新：同様の質問に基づいて、分散共分散行列が、3つのモデルのうちどれがデータに最も適合するかを教えてくれることを期待しています（これら3つのモデルの1つに多くのデータセットを適合させようとしています）。結果の行列は、指定された例では次のようになります。 pcov_lin [[ 2.02186921e-05 -2.02186920e-04] [ -2.02186920e-04 2.76322124e-03]] pcov_exp [[ 9.05390292e+00 -7.76201283e-02 -9.20475334e+00] [ -7.76201283e-02 …

15 variance model-selection python curve-fitting covariance-matrix

3

データ系列のセグメントをプログラムで検出して、異なる曲線に合わせるにはどうすればよいですか？

特定のデータセットのセクションを最適な曲線に分割するための文書化されたアルゴリズムはありますか？たとえば、このデータチャートを見るほとんどの人間は、それを3つの部分に容易に分割します：正弦波セグメント、線形セグメント、および逆指数セグメント。実際、私はこの特定のものを正弦波、直線、および単純な指数公式で作成しました。そのような部品を見つけるための既存のアルゴリズムはありますか？その後、さまざまな曲線/線に個別に適合させて、データのサブセットの最適な種類の複合シリーズを作成できますか？この例では、セグメントの両端がほぼ並んでいますが、必ずしもそうではないことに注意してください。セグメントのカットオフで値が突然揺れることもあります。おそらく、それらのケースは検出しやすいでしょう。更新：これは、実世界のデータの小さな画像です：更新2：これは異常に小さい実世界のデータセットです（509データポイントのみ）： 4,53,53,53,53,58,56,52,49,52,56,51,44,39,39,39,37,33,27,21,18,12,19,30,45,66,92,118,135,148,153,160,168,174,181,187,191,190,191,192,194,194,194,193,193,201,200,199,199,199,197,193,190,187,176,162,157,154,144,126,110,87,74,57,46,44,51,60,65,66,90,106,99,87,84,85,83,91,95,99,101,102,102,103,105,110,107,108,135,171,171,141,120,78,42,44,52,54,103,128,82,103,46,27,73,123,125,77,24,30,27,36,42,49,32,55,20,16,21,31,78,140,116,99,58,139,70,22,44,7,48,32,18,16,25,16,17,35,29,11,13,8,8,18,14,0,10,18,2,1,4,0,61,87,91,2,0,2,9,40,21,2,14,5,9,49,116,100,114,115,62,41,119,191,190,164,156,109,37,15,0,5,1,0,0,2,4,2,0,48,129,168,112,98,95,119,125,191,241,209,229,230,231,246,249,240,99,32,0,0,2,13,28,39,15,15,19,31,47,61,92,91,99,108,114,118,121,125,129,129,125,125,131,135,138,142,147,141,149,153,152,153,159,161,158,158,162,167,171,173,174,176,178,184,190,190,185,190,200,199,189,196,197,197,196,199,200,195,187,191,192,190,186,184,184,179,173,171,170,164,156,155,156,151,141,141,139,143,143,140,146,145,130,126,127,127,125,122,122,127,131,134,140,150,160,166,175,192,208,243,251,255,255,255,249,221,190,181,181,181,181,179,173,165,159,153,162,169,165,154,144,142,145,136,134,131,130,128,124,119,115,103,78,54,40,25,8,2,7,12,25,13,22,15,33,34,57,71,48,16,1,2,0,2,21,112,174,191,190,152,153,161,159,153,71,16,28,3,4,0,14,26,30,26,15,12,19,21,18,53,89,125,139,140,142,141,135,136,140,159,170,173,176,184,180,170,167,168,170,167,161,163,170,164,161,160,163,163,160,160,163,169,166,161,156,155,156,158,160,150,149,149,151,154,156,156,156,151,149,150,153,154,151,146,144,149,150,151,152,151,150,148,147,144,141,137,133,130,128,128,128,136,143,159,180,196,205,212,218,222,225,227,227,225,223,222,222,221,220,220,220,220,221,222,223,221,223,225,226,227,228,232,235,234,236,238,240,241,240,239,237,238,240,240,237,236,239,238,235 ここでは、いくつかの既知の実世界の要素のエッジの近似位置を点線で示してグラフ化していますが、これは通常はあり得ない贅沢です。しかし、私たちが持っている贅沢の1つは後知恵です。私の場合のデータは時系列ではなく、空間的に関連しています。データセット全体（通常は5000〜15000データポイント）を一度に分析するのが理にかなっており、継続的な方法ではありません。

14 fitting curve-fitting segmentation

5

ゼロを含む入力データにワイブル分布をフィットさせる方法は？

私は引退した研究者によって引き継がれた既存の予測アルゴリズムを再現しようとしています。最初のステップは、いくつかの観測データをワイブル分布に適合させ、将来の値を予測するために使用される形状とスケールを取得することです。これを行うためにRを使用しています。これが私のコードの例です： x<-c(23,19,37,38,40,36,172,48,113,90,54,104,90,54,157,51,77,78,144,34,29,45,16,15,37,218,170,44,121) f<-fitdistr(x, 'weibull') これは、入力配列にゼロが含まれていて完全に失敗しない限り、正常に機能します。SASでも同じことが起こります。私が理解しているように、これは、ワイブル分布を計算するステップの1つが、0に対して未定義の自然対数を取得しているためです。これを回避する合理的な方法はありますか？これまでに見つけた最良の方法は、すべての入力値に1を加算し、曲線に適合させ、予測値から1を減算することです（曲線を「シフト」してから1に戻す）。これは以前に予測されたデータにかなり適合しますが、間違った方法であるに違いないようです。編集：入力配列の値は、一定の年数の間、実際のデータ（何かの発生数）で観察されます。そのため、数年で発生回数はゼロになりました。最善の方法であるかどうかにかかわらず（そうではないことに同意します）、元のアルゴリズムの著者はワイブル分布を使用したと主張し、そのプロセスを再現する必要があります。

14 distributions curve-fitting

タグ付けされた質問 「curve-fitting」

タグ付けされた質問「curve-fitting」