タグ付けされた質問 「fitting」

統計モデルを特定のデータセットに適合させるプロセス。主にコンピューターで行われ、最適化や数値積分、シミュレーションなどのさまざまな数値手法を使用します。

3
値と1次/ 2次導関数を含むデータにスプラインを適合させるにはどうすればよいですか?
たとえば、位置、速度、加速度の測定値を含むデータセットがあります。すべて同じ「実行」から来ます。線形システムを構築し、それらの測定すべてに多項式を当てはめることができました。 しかし、スプラインでも同じことができますか?これを行う「R」方法とは何ですか? 当てはめたいシミュレーションデータをいくつか示します。 f <- function(x) 2+x-0.5*x^2+rnorm(length(x), mean=0, sd=0.1) df <- function(x) 1-x+rnorm(length(x), mean=0, sd=0.3) ddf <- function(x) -1+rnorm(length(x), mean=0, sd=0.6) x_f <- runif(5, 0, 5) x_df <- runif(8, 3, 8) x_ddf <- runif(10, 4, 9) data <- data.frame(type=rep('f'), x=x_f, y=f(x_f)) data <- rbind(data, data.frame(type=rep('df'), x=x_df, y=df(x_df))) data <- rbind(data, …

3
連続分布からサンプリングされたデータのモードの計算
連続分布からサンプリングされたデータの「モード」を適合させる最良の方法は何ですか? モードは技術的には未定義(右?)であるため、連続分布では「最も一般的な値をどのようにして見つけるのか」と本当に質問しています。 親分布がガウス分布であると仮定した場合、データをビンに分類すると、モードが最大カウントのビン位置であるとわかります。しかし、ビンのサイズはどのように決定しますか?堅牢な実装はありますか?(つまり、外れ値に対して堅牢)。私はpython/ scipy/ を使用しますnumpyが、おそらくRそれほど難なく翻訳できます。

2
曲線をフィッティングする場合、フィッティングしたパラメーターの95%信頼区間をどのように計算しますか?
1つのパラメーターを抽出するために、データに曲線を適合させています。ただし、そのパラメーターの確実性が何であるか、および%の信頼区間をどのように計算/表現するかはわかりません。959595 指数関数的に減衰するデータを含むデータセットについて、各データセットに曲線を当てはめます。次に、抽出したい情報は指数bbbです。私はtttの値と私が興味のないaの値を知っていますaaa(これは、母集団からの変数であり、Imがモデル化しようとしているプロセスではありません)。 これらのパラメーターを近似するために、非線形回帰を使用します。ただし、どの方法でも959595%信頼区間を計算する方法がわからないので、より幅広い回答も歓迎します。 f=a⋅e−btf=a⋅e−btf= a\cdot e^{-bt} bの値を取得したらbbb、その959595%信頼区間をどのように計算しますか?前もって感謝します!

3
フィットした曲線の信頼性は?
当てはめられた曲線の不確実性または信頼性を推定したいと思います。それが何であるかわからないので、私は探している正確な数学的量を意図的に挙げていません。 ここで、(エネルギー)は従属変数(応答)であり、(ボリューム)は独立変数です。ある物質のエネルギー-体積曲線を見つけたいのですが。そこで、量子化学のコンピュータープログラムを使用していくつかの計算を行い、いくつかのサンプルボリューム(プロットの緑の円)のエネルギーを取得しました。V E (V )EEEVVVE(V)E(V)E(V) 次に、これらのデータサンプルをBirch–Murnaghan関数で近似しました: これは4つのパラメータ:。また、これは正しいフィッティング関数であると想定しているため、すべてのエラーはサンプルのノイズに起因するだけです。以下では、フィットされた関数が関数として記述されます。E 0、V 0、B 0、B ' 0(E)VE(E| V)= E0+ 9 V0B016⎧⎩⎨[ (V0V)23− 1 ]3B』0+ [ (V0V)23− 1 ]2[ 6 − 4 (V0V)23] ⎫⎭⎬、E(E|V)=E0+9V0B016{[(V0V)23−1]3B0′+[(V0V)23−1]2[6−4(V0V)23]}, \mathbb{E}(E|V) = E_0 + \frac{9V_0B_0}{16} \left\{ \left[\left(\frac{V_0}{V}\right)^\frac{2}{3}-1\right]^3B_0^\prime + \left[\left(\frac{V_0}{V}\right)^\frac{2}{3}-1\right]^2 \left[6-4\left(\frac{V_0}{V}\right)^\frac{2}{3}\right]\right\}\;, E0、V0,B0,B′0E0,V0,B0,B0′E_0, V_0, B_0, B_0'(E^)(E^)(\hat{E})VVV ここでは、結果を確認できます(最小二乗アルゴリズムに適合)。y軸の変数はで、x軸の変数はです。青い線はフィットで、緑の円はサンプルポイントです。VEEEVVV この近似曲線の信頼性の測定(ボリュームに応じて)が必要になりました。これは、遷移圧力やエンタルピーなどの追加の量を計算する必要があるためです。E^(V)E^(V)\hat{E}(V) 私の直感は、近似曲線が中央で最も信頼できることを教えてくれます。したがって、このスケッチのように、サンプルデータの終わり近くで不確実性(たとえば、不確実性の範囲)が増加するはずです。 しかし、私が探しているこのような測定値は何ですか?どのように計算できますか? 正確には、実際には1つのエラーソースしかありません。計算されたサンプルは、計算上の制限によりノイズが多くなります。したがって、データサンプルの密なセットを計算すると、それらはでこぼこの曲線を形成します。 望ましい不確実性の推定値を見つけるための私の考えは、学校で学習するときにパラメーターに基づいて次の「誤差」を計算することです(不確実性の伝播): ΔE0、ΔV0、ΔB0ΔB'0ΔE(V)=(∂E(V)∂E0ΔE0)2+(∂E(V)∂V0ΔV0)2+(∂E(V)∂B0ΔB0)2+(∂E(V)∂B′0ΔB′0)2−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−√ΔE(V)=(∂E(V)∂E0ΔE0)2+(∂E(V)∂V0ΔV0)2+(∂E(V)∂B0ΔB0)2+(∂E(V)∂B0′ΔB0′)2 \Delta …

1
モデルの近似を変換された応答と変換されていない応答と比較する
3つの異なるグループ間の比率のデータを比較したい: ID Group Prop.Nitrogen 1 A 0.89 2 A 0.85 3 B 0.92 4 B 0.97 ウォートンとホイ(doi:10.1890 / 10-0340.1 1)に続いて、ロジット変換を使用してこれらのデータをより適切に処理できるかどうかを確認しました。 変換されたデータと変換されていないデータの線形モデルの診断プロットを見ると、それらは非常によく似ており、明らかな問題はなく、推定パラメーターにわずかな違いしかありません。ただし、モデルがデータの変換されたバージョンと変換されていないバージョンにどの程度適合しているかについては、もう少しお話ししたいと思います。AIC値を直接比較することはできません。修正はありますか?これを調べるために作成できますか?それとも別のアプローチを取るべきですか?

2
データの平均化とフィッティング、データのフィッティングと平均化の違い
ある場合は、線を複数の個別の「実験」にフィッティングした後、フィッティングを平均化するか、個別の実験からのデータを平均化してから、平均データをフィッティングします。詳しく説明します。 以下に示す曲線を生成するコンピュータシミュレーションを実行します。量を抽出し、プロットの線形領域に当てはめることにより(長い時間)、それを "A"と呼びます。値は単に線形領域の勾配です。もちろん、この線形回帰に関連するエラーがあります。 通常、これらのシミュレーションをさまざまな初期条件で100回ほど実行して、「A」の平均値を計算します。(下のプロットの)生データを平均して10のグループにまとめ、「A」に適合させ、それらの10の「A」を平均するほうがよいと言われています。 これにメリットがあるのか​​、それとも100個の "A"値をフィッティングして平均するよりも良いのか、私には直観がありません。
10 error  fitting  average 

1
空間データへの分布のあてはめ
mathoverflowからの質問をクロスポストして、統計固有のヘルプを見つけます。 私は、負でない値を持つ2次元にうまく投影するデータを生成する物理プロセスを研究しています。各プロセスには、 - yポイントの(投影された)トラックがあります-下の画像を参照してください。xxxyyy サンプルトラックは青で、面倒な種類のトラックは緑で手書きされ、関心領域は赤で描かれています。 各トラックは、独立した実験の結果です。数年間で2千万回の実験が行われましたが、そのうち2千回だけがトラックとしてプロットした特徴を示しています。ここでは、トラックを生成する実験のみを考慮しているため、データセットは(約)2000トラックです。 11110410410^4 任意のトラックが問題の領域に入る可能性をどのように計算できますか? 関心領域に入るトラックが生成される頻度を確認するのに十分な速さで実験を行うことはできないため、利用可能なデータから推定する必要があります。 xxxy≥200y≥200y\ge200 各トラックから問題の領域までの最小距離を調整しましたが、これが正当な結果を生んでいるとは思いません。 1)このタイプのデータに分布を当てはめるための既知の方法はありますか? -または- 2)このデータを使用してトラックを生成するためのモデルを作成する明白な方法はありますか?たとえば、トラックの主成分分析を大きな空間のポイントとして使用し、それらのコンポーネントに投影されたトラックに分布(ピアソン?)を当てはめます。

1
観測48で革新的な異常値をARIMAモデルに組み込むにはどうすればよいですか?
私はデータセットに取り組んでいます。いくつかのモデル識別手法を使用した後、私はARIMA(0,2,1)モデルを思いつきました。 R detectIOのパッケージの関数を使用して、元のデータセットの48回目の観測で革新的な外れ値(IO)TSAを検出しました。 この外れ値をモデルに組み込んで、予測に使用するにはどうすればよいですか?Rではそれから予測を行うことができない可能性があるため、ARIMAXモデルを使用したくありません。これを行う方法は他にありますか? これが私の値です。 VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 9.6 9.8 10.0 9.9 9.9 9.8 9.8 9.9 9.9 9.6 9.4 …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 

2
CFAが複数項目スケールに適合しない場合の対処方法
溶岩でこのCFAイムをどのように進めるかわかりません。私は172人の参加者のサンプル(CFAにとってはそれほど多くないことを知っています)と7つの要因に基づく7ポイントのリッカートスケールを持つ28のアイテムを持っています。「mlm」推定器を使用してCFAを実行しましたが、モデルの近似は本当に悪かった(χ2(df = 329)= 739.36;比較近似指数(CFI)= .69;標準化された二乗平均平方根残差(SRMR)=。10;二乗平均平方根誤差(RMSEA)=。09; RMSEA 90%信頼区間(CI)= [.08、.10])。 私は以下を試しました: 1つの一般的な方法因子を持つ二因子モデル—>は収束しませんでした。 順序データの推定量(„ WLSMV“)—>モデルフィット:(χ2(df = 329)= 462;比較フィットインデックス(CFI)= .81;標準化二乗平均平方根残差(SRMR)=。09;二乗平均平方根エラー近似値(RMSEA)=。05; RMSEA 90%信頼区間(CI)= [.04、.06]) 因子が少なく、特定のアイテム間の共分散を追加するアイテムによってモデルを削減->モデルフィット:χ2(df = 210)= 295; 比較適合指数(CFI)= .86; 標準化された二乗平均平方根残差(SRMR)=。08; 二乗平均平方根誤差(RMSEA)=。07; RMSEA 90%信頼区間(CI)= [.06、.08]。 今私の質問: このようなモデルをどうすればよいですか? 統計的に正しいことは何でしょうか? 適合するか、適合しないと報告しますか?そして、それらのモデルのどれですか? この件についてお話しさせていただければ幸いです。 以下は、元のモデルのCFAの溶岩出力です。 lavaan (0.5-17.703) converged normally after 55 iterations Used Total Number of observations 149 172 …

1
分位点のみを指定して分布パラメーターを推定する方法はありますか?
いくつかの分位数しか与えられていない場合に、指定された分布に適合する方法はありますか? たとえば、ガンマ分散データセットがあると言った場合、経験値の 20%、30%、50%、90%の分位数はそれぞれ次のようになります。 20% 30% 50% 90% 0.3936833 0.4890963 0.6751703 1.3404074 どのようにしてパラメータを推定しますか?それを行う方法は複数ありますか、それともすでに特定の手順がありますか? さらに編集:ガンマ分布を具体的に尋ねるのではなく、質問を適切に説明できないので、これは単なる例です。私の仕事は、いくつかの(2-4)の分位数があり、いくつかの分布の(1-3)パラメータをできるだけ「近似」して推定することです。時々(または無限の)正確な解決策がある場合もあれば、そうでない場合もありますよね?

3
SVDを実行して欠損値を代入する方法、具体例
SVDを適用する前に欠損値を処理する方法に関する素晴らしいコメントを読みましたが、簡単な例でどのように機能するか知りたいです。 Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 上記のマトリックスを考えると、NAの値を削除すると、User2とUser5しかなくなります。これは、私のUが2×kになることを意味します。しかし、欠損値を予測する場合、Uは5×kである必要があります。これは、特異値とVで乗算できます。 上記のマトリックスで、最初に欠損値のあるユーザーを削除してからSVDを適用して、欠損値を記入する人はいますか?数学記号を使いすぎずに、適用した手順の非常に簡単な説明を提供し、答えを実用的なものにしてください(つまり、数値に別の数値を掛けると答えが得られます)。 次のリンクを読みました。 stats.stackexchange.com/q/33142 stats.stackexchange.com/q/31096 stats.stackexchange.com/q/33103
8 r  missing-data  data-imputation  svd  sampling  matlab  mcmc  importance-sampling  predictive-models  prediction  algorithms  graphical-model  graph-theory  r  regression  regression-coefficients  r-squared  r  regression  modeling  confounding  residuals  fitting  glmm  zero-inflation  overdispersion  optimization  curve-fitting  regression  time-series  order-statistics  bayesian  prior  uninformative-prior  probability  discrete-data  kolmogorov-smirnov  r  data-visualization  histogram  dimensionality-reduction  classification  clustering  accuracy  semi-supervised  labeling  state-space-models  t-test  biostatistics  paired-comparisons  paired-data  bioinformatics  regression  logistic  multiple-regression  mixed-model  random-effects-model  neural-networks  error-propagation  numerical-integration  time-series  missing-data  data-imputation  probability  self-study  combinatorics  survival  cox-model  statistical-significance  wilcoxon-mann-whitney  hypothesis-testing  distributions  normal-distribution  variance  t-distribution  probability  simulation  random-walk  diffusion  hypothesis-testing  z-test  hypothesis-testing  data-transformation  lognormal  r  regression  agreement-statistics  classification  svm  mixed-model  non-independent  observational-study  goodness-of-fit  residuals  confirmatory-factor  neural-networks  deep-learning 

2
ポアソン分布をテーブルデータにどのように近似しますか?
Iは、テーブルが与えられてきた及びの数ようなものである、指示をすべてのの量。Y = (3062 、587 、284 、103 、33 、4 、2 )X I 、Y IX = (0 、1 、2 、3 、4 、5 、6 )x=(0,1,2,3,4,5,6)x=(0,1,2,3,4,5,6)y= (3062 、587 、284 、103 、33 、4 、2 )y=(3062,587,284,103,33,4,2)y=(3062,587,284,103,33,4,2)バツ私xix_iy私yiy_i これにポアソン分布を当てはめるように求められます。 これにポアソン分布をフィットさせるとはどういう意味ですか? ここ、p.8:http : //www.stats.ox.ac.uk/~marchini/teaching/L5/L5.notes.pdf ポアソンのフィッティングには、各についてを計算する必要があると言われています。しかし、ここでやるの行きますか?の計算についてフィッティングはありますか?x y P (X = x )P(X= x )P(X=x)P(X=x)バツxxyyyP(X= x )P(X=x)P(X=x)

2
デルタ法を使用した双曲線分布推定の標準誤差?
近似された双曲線分布の標準誤差を計算したい。 私の表記では、密度はH (l ; α 、β 、μ 、δ )で与えられ ます。 私は、次のコマンドを介してパラメータを推定R. IでHyperbolicDistrパッケージを使用しています。H(l;α,β,μ,δ)=α2−β2−−−−−−√2αδK1(δα2−β2−−−−−−√)exp(−αδ2+(l−μ)2−−−−−−−−−−√+β(l−μ))H(l;α,β,μ,δ)=α2−β22αδK1(δα2−β2)exp(−αδ2+(l−μ)2+β(l−μ))\begin{align*} H(l;\alpha,\beta,\mu,\delta)&=\frac{\sqrt{\alpha^2-\beta^2}}{2\alpha \delta K_1 (\delta\sqrt{\alpha^2-\beta^2})} exp\left(-\alpha\sqrt{\delta^2+(l-\mu)^2}+\beta(l-\mu)\right) \end{align*} hyperbFit(mydata,hessian=TRUE) これは私に間違ったパラメータ化を与えます。hyperbChangePars(from=1,to=2,c(mu,delta,pi,zeta))コマンドを使用して、目的のパラメーター化に変更します。次に、見積もりの​​標準誤差を取得したいのですが、summaryコマンドを使用して誤ったパラメーター化を行うと、誤差が発生します。しかし、これにより、他のパラメーター化の標準エラーが発生します。このスレッドによると、私はデルタ方式を使用する必要があります(私はしませんを使用する必要があります(ブートストラップや交差検証などを使用したく)。 hyperbFitコードがあるここに。そしてhyperbChangeParsはこちらです。したがって、私は知っています、そのとδμμ\muδδ\deltaは同じままです。したがって、標準誤差も同じですよね? とζをαとβに変換するには、両者の関係が必要です。コードによると、これは次のように行われます。ππ\piζζ\zetaαα\alphaββ\beta alpha <- zeta * sqrt(1 + hyperbPi^2) / delta beta <- zeta * hyperbPi / delta では、目的の標準エラーを取得するために、デルタ方式をどのようにコーディングする必要がありますか? 編集:私はこれらのデータを使用しています。まず、このスレッドに従ってデルタ方式を実行します。 # fit the distribution hyperbfitdb<-hyperbFit(mydata,hessian=TRUE) hyperbChangePars(from=1,to=2,hyperbfitdb$Theta) summary(hyperbfitdb) summary(hyperbfitdb) 次の出力が得られます。 Data: …


2
べき法則の回帰
これはMath SEからのクロスポストです。 データ(アルゴリズムの実行時間)があり、べき乗則に従っていると思う yreg=kxayreg=kxay_\mathrm{reg} = k x^a とaを決定したい。これまでに行ったことは、log (x )、log (y )を通じて線形回帰(最小二乗)を実行し、その係数からkとaを決定することです。kkkaaalog(x),log(y)log⁡(x),log⁡(y)\log(x), \log(y)kkkaaa 私の問題は、「絶対ログ」エラーが「ログログデータ」で最小化されているため、元のデータを見ると最小化されるのが商であるということです。 yyregyyreg\frac{y}{y_\mathrm{reg}} これにより、yの値が大きい場合、絶対誤差が大きくなります。実際の「絶対」エラーを最小限に抑える「べき乗則回帰」を行う方法はありますか?または、少なくともそれを最小化することでより良い仕事をしますか?yyy 例: 赤い曲線はデータセット全体に適合しています。緑の曲線は、最後の21点のみに適合します。 これがプロットのデータです。左側の列は(x軸)の値、右側の列はt(y軸)の値ですnnnxxxtttyyy 1.000000000000000000e+02,1.944999820000248248e-03 1.120000000000000000e+02,1.278203080000253058e-03 1.250000000000000000e+02,2.479853309999952970e-03 1.410000000000000000e+02,2.767649050000500332e-03 1.580000000000000000e+02,3.161272610000196315e-03 1.770000000000000000e+02,3.536506440000266715e-03 1.990000000000000000e+02,3.165302929999711402e-03 2.230000000000000000e+02,3.115432719999944224e-03 2.510000000000000000e+02,4.102446610000356694e-03 2.810000000000000000e+02,6.248937529999807478e-03 3.160000000000000000e+02,4.109296799998674206e-03 3.540000000000000000e+02,8.410178100001530418e-03 3.980000000000000000e+02,9.524117600000181830e-03 4.460000000000000000e+02,8.694799099998817837e-03 5.010000000000000000e+02,1.267794469999898935e-02 5.620000000000000000e+02,1.376997950000031709e-02 6.300000000000000000e+02,1.553864030000227069e-02 7.070000000000000000e+02,1.608576049999897034e-02 7.940000000000000000e+02,2.055535920000011244e-02 8.910000000000000000e+02,2.381920090000448978e-02 1.000000000000000000e+03,2.922614199999884477e-02 1.122000000000000000e+03,1.785056299999610019e-02 1.258000000000000000e+03,3.823622889999569313e-02 1.412000000000000000e+03,3.297452850000013452e-02 1.584000000000000000e+03,4.841355780000071440e-02 1.778000000000000000e+03,4.927822640000271981e-02 1.995000000000000000e+03,6.248602919999939054e-02 2.238000000000000000e+03,7.927740400003813193e-02 2.511000000000000000e+03,9.425949999996419137e-02 2.818000000000000000e+03,1.212073290000148518e-01 3.162000000000000000e+03,1.363937510000141629e-01 …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.