タグ付けされた質問 「curve-fitting」

(線形または非線形回帰の場合のように)曲線をデータに近似するために使用される方法。

4
不連続性を許容するLOESS
LOESSのように、不連続のタイミングがアプリオリにわからないゼロ、1つ、またはそれ以上の不連続を可能にするモデリング手法はありますか? テクニックが存在する場合、Rに既存の実装はありますか?

3
高次多項式に大きな係数があるのはなぜですか
Bishopの機械学習に関する本では、多項式関数を一連のデータポイントに曲線近似する問題について説明しています。 Mを近似した多項式の次数とします。そのように述べています Mが増加すると、係数の大きさは通常大きくなることがわかります。特に、M = 9多項式の場合、対応する多項式関数が各データポイントに正確に一致するように、ただしデータポイント間で(特に両端の近くで)大きな正および負の値を作成することにより、係数がデータに対して微調整されました範囲)関数は大きな振動を示します。 大きな値がデータポイントにより密接に適合することを意味する理由がわかりません。より適切にフィッティングするために、代わりに小数点以下の値がより正確になると思います。

1
加法エラーまたは乗法エラー?
私は統計に比較的不慣れであり、これをよりよく理解するのに役立つことを感謝します。 私の分野では、一般的に使用される形式のモデルがあります。 Pt= Po(Vt)αPt=Po(Vt)αP_t = P_o(V_t)^\alpha 人々がモデルをデータに適合させるとき、彼らは通常それを線形化し、以下に適合します ログ(Pt)= ログ(Po)+ αのログ(Vt)+ ϵログ⁡(Pt)=ログ⁡(Po)+αログ⁡(Vt)+ϵ\log(P_t) = \log(P_o) + \alpha \log(V_t) + \epsilon これでいい?信号のノイズのために実際のモデルは Pt= Po(Vt)α+ ϵPt=Po(Vt)α+ϵP_t = P_o(V_t)^\alpha + \epsilon 上記のように線形化することはできません。これは本当ですか?もしそうなら、誰かが私がそれを読んで学ぶことができ、おそらくレポートで引用することができるリファレンスを知っていますか?

1
RMSEから尤度を計算する
いくつかのパラメーターを使用して、軌道(時間の関数としてのx)を予測するモデルがあります。現時点では、予測された軌道と実験的に記録された軌道の間の二乗平均平方根誤差(RMSE)を計算します。現在、シンプレックス(matlabのfminsearch)を使用して、この差(RMSE)を最小化します。この方法はうまく適合しますが、いくつかの異なるモデルを比較したいので、RMSEを最小化するのではなく最尤推定を使用できるように尤度を計算する必要があると思います(そして、AICまたはBICを使用してモデルを比較します) )。これを行う標準的な方法はありますか?

3
高度に非線形な関数をフィッティングするための戦略
生物物理学実験からのデータを分析するために、現在、高度に非線形なモデルを使用して曲線近似を試みています。モデル関数は基本的に次のようになります。 y=ax+bx−1/2y=ax+bx−1/2y = ax + bx^{-1/2} ここで、特にの値は非常に興味深いものです。bbb この関数のプロット: (モデル関数はシステムの完全な数学的記述に基づいており、非常にうまく機能するように思われることに注意してください-自動適合はトリッキーなだけです)。 もちろん、モデル関数には問題があります。これまで試したフィッティング戦略は、特にノイズの多いデータの場合、での鋭い漸近線のため失敗します。x=0x=0x=0 ここでの問題の私の理解は、xの小さな誤差が非常に増幅されるため、単純な最小二乗近似(MATLABで線形回帰と非線形回帰の両方を試しました;主にLevenberg-Marquardt)は垂直漸近線に非常に敏感です。。 誰かがこれを回避できる適切な戦略を教えてもらえますか? 統計に関する基本的な知識はある程度持っていますが、それでもかなり限られています。どこから探し始めればいいのか分からないなら、私は学びたいと思っています:) アドバイスありがとうございます! 編集は、エラーを言及するのを忘れるためにあなたの許しを物乞い。唯一の重要なノイズはにあり、それは加法的です。xxx 編集2この質問の背景に関する追加情報。上記のグラフは、ポリマーの伸縮挙動をモデル化しています。@whuberがコメントで指摘したように、上記のようなグラフを取得するにが必要です。b≈−200ab≈−200ab \approx -200 a 人々がこの曲線をこの点までどのように当てはめているかについて:人々は一般に、彼らが良い適合を見つけるまで垂直漸近線を切り取っているようです。ただし、カットオフの選択は依然として任意であり、フィッティング手順の信頼性と再現性が失われます。 3&4固定グラフを編集します。

1
最小二乗対一般化線形モデル対非線形最小二乗を使用して指数関数をフィッティング
指数関数的減衰を表すデータセットがあります。このデータに指数関数を当てはめたいと思います。応答変数をログ変換してから、最小二乗法を使用して線をフィットさせました。対数リンク関数と応答変数の周りのガンマ分布を持つ一般化線形モデルを使用します。非線形最小二乗法を使用します。2つの係数はそれぞれ類似していますが、それぞれの方法で異なる答えが得られます。私が混乱しているところは、どの方法が最適で、なぜ使用するのかわかりません。誰かがこれらの方法を比較して対比できますか?ありがとうございました。y=Beaxy=Beaxy = Be^{ax}

1
シグモイド曲線の直線部分の勾配の推定
私はこの仕事を与えられて困惑しました。同僚から、次のグラフのとx l o w e rを推定するように依頼されました。xupperxupperx_{upper}xlowerxlowerx_{lower} 曲線は実際には累積分布であり、xはある種の測定値です。彼は、累積関数が直線になり始め、直線から逸脱したときのxの対応する値を知りたいと思っています。 微分を使用してポイントの勾配を見つけることができることは理解していますが、直線をいつ呼び出すことができるかを判断する方法がわかりません。いくつかの既存のアプローチ/文学への少しのナッジは非常に高く評価されます。 この種の調査で関連するパッケージや例を知っていたら、Rも知っています。 どうもありがとう。 更新 Floundererのおかげで、作業をさらに拡張し、フレームワークを設定し、あちこちでパラメーターをいじくり回すことができました。学習目的のために、ここに私の現在のコードとグラフィック出力があります。 library(ESPRESSO) x <- skew.rnorm(800, 150, 5, 3) x <- sort(x) meanX <- mean(x) sdX <- sd(x) stdX <- (x-meanX)/sdX y <- pnorm(stdX) par(mfrow=c(2,2), mai=c(1,1,0.3,0.3)) hist(x, col="#03718750", border="white", main="") nq <- diff(y)/diff(x) plot.ts(nq, col="#6dc03480") log.nq <- log(nq) low <- …

1
空間データへの分布のあてはめ
mathoverflowからの質問をクロスポストして、統計固有のヘルプを見つけます。 私は、負でない値を持つ2次元にうまく投影するデータを生成する物理プロセスを研究しています。各プロセスには、 - yポイントの(投影された)トラックがあります-下の画像を参照してください。xxxyyy サンプルトラックは青で、面倒な種類のトラックは緑で手書きされ、関心領域は赤で描かれています。 各トラックは、独立した実験の結果です。数年間で2千万回の実験が行われましたが、そのうち2千回だけがトラックとしてプロットした特徴を示しています。ここでは、トラックを生成する実験のみを考慮しているため、データセットは(約)2000トラックです。 11110410410^4 任意のトラックが問題の領域に入る可能性をどのように計算できますか? 関心領域に入るトラックが生成される頻度を確認するのに十分な速さで実験を行うことはできないため、利用可能なデータから推定する必要があります。 xxxy≥200y≥200y\ge200 各トラックから問題の領域までの最小距離を調整しましたが、これが正当な結果を生んでいるとは思いません。 1)このタイプのデータに分布を当てはめるための既知の方法はありますか? -または- 2)このデータを使用してトラックを生成するためのモデルを作成する明白な方法はありますか?たとえば、トラックの主成分分析を大きな空間のポイントとして使用し、それらのコンポーネントに投影されたトラックに分布(ピアソン?)を当てはめます。

2
機能データ分析と高次元データ分析の違いは何ですか
統計文献には、「機能データ」(つまり、曲線であるデータ)、および「高次元データ」(つまり、データが高次元ベクトルの場合)への言及がたくさんあります。私の質問は、2つのタイプのデータの違いについてです。 ケース1に適用される適用された統計的方法論について話す場合、ケース2から方法論を関数の空間の有限次元部分空間への射影を通じて言い換えると、多項式、スプライン、ウェーブレット、フーリエなどが考えられます... 。そして、機能問題を有限次元ベクトル問題に変換します(適用された数学では、すべての点ですべてが有限になるため)。 私の質問は 、機能データに適用される統計手順は高次元データにも(ほぼ直接)適用でき、高次元データ専用の手順は機能データに(ほとんど直接)適用できると言えるでしょうか。 答えが「いいえ」の場合、説明できますか? サイモンバーンの回答を利用した編集/更新: スパース性(S-sparse仮定、 ballおよび弱い ball )は、高次元統計分析の構造的仮定として使用されます。lplpl^plplpl^pp &lt; 1p&lt;1p<1 「滑らかさ」は、機能データ分析の構造的仮定として使用されます。 一方、逆フーリエ変換と逆ウェーブレット変換は、スパース性を滑らかさに変換し、滑らかさはウェーブレットとフーリエ変換によってスパース性に変換されます。これは、サイモンが言及した重要な違いをそれほど重要ではないものにしますか?

4
ドメインと範囲[0,1]を持つS字型曲線の式はありますか
基本的に、類似性の測度を予測子として使用される重みに変換したいと思います。類似点は[0,1]にあり、重みも[0,1]に制限します。勾配降下法を使用して最適化する可能性が高いこのマッピングを行うパラメーター関数が必要です。要件は、0が0にマップされ、1が1にマップされ、厳密に増加することです。単純な微分も認められます。前もって感謝します 編集:これまでの回答をありがとう、それらは非常に役に立ちます。私の目的をより明確にするために、タスクは予測です。私の観察は、予測する単一の次元を持つ非常にスパースなベクトルです。私の入力ディメンションは、類似性の計算に使用されます。私の予測は、予測子に対する他の観測値の重み付き合計であり、重みは類似性の関数です。簡単にするために、重みを[0,1]に制限しています。うまくいけば、なぜ0にマップするために0、1にマップするために1が必要で、厳密に増加する必要があるのか​​は明らかです。whuberがf(x)を使用すると指摘したように、= xはこれらの要件を満たし、実際にはかなりうまく機能します。ただし、最適化するパラメーターはありません。私は多くの観察結果を持っているので、多くのパラメーターを許容できます。私は勾配降下法を手でコーディングするので、単純な導関数を好みます。 たとえば、与えられた応答の多くは.5について対称です。左/右にシフトするパラメーターがあると便利です(ベータ分布の場合など)。


3
SVDを実行して欠損値を代入する方法、具体例
SVDを適用する前に欠損値を処理する方法に関する素晴らしいコメントを読みましたが、簡単な例でどのように機能するか知りたいです。 Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 上記のマトリックスを考えると、NAの値を削除すると、User2とUser5しかなくなります。これは、私のUが2×kになることを意味します。しかし、欠損値を予測する場合、Uは5×kである必要があります。これは、特異値とVで乗算できます。 上記のマトリックスで、最初に欠損値のあるユーザーを削除してからSVDを適用して、欠損値を記入する人はいますか?数学記号を使いすぎずに、適用した手順の非常に簡単な説明を提供し、答えを実用的なものにしてください(つまり、数値に別の数値を掛けると答えが得られます)。 次のリンクを読みました。 stats.stackexchange.com/q/33142 stats.stackexchange.com/q/31096 stats.stackexchange.com/q/33103
8 r  missing-data  data-imputation  svd  sampling  matlab  mcmc  importance-sampling  predictive-models  prediction  algorithms  graphical-model  graph-theory  r  regression  regression-coefficients  r-squared  r  regression  modeling  confounding  residuals  fitting  glmm  zero-inflation  overdispersion  optimization  curve-fitting  regression  time-series  order-statistics  bayesian  prior  uninformative-prior  probability  discrete-data  kolmogorov-smirnov  r  data-visualization  histogram  dimensionality-reduction  classification  clustering  accuracy  semi-supervised  labeling  state-space-models  t-test  biostatistics  paired-comparisons  paired-data  bioinformatics  regression  logistic  multiple-regression  mixed-model  random-effects-model  neural-networks  error-propagation  numerical-integration  time-series  missing-data  data-imputation  probability  self-study  combinatorics  survival  cox-model  statistical-significance  wilcoxon-mann-whitney  hypothesis-testing  distributions  normal-distribution  variance  t-distribution  probability  simulation  random-walk  diffusion  hypothesis-testing  z-test  hypothesis-testing  data-transformation  lognormal  r  regression  agreement-statistics  classification  svm  mixed-model  non-independent  observational-study  goodness-of-fit  residuals  confirmatory-factor  neural-networks  deep-learning 

2
Rの2因子反復測定ANOVA後の事後検定?
Rで2因子(両方とも被験者内)のANOVAを繰り返し測定した後、事後テスト(Tukey HSD)を実行する方法に関する解決策を見つけるのに問題があります。ANOVAには、aov -functionを使用しました。 summary(aov(dv ~ x1 * x2 + Error(subject/(x1*x2)), data=df1)) 他の質問への回答を読んだ後、他の機能(lmeなど)を使用してANOVAを再実行する必要があることを知りました。これが私が思いついたものです。 Lme.mod &lt;- lme(dv ~ x1*x2, random=list(subject=pdBlocked(list(~1, pdIdent(~x1-1), pdIdent(~x2-1)))), data=df1) anova(Lme.mod) 主な効果はどちらも有意でしたが、相互作用の効果はありませんでした。次に、これらの関数を事後比較に使用しました。 summary(glht(Lme.mod, linfct=mcp(x1="Tukey"))) summary(glht(Lme.mod, linfct=mcp(x2="Tukey"))) しかし、いくつかの問題がありました: まず、Rヘルプファイルには、「双方向ANOVAまたはANCOVAモデル(...)multcompバージョン1.0-0以降で対象のパラメーターを定義する場合、mcp関数は注意して使用する必要があります。主な効果の比較が生成されます。のみ、共変量と交互作用を無視します(古いバージョンは交互作用項で自動的に平均化されました)警告が表示されます。そして確かに、私は次の警告メッセージを受け取りました: Warning message: In mcp2matrix(model, linfct = linfct) : covariate interactions found -- default contrast might be inappropriate もう1つの不可解な点は、両方の主要な効果は有意でしたが、要因の1つ(x1)の事後比較に有意差はなかったということです。これに出会ったことはありません。スクリプト/分析は正しい/適切ですか、それとも欠けているものはありますか?どんな助けでも大歓迎です!

1
RまたはRPyの逆ガンマ分布の最尤推定
3つのパラメーターの逆ガンマ分布をRまたはPythonのデータに適合させようとしています。最尤推定(MLE)を使用してこれを実行したいと思います。 3つのパラメーターの逆ガンマのpdfは、次の式で与えられます。 ここで、Γはガンマ関数、ρは形状、αはスケール、sは位置パラメーターです。 私はこのディストリビューションに対して直接MLEを実行できるRパッケージを発見していません(知っている場合はお知らせください!)。だから私はこれがどちらかを残すと思います: (A)式の対数尤度関数を計算する (B)データをガンマ分布に変換する。ただし、この分布には2つのパラメーターしかないため、3番目のパラメーターの計算方法がわかりません(私はあまり数学者ではありません!)。 MLEを使用して逆ガンマ分布を私のデータに合わせる方法についての助けがあれば大歓迎です!よろしくお願いします。

2
なぜ治療コーディングはランダムな傾きと切片の間の相関をもたらすのですか?
実験的処理変数に2つのレベル(条件)がある被験者内および項目内の要因計画を考えます。をm1最大モデルとm2非ランダム相関モデルにします。 m1: y ~ condition + (condition|subject) + (condition|item) m2: y ~ condition + (1|subject) + (0 + condition|subject) + (1|item) + (0 + condition|item) Dale Barr はこの状況について次のように述べています。 編集(2018年4月20日):Jake Westfallが指摘したように、次のステートメントはこの Webサイトの図1および2に示されているデータセットのみを参照しているようです。ただし、基調講演は変わりません。 偏差コーディング表現(条件:-0.5 vs. 0.5)m2では、被験者のランダムな切片が被験者のランダムな傾きと無相関である分布が可能です。最大モデルのみm1が、2つが相関している分布を許可します。 治療コーディング表現(条件:0対1)では、被験者のランダム切片が被験者のランダムな傾きと無相関であるこれらの分布は、無作為相関モデルを使用してフィッティングできません。治療コード表現における勾配と切片。 なぜ治療コーディングは 常に ランダムな傾きと切片の間に相関関係が生じますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.