上記の質問はそれをすべて言っています。基本的に私の質問は、推定しようとしているパラメータが非線形になる一般的なフィット関数(任意に複雑になる可能性があります)に関するものです。フィットを初期化するために初期値をどのように選択しますか?非線形最小二乗を実行しようとしています。戦略や方法はありますか?これは研究されましたか?参照はありますか?アドホックな推測以外に何かありますか?具体的には、現在作業しているフィッティング形式の1つは、推定しようとしている5つのパラメーターを持つガウスプラス線形形式です。
ここで、(横座標データ)および(縦座標データ)は、log-log空間では、データが直線とガウスで近似するバンプのように見えることを意味します。線の傾斜やバンプの中心/幅などのグラフ化と眼球運動を除いて、非線形フィットを初期化する方法については何の理論もありません。しかし、グラフ化や推測の代わりに、これを行うためのこれらの当てはめが100以上ありますが、自動化できるアプローチを好むでしょう。
ライブラリまたはオンラインで参照が見つかりません。私が考えることができる唯一のものは、初期値をランダムに選択することです。MATLABは、均一に分布した[0,1]からランダムに値を選択することを提案しています。したがって、各データセットで、ランダムに初期化されたフィットを1000回実行してから、r 2が最も高いものを選択しますますか?他の(より良い)アイデアはありますか?
補遺#1
まず、データセットの視覚的な表現をいくつか示します。これは、私が話しているデータの種類を示すためのものです。変換を行わずに元の形式でデータを投稿し、データの機能の一部を明確にし、他の機能をゆがめながら、ログとログの空間に視覚的に表示します。良いデータと悪いデータの両方のサンプルを投稿しています。
各図の6つのパネルにはそれぞれ、赤、緑、青、シアンの4つのデータセットがプロットされており、各データセットには正確に20個のデータポイントがあります。私は、データに見られるバンプのために、それらのそれぞれに直線とガウスを合わせようとしています。
最初の図は、良いデータの一部です。2番目の図は、図1と同じ良好なデータの対数プロットです。3番目の図は、不良データの一部です。4番目の図は、図3の対数プロットです。はるかに多くのデータがあり、これらは2つのサブセットにすぎません。ほとんどのデータ(約3/4)は良好であり、ここで示した良好なデータと同様です。
いくつかコメントがあります。これは長くなる可能性がありますが、この詳細はすべて必要だと思います。できるだけ簡潔にしようと思います。
私はもともと単純なべき法則(対数空間の直線を意味する)を期待していました。log-logスペースにすべてをプロットすると、約4.8 mHzで予期しないバンプが見られました。バンプは徹底的に調査され、他の作品でも発見されたので、混乱したわけではありません。それは物理的にそこにあり、他の出版された作品もこれに言及しています。そこで、線形形式にガウス項を追加しました。この適合は、ログとログのスペースで行われることに注意してください(この質問を含む私の2つの質問)。
今、Stumpy Joe Peteによる私の別の質問(これらのデータとはまったく関係ない)への答えを読んで、これとこれとその中の参照(Clausetのもの)を読んだ後、私はlog-logに収まるべきではないことに気付きましたスペース。だから今、私は事前に変換された空間ですべてをやりたい。
質問1:良いデータを見ると、変換前の空間で線形プラスガウス分布がまだ良い形だと思います。私は、彼らが考えていることをより多くのデータ経験がある他の人から聞いてみたいです。ガウス+線形は妥当ですか?ガウス分布のみを行うべきですか?または完全に異なる形式ですか?
質問2:質問1の答えが何であれ、私はまだ(おそらく)非線形最小二乗近似が必要なので、初期化の支援が必要です。
2つのセットが表示されるデータでは、最初のバンプを約4〜5 mHzでキャプチャすることを非常に強く好みます。したがって、ガウス項を追加したくはありません。ガウス項は最初のバンプを中心にする必要があります。これはほとんどの場合、より大きなバンプです。0.8mHz〜5mHzの間で「より高い精度」が必要です。高い周波数についてはあまり気にしませんが、それらを完全に無視したくはありません。それで、おそらくある種の計量ですか?または、Bは常に4.8mHz前後で初期化できますか?
質問3:この場合、この方法を外挿するとどう思いますか?賛否両論ありますか?外挿のための他のアイデアはありますか?繰り返しますが、低周波数のみに注意を払うので、0〜1mHzの間で外挿することがあります。非常に小さい周波数で、ゼロに近い場合もあります。この投稿は既に満員です。答えが関連している可能性があるため、ここでこの質問をしましたが、皆さんが希望する場合は、この質問を分けて後で質問することができます。
最後に、リクエストに応じて2つのサンプルデータセットを示します。
0.813010000000000 0.091178000000000 0.012728000000000
1.626000000000000 0.103120000000000 0.019204000000000
2.439000000000000 0.114060000000000 0.063494000000000
3.252000000000000 0.123130000000000 0.071107000000000
4.065000000000000 0.128540000000000 0.073293000000000
4.878000000000000 0.137040000000000 0.074329000000000
5.691100000000000 0.124660000000000 0.071992000000000
6.504099999999999 0.104480000000000 0.071463000000000
7.317100000000000 0.088040000000000 0.070336000000000
8.130099999999999 0.080532000000000 0.036453000000000
8.943100000000001 0.070902000000000 0.024649000000000
9.756100000000000 0.061444000000000 0.024397000000000
10.569000000000001 0.056583000000000 0.025222000000000
11.382000000000000 0.052836000000000 0.024576000000000
12.194999999999999 0.048727000000000 0.026598000000000
13.008000000000001 0.045870000000000 0.029321000000000
13.821000000000000 0.041454000000000 0.067300000000000
14.633999999999999 0.039596000000000 0.081800000000000
15.447000000000001 0.038365000000000 0.076443000000000
16.260000000000002 0.036425000000000 0.075912000000000
最初の列はmHz単位の周波数で、すべての単一データセットで同一です。2番目の列は適切なデータセット(良好なデータ図1と2、パネル5、赤いマーカー)で、3番目の列は不正なデータセット(不良データ図3と4、パネル5、赤いマーカー)です。
これが、より啓発的な議論を刺激するのに十分であることを願っています。みなさんありがとう。