フィッティングなしでモデルを比較するにはどうすればよいですか？

自然科学では、回帰と機械学習を使用して、仮説をテストし、パラメーターを推定し、モデルをデータに適合させることで予測を行います。ただし、アプリオリモデルがある場合は、フィッティングを行いたくありません。たとえば、第一原理から計算された決定論的な物理システムのモデルなどです。モデルがデータとどの程度一致しているかを知り、モデルのどの部分が一致に大きく貢献しているかを知りたいだけです。誰かがこれを行うための統計的に厳密な方法に私を向けることができますか？

より具体的な用語で、私は従属変数の測定対象の物理的システムがあると（ 1からの範囲様々な条件下では、サンプルサイズ）は、3つの独立変数によって記述、、および。データを生成した実際のシステムは複雑ですが、システムの理論モデルを導出するためにいくつかの簡略化の仮定を行いました。 $y_i$ $i$ $n$ $x_{1,i}$ $x_{2,i}$ $x_{3,i}$ $f$

$y_i = f(x_{1,i}, x_{2,i}, x_{3,i}) + \epsilon_i$ 、

ここで、は独立変数の非線形（線形化可能ではない）関数であり、はモデルの予測値と測定値の差です。は完全に事前に指定されています。フィッティングは行われず、パラメーターは推定されません。私の最初の目標は、が測定値を生成したプロセスの妥当なモデルであるかどうかを判断することです。 $f$ $\epsilon_i$ $f$ $f$ $y_i$

また、簡略化されたモデルとも開発しました。これらはネストされています（この場合重要です）。私の2番目の目標は、がまたはよりもはるかによくデータと一致するかどうかを判断することです。モデルをモデルおよびと区別する機能がを生成するプロセスで重要な役割を果たすことを示唆しています。 $g(x_{1,i}, x_{2,i})$ $h(x_{1,i})$ $f$ $f$ $g$ $h$ $f$ $g$ $h$ $y_i$

これまでのアイデア

おそらく、私の数学モデルのパラメーターの数または自由度の数を決定する方法があった場合、尤度比検定やAIC比較などの既存の手順を使用することが可能です。ただし、 $f$ の非線形形式と明らかなパラメーターがないため、パラメーターを割り当てるのが妥当であるか、それとも自由度を構成するものを想定するのが妥当かどうかはわかりません。

決定係数（ $R^2$ ）などの適合度の測定値を使用して、モデルのパフォーマンスを比較できることを読みました。ただし、 $R^2$ 値間の有意差のしきい値が何であるかは、私にはわかりません。さらに、モデルをデータに適合させていないため、残差の平均はゼロではなく、モデルごとに異なる場合があります。したがって、データを過小予測する傾向があるよく一致するモデルは、偏りはないがデータとの一致が不十分なモデルと同じくらい $R^2$ 値が低くなる可能性があります。

適合度テスト（例：Anderson-Darling）についても少し読んだことがありますが、統計は私の分野ではないので、このタイプのテストが私の目的にどれだけ適しているかはわかりません。どんなガイダンスもいただければ幸いです。

— jbacks
ソース

f()データへの適合から決定する必要がある非線形関数のパラメーター値はありますか、または関数はf()完全に事前に指定されていますか？

— EdM

@EdMありがとうございます！f完全に事前に指定されていることを明確にするために質問を編集しました。これyは、入力変数からの応答を生成するブラックボックスのようなものであり、競合するブラックボックスと比較した場合のパフォーマンスを知りたいのです。同様の状況では、数値シミュレーションの出力と実際の物理システムで行われた測定との一致を評価しようとしている可能性があります。

— jbacks

回答:

この状況では、基本的に3つのモデル間の $\epsilon_i$ 分布を比較しています。したがって、次のような問題を調べる必要があります。

$\epsilon_i$ の平均値は3つのモデル間で異なり、これらの平均値のいずれかが0と異なりますか？（つまり、どのモデルにもバイアスがあり、3つのモデルのバイアスは異なりますか？）
いずれかの系統的な関係がある $\epsilon_i$ 対応するモデルから、または独立変数の値を予測値と $x_{1,i},x_{2,i}, x_{3,1}$ ？特定のモデルが1つまたは2つしか使用していなくても、ここでは3つの独立変数すべてを考慮する必要があります。
3つのモデル間で $\epsilon_i$ 分散に有意差はありますか？

これらの質問にどのように最善のアプローチをとるかの詳細は、データの性質によって異なります。たとえば、 $y_i$ 値が必ず正であり、それらの値に比例する一般的な測定誤差がある場合（実際にはよくあることです）、対数変換された $y_i$ と対数変換された違いについてこの分析を行うことは意味があります。各モデルからの予測。

たとえば密度プロットなど、3つのモデル間の $\epsilon_i$ 分布を視覚的に分析することは、重要な最初のステップです。

$\epsilon_i$

— EdM
ソース

残差分布を比較の対象と考えることは、視点を変えるのに役立ちます。a）同様の方法を使用する公開済みの分析を知っていますか？私の状況は異常だと思います。公開された判例があれば参考になります。b）各残差分布の平均は非ゼロであり、私のモデルのうちの2つで目に見えて異なります。ANOVAがこれを確認すると期待しています。これを知っていても、各残差分布の分散間の違いを調べることは依然として賢明でしょうか（問題3）。問題2を介して公開されたパターンは、分散の比較を無効にすることができますか？

— jbacks

@jbacks公開された前例は知りませんが、モデルに確かな理論的根拠がある場合、このアプローチは売れないと思います。この理論に基づく分析では、予測と観測の間の系統的バイアス（非ゼロ平均誤差、問題I）の理由に焦点を当てます。それは、モデルの相対的価値に最も直接的に達するようです。問題II（独立変数値または予測値に関連するエラーの大きさ/方向のパターン）は、モデルがどこに行き詰まっているかを示しているはずです。モデル分散の比較はあまり重要ではありません。

— EdM

@jbacksは、対数などの変換されたスケールで観測/予測を処理することも検討します。変換されていないスケールでのエラー項のバイアスは、変換後に削減または削除される場合があります。別の回答で提案されているパーセント誤差の使用は、対数変換された予測と観測値の違いを調べることと同じです。それがこの状況に適しているかどうかを判断する必要があります。

— EdM

これはもっともらしいようで、私はそれを試してみるつもりです。あなたの洞察を再度ありがとう。

— jbacks

$\epsilon$

それの訳は

モデルが間違っていることは確かです。
最終的に得られる残差は、さまざまな仮説をテストするために使用する仮説エラーの分布とは関係ありません。（あなたは統計/確率モデルを持っていません）
あなたの目標は、仮説（基本/純粋科学）をテストすることではなく、簡略化モデル（応用科学）の予測パフォーマンスを特徴付けることです。

ほとんどの場合、人々は予測のエラーのパーセントの観点からモデルを説明します。

例：

異なる非ニュートンレイノルズ数に基づく複合べき乗則摩擦係数-レイノルズ数相関を使用したスラッジパイプフローの圧力降下予測

これらの相関関係を使用して、所定のスラッジ濃度と動作条件での圧力降下を±20％以内に予測できることが示されています。
固体粒子の懸濁液のレオロジーに基づくナノ流体の有効粘度の予測

現在のモデルは、平均偏差が5％未満の501粘度値に適合し、それらの75％は相関係数0.78–1内にあります。
アスファルトのモデリングへの人工知能の適用–ゴム粘度

$\rho$
ヘンリーの法則定数を推定するための債券寄与法

既知のLWAPC（水対空気分配係数の対数）と345化合物データセットの結合推定LWAPCの関係について、0.94の相関係数（r2）が決定されました。

基本的には、現実を単純化したモデルであればどれでもグーグルでき、相関係数や変動率の観点から現実との差異を説明している人がいます。

「現象A」がx_3,i の生産にある程度貢献しているという仮説を検証したい y。モデル fながら現象Aを組み込んだ g と h、私の仮説が本当だったそうならば、私はそのモデルの予測するはありません fどちらかよりも有意に良好に機能します g か h。

そのような比較では、測定されたパフォーマンスをサンプルとして、より大きな（仮想の）パフォーマンスの母集団から抽出されたサンプルと見なすことができます。

$\epsilon$ $y \pm x$

ただし、パフォーマンスを測定するために使用される「サンプル」は実際にはランダムな選択ではないため、このビューは少し問題があります（たとえば、事前定義された範囲に沿った、または選択された実用的なアイテムセット間の測定です）。次に、一般的な性能の推定におけるエラーの定量化は、ランダム選択のモデルに基づいてはなりません（たとえば、サンプルの分散を使用して推定のエラーを記述する）。したがって、比較を記述するために確率モデルを使用することは、まだほとんど意味がありません。説明データを述べ、論理的な引数に基づいて一般化について「推定」するだけで十分な場合があります。

— Sextus Empiricus
ソース

これらの例は役に立ちます！私の目標は仮説テストを含まないというあなたの主張によって、私は少し混乱しています。私がそれを組み立てるとき、私は「現象A」が関与するという仮説x_3,iをの生成に測定可能な程度に貢献するという仮説を検証したいと思いyます。モデルfながら現象Aを組み込んだgとh、私の仮説が本当だったそうならば、私はそのモデルの予測するはありませんfどちらかよりも有意に良好に機能しますgかh。

— jbacks

ϵ

$\epsilon$

x \pm y

$x \pm y$

編集でそのコメントを拡大していただきありがとうございます。この見方と他の答えの間に、私は前向きな道があると思います。とても有難い！

— jbacks