線形関数、指数関数、および対数関数から最適な曲線近似関数を決定する


18

環境:

Mathematics Stack Exchange (プログラムを構築できますか?)の質問から、誰かが点のセットを持ち、それに線形、指数、または対数曲線を当てはめたいと思っています。通常の方法は、これらのいずれか(モデルを指定)を選択して開始し、統計計算を実行することです。バツy

しかし、本当に求められているのは、線形、指数、または対数から「最良の」曲線を見つけることです。

表向きは、3つすべてを試して、最適な相関係数に従って3つの最適な曲線を選択できます。

しかし、どういうわけか私はこれが全くコーシャーではないと感じています。一般的に受け入れられている方法は、最初にモデルを選択し、3つのうちの1つ(または他のリンク関数)を選択してから、データから係数を計算します。そして、事実上の最高のピッキングはチェリーピッキングです。しかし、データから関数または係数を決定するかどうかは同じですが、あなたの手順は最高の...ものを発見しています(どの関数が別の係数であるかを発見してみましょう)。

質問:

  • 適合統計の比較に基づいて、線形、指数、および対数モデルから最適なモデルを選択することは適切ですか?
  • もしそうなら、これを行うための最も適切な方法は何ですか?
  • 回帰が関数内のパラメーター(係数)を見つけるのに役立つ場合、3つの曲線族のどれが最適であるかを選択する離散パラメーターがないのはなぜですか?

1
便宜上、モデル選択タグを追加しました。それを介してリンクすると、直接関連する多数のスレッドが生成されます。注目に値する他のタグにはaicが含まれます。最終的に、この問題の数学的記述には2つの重要な要素が欠けていることを発見する必要があります。これらの要素がなければ、さまざまな答えを生み出すことができる多くのさまざまなアプローチがあり、「最良」が不明確であることを示しています。
whuber

1
モデルの検証を行うためにデータの割合を確保し、その検証データのセットに最適なモデルを選択できます。したがって、本質的には、データを1つに分割する3つの異なるセットがあります。1つのモデルをトレーニングするデータ2.最適なモデルを選択できる各モデルを検証するデータと3.実際の最終検証データ。
kleineg

1
@kleinegそれは正しい方向のように聞こえます。モデルの選択(lin / exp / logなど)は単一のモデルハイパーパラメーターのようなものです。これはある意味では通常のパラメーターの別のステージであり、別のtrain / validate / testステージによるステップインは一般化できます。
ミッチ

関連性:{オーバーフィットの微妙な方法](johndcook.com/blog/2015/03/17/a-subtle-way-to-over-fit)-複数のモデル関数(たとえば、exp vs linear vs log)を選択するだけです別のパラメーター。ハイパーパラメーター(検証ステップが必要)または複雑な組み合わせの関数の通常のパラメーター(テストステップでテストされる)と考えることができます。
ミッチ

回答:


9
  • Eureqaと呼ばれるフリーソフトウェアをチェックアウトすることをお勧めします。これには、特定の機能関係の機能形態とパラメーターの両方を見つけるプロセスを自動化するという特定の目的があります。
  • パラメーターの数が異なるモデルを比較する場合、一般に、より多くのパラメーターでモデルにペナルティを課す適合尺度を使用する必要があります。適合度がモデル比較に最も適している豊富な文献があり、モデルがネストされていない場合、問題はより複雑になります。あなたのシナリオを考えると、他の人が最も適切なモデル比較指標であると思うものを聞くことに興味があります(サイドポイントとして、カーブフィッティングのモデルを比較する文脈でのモデル比較指標に関する私のブログで最近議論がありました)。
  • 私の経験から、非線形回帰モデルは、与えられたデータへの純粋な統計的適合を超える理由で使用されます。
    1. 非線形モデルは、データの範囲外でより妥当な予測を行います
    2. 非線形モデルは、同等の適合のために必要なパラメーターが少ない
    3. 非線形回帰モデルは、多くの場合、モデルの選択を導くかなりの先行研究および理論がある領域に適用されます。

5

これは非常に多様なドメインで有効な質問です。

最適なモデルは、パラメーター推定中に使用されなかったデータポイントを予測できるモデルです。理想的には、データセットのサブセットを使用してモデルパラメーターを計算し、別のデータセットの適合パフォーマンスを評価します。詳細に興味がある場合は、「相互検証」で検索してください。

したがって、最初の質問に対する答えは「いいえ」です。単に最適なモデルを採用することはできません。N次の多項式をN個のデータポイントに近似する画像​​。すべてのモデルがすべてのデータポイントを正確に通過するため、これは完全に適合します。ただし、このモデルは新しいデータに一般化されません。

私が言える限り、最も適切な方法は、モデルの残差の振幅とパラメーターの数を同時に罰するメトリックを使用して、モデルが他のデータセットにどれだけ一般化できるかを計算することです。AICとBICは、私が知っているこれらの指標の一部です。


3

多くの人が日常的にデータへのさまざまな曲線の適合性を調査しているため、あなたの予約がどこから来ているのかわかりません。確かに、二次方程式は常に少なくとも線形、三次、少なくとも二次と同様に適合するという事実があるため、そのような非線形項を追加する統計的有意性をテストする方法があります。不要な複雑さを避けてください。しかし、さまざまな形の関係をテストする基本的な方法は、良い方法です。実際、非常に柔軟な黄土回帰から始めて、最も当てはまる種類の曲線を確認します。


3
二次適合がより適切であるかどうかは、どのように適切に適合したかによって異なります。特に、より多くのパラメーター(AICなど)を使用してモデルにペナルティを与える適合度を使用する場合、たとえば、2次ではなく、線形では適合が悪化する可能性があります。
ジェロミーアングリム

9
@rolando、おそらく私は誤解しているかもしれませんが、率直に言って、この種の(資格のない)アドバイスは、統計学者として、私たちが「闘う」ことに多くの時間を費やすまさにそのようなものです。特に、OPが予測や推論など、単純な曲線近似を超えたものに関心がある場合は、統計に対する「考えられることなら何でも試してみてください」アプローチの意味を理解することが非常に重要です。
枢機

2
これらのコメントをアンスコム、テューキー、モステラー、タフテ、クリーブランドの伝統と調和させるのに苦労しています。これは、モデルを構築し、係数を確立する前に、データを視覚化して探索し、各関係の形状を拡大する必要性を強調しています、または他の統計を生成します。
rolando2

8
彼らのアプローチに関しては多くの議論があります。これらの問題を要約する過度に単純化された方法は、パターンについて学び、後で検証が必要な新しい発見をしたい場合、探索的分析が適切であることです。推論(特定のサンプルからP値、信頼区間などを使用した一般母集団への理由)を描画する場合は、それほど多くありません。
フランクハレル

4
これは私がCVで見た中で最も生産的なコメントスレッド、特にExchange b / t rolando2(3 ^)&@FrankHarrellです。また、どちらのアプローチも非常に魅力的です。私自身の解決策は、事前にテストするものを計画し、確固たる結論を引き出すためにそのモデルを適合/テストするだけでなく、何真実であるかを発見するためにデータを徹底的に探索することです次の研究の計画。(私は別の研究を実行して何かをチェックする必要がありますか?それは興味深い/重要ですか?)鍵はこれらの分析の結果についてのあなたの信念です。
GUNG -復活モニカ

3

あなたは本当に、データにつながる科学/理論とデータがあなたに伝えるものとの間のバランスを見つける必要があります。他の人が言ったように、可能性のある変換(ある程度の多項式など)を自分自身に当てはめると、結局は過剰適合し、役に立たないものが得られます。

これを納得させる1つの方法は、シミュレーションを使用することです。モデル(線形、指数、対数)のいずれかを選択し、このモデルに従うパラメーターを選択してデータを生成します。y値の条件付き分散がx変数の広がりに比べて小さい場合、単純なプロットにより、どのモデルが選択され、「真実」が何であるかが明らかになります。ただし、プロットから明らかでないパラメータのセットを選択した場合(おそらく分析ソリューションが重要な場合)、3つの方法のそれぞれを分析し、どれが「最適な」フィットを提供するかを確認します。「最良の」適合は「真の」適合ではないことが多いと思うと思います。

一方で、データから可能な限り多くの情報を得たい場合がありますが、関係の性質を完全に判断する科学/理論がない場合もあります。Box and Coxによる元の論文(JRSS B、vol。26、no。2、1964)では、y変数のいくつかの変換を比較する方法について説明しています。これらの変換セットは、特殊なケースとして線形と対数を持ちます(ただし、指数関数ではありません) 、しかし、論文の理論では、それらの変換のファミリーのみに制限されません。同じ方法論を拡張して、関心のある3つのモデル間の比較を含めることができます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.