従属変数を持つ線形回帰モデルがあるとします。そのR 2 yを見つけます。さて、別の回帰を行いますが、今回はlog (y )で、同様にその見つけます。どちらのモデルがより適しているかを確認するために、両方のを比較できないのはなぜですか? R 2
直観的には、ログによって変動性が減少するため、ログ変換を「追加」するとモデルは改善されます。
別の理由はありますか?また、この直感を形式化する方法はありますか?
任意の助けをいただければ幸いです。
従属変数を持つ線形回帰モデルがあるとします。そのR 2 yを見つけます。さて、別の回帰を行いますが、今回はlog (y )で、同様にその見つけます。どちらのモデルがより適しているかを確認するために、両方のを比較できないのはなぜですか? R 2
直観的には、ログによって変動性が減少するため、ログ変換を「追加」するとモデルは改善されます。
別の理由はありますか?また、この直感を形式化する方法はありますか?
任意の助けをいただければ幸いです。
回答:
は、モデルのデータへの適合を測定します。「モデルへのデータ」ではなく「データへのモデル」という文の順序に注意してください。2つの可能な方程式から選択する基準として R 2を使用します。あなたがここに投稿しているという事実は、おそらく誰かがあなたにそれをすることができないと言ったか、これが機能しないことをオンラインで読むことを意味します。事実、それは機能しますが、うまく機能しません。
計算方法のいくつかの側面により、R 2は不適切な基準になります。まず、これは、古典的な理由で、あなたが増加しなければならないすべてのR 2は、変数を追加しています。物理テストでの乳児のパフォーマンスに対する代用乳の影響を予測していて、完璧な色Dの価格を追加した場合、香港で取引されている3カラットのダイヤモンドはR 2が上がるかもしれませんが、下がりません。さらに、提案された変換の下で、平方の合計が変化します。このため、モデルの比較にF検定を使用するのにはあまり適していません。
これにより、AICとBICが表示されます。哲学的に、AICとBICは2つのモデルから選択するベイズ因子のアルゴリズム近似です。データは知っているが知らないので、このようなモデル選択に関する本を読むべきです。
ただし、提供した情報が限られている場合、少なくとも表面的には、AICまたはBICのどちらでも同等の結果が得られるように見えます。これは、モデルが2つしかなく、パラメーターの数が等しいためです。
以前にベイジアン法を使用したことがない場合、確率の方向が逆になります。モデルが真であると仮定して、データが特定の標準より極端または極端であるかどうかを判断する代わりに、データがランダムではなく固定され、モデルが不確実であると仮定し、そのために基づいて最適なパラメーターとモデルを選択しますデータ。帰無仮説はありません。そのため、AICまたはBICは、アルゴリズム規則に変換されたオッズの近似値です。
それらは2つの点で異なります。まず、BICは各モデルに「真」であるという事前確率を等しく与えますが、AICはパラメーターの数に比例する確率を与えるため、複雑なモデルは複雑であるとペナルティーを科されます。第二に、サンプルサイズが大きくない限り、AICがBICよりも複雑なモデルにペナルティを課さないように、尤度関数の近似が異なります。
本格的なベイジアン法ではなくどちらかのツールを使用する理由は、高速であり、ほとんどの状況でベイジアンソリューションへの適切な近似であり、ベイジアンモデル選択プロセスほど複雑ではないためです。