べき法則の回帰


7

これはMath SEからのクロスポストです。

データ(アルゴリズムの実行時間)があり、べき乗則に従っていると思う

yreg=kxa

aを決定したい。これまでに行ったことは、log x log y を通じて線形回帰(最小二乗)を実行、その係数からkaを決定することです。kalog(x),log(y)ka

私の問題は、「絶対ログ」エラーが「ログログデータ」で最小化されているため、元のデータを見ると最小化されるのが商であるということです。

yyreg

これにより、yの値が大きい場合、絶対誤差が大きくなります。実際の「絶対」エラーを最小限に抑える「べき乗則回帰」を行う方法はありますか?または、少なくともそれを最小化することでより良い仕事をしますか?y


例:

ここに画像の説明を入力してください

赤い曲線はデータセット全体に適合しています。緑の曲線は、最後の21点のみに適合します。

これがプロットのデータです。左側の列はx軸)の値、右側の列はty軸)の値ですnxty

1.000000000000000000e+02,1.944999820000248248e-03
1.120000000000000000e+02,1.278203080000253058e-03
1.250000000000000000e+02,2.479853309999952970e-03
1.410000000000000000e+02,2.767649050000500332e-03
1.580000000000000000e+02,3.161272610000196315e-03
1.770000000000000000e+02,3.536506440000266715e-03
1.990000000000000000e+02,3.165302929999711402e-03
2.230000000000000000e+02,3.115432719999944224e-03
2.510000000000000000e+02,4.102446610000356694e-03
2.810000000000000000e+02,6.248937529999807478e-03
3.160000000000000000e+02,4.109296799998674206e-03
3.540000000000000000e+02,8.410178100001530418e-03
3.980000000000000000e+02,9.524117600000181830e-03
4.460000000000000000e+02,8.694799099998817837e-03
5.010000000000000000e+02,1.267794469999898935e-02
5.620000000000000000e+02,1.376997950000031709e-02
6.300000000000000000e+02,1.553864030000227069e-02
7.070000000000000000e+02,1.608576049999897034e-02
7.940000000000000000e+02,2.055535920000011244e-02
8.910000000000000000e+02,2.381920090000448978e-02
1.000000000000000000e+03,2.922614199999884477e-02
1.122000000000000000e+03,1.785056299999610019e-02
1.258000000000000000e+03,3.823622889999569313e-02
1.412000000000000000e+03,3.297452850000013452e-02
1.584000000000000000e+03,4.841355780000071440e-02
1.778000000000000000e+03,4.927822640000271981e-02
1.995000000000000000e+03,6.248602919999939054e-02
2.238000000000000000e+03,7.927740400003813193e-02
2.511000000000000000e+03,9.425949999996419137e-02
2.818000000000000000e+03,1.212073290000148518e-01
3.162000000000000000e+03,1.363937510000141629e-01
3.548000000000000000e+03,1.598689289999697394e-01
3.981000000000000000e+03,2.055201890000262210e-01
4.466000000000000000e+03,2.308686839999722906e-01
5.011000000000000000e+03,2.683506760000113900e-01
5.623000000000000000e+03,3.307920660000149837e-01
6.309000000000000000e+03,3.641307770000139499e-01
7.079000000000000000e+03,5.151283440000042901e-01
7.943000000000000000e+03,5.910637860000065302e-01
8.912000000000000000e+03,5.568920769999863296e-01
1.000000000000000000e+04,6.339683309999486482e-01
1.258900000000000000e+04,1.250584726999989016e+00
1.584800000000000000e+04,1.820368430999963039e+00
1.995200000000000000e+04,2.750779816999994409e+00
2.511800000000000000e+04,4.136365994000016144e+00
3.162200000000000000e+04,5.498797844000023360e+00
3.981000000000000000e+04,7.895301083999981984e+00
5.011800000000000000e+04,9.843239714999981516e+00
6.309500000000000000e+04,1.641506008199996813e+01
7.943200000000000000e+04,2.786652209900000798e+01
1.000000000000000000e+05,3.607965075100003105e+01
1.258920000000000000e+05,5.501840400599996883e+01
1.584890000000000000e+05,8.544515980200003469e+01
1.995260000000000000e+05,1.273598972439999670e+02
2.511880000000000000e+05,1.870695913819999987e+02
3.162270000000000000e+05,3.076423412130000088e+02
3.981070000000000000e+05,4.243025571930002116e+02
5.011870000000000000e+05,6.972544795499998145e+02
6.309570000000000000e+05,1.137165088436000133e+03
7.943280000000000000e+05,1.615926472178005497e+03
1.000000000000000000e+06,2.734825116088002687e+03
1.584893000000000000e+06,6.900561992643000849e+03

(面倒な科学表記のため申し訳ありません)


2
ことに注意してくださいヘルプセンターは言う、「それは、より良い別のサイトに適していることが判明した場合。ただし、クロスポストはSEサイトに奨励されていないしてください、あなたの質問を投稿する1つの最高の場所を選択します。その後、それを移行することができます。
Glen_b-2016

2
単一のべき法則がこれらのデータに適合しないことは、プロットから非常に明白です。サイト上の他の電力法に関する質問で、いくつかの価値を見つけることができます。Aaron Clauset、Cosma Rohilla Shalizi、MEJ Newman(2009)の論文、「経験的データにおけるべき則分布」、SIAMレビュー51、661-703(arXivのバージョンについては、arXivを参照してください。 0706.1062v2); そして、Shaliziによるこの投稿。
Glen_b-2016

回答:


3

変換されていないスケールのすべての観測値で等しい誤差分散が必要な場合は、非線形最小二乗を使用できます。

(これは多くの場合適切ではありません。多くの桁にわたるエラーがサイズで一定であることはまれです。)

それでも先に進んでそれを使用すると、後の値に非常によく適合します。

非線形最小二乗近似のプロット

そして、残差を調べると、上の警告が完全に根拠のあることがわかります。

上記のモデルの対数(適合)に対する残差プロット

これは、元のスケールでは変動性が一定ではないことを示しています(また、この単一のパワーカーブの適合は、ハイエンドでもそれほど適合しません。 xスケール-上記のx軸で約0〜5)。変動性は対数目盛で一定に近くなります(ただし、値が高い場合よりも値が低い場合の方が相対的に少し変動します)。

ここで何をするのが最善かは、達成しようとしていることに依存します。


y

1
@kjetilbhalvorsenこれを達成するためのより良い方法がありますが、モデルが適合しないという事実は、関心がデータの範囲の少しでも予測することである場合、予測が低すぎる、おそらく劇的に低いという明確な警告です。最後の21点のみへの適合は、データのその部分内の曲率に適合しません。
Glen_b-2016

2

LinとTegmarkによる論文は、対数正規および/またはマルコフプロセス分布が重要なべき乗則の動作を表示するデータに適合しない理由をうまくまとめています... https://ai2-s2-pdfs.s3.amazonaws.com/5ba0/3a03d844f10d7b4861d3b116818afe2b75f2 .pdf。彼らが指摘するように、「マルコフプロセスは、指数関数的に減衰する相互情報量を予測することによって一時的に失敗します...」彼らの解決策と推奨事項は、長期短期記憶(LSTM)モデルなどのディープラーニングニューラルネットワークを採用することです。

古い学校であり、NNやLSTMに精通していないし、快適でもないので、@ glen_bの非線形アプローチのヒントを提供します。ただし、値ベースの分位点回帰など、扱いやすく、すぐにアクセスできる回避策を優先します。重いテールの保険金請求に対してこのアプローチを使用したことで、乗法的な対数ログモデルを含む従来の方法よりも、テールへの適合性が大幅に向上することを知っています。QRを使用する際のささやかな課題は、モデルのベースとなる適切な分位点を見つけることです。通常、これは中央値よりもはるかに大きくなります。とは言っても、テールの最も極端な値にはかなりの適合性がないため、この方法を売り飛ばしたくありません。

Hyndman、et al(http://robjhyndman.com/papers/sig-alternate.pdf)は、加法的分位回帰を後押しする代替QRを提案しています。彼らのアプローチは、全範囲または四分位のグリッドにわたってモデルを構築し、確率論的推定または予測を生成します。これらは、コーシー、レビ安定など、極端な値の分布のいずれかで評価できます。私はまだ彼らの方法を採用していませんが、有望なようです。

極値モデリングへの別のアプローチは、POTまたはピークオーバースレッショルドモデルとして知られています。これには、値の経験的分布のしきい値またはカットオフを設定し、GEVまたは一般化された極値分布に基づいて、カットオフを超える最大値のみをモデル化することが含まれます。このアプローチの利点は、モデルからのパラメーターに基づいて、可能な将来の極値を調整または特定できることです。ただし、この方法には、完全なPDFを使用していないという明らかな欠点があります。

最後に、2013年の論文では、JP Bouchaudが、群集、傾向、雪崩などの重要性と重い尾の振る舞いを表示する複雑な情報をモデリングするためのRFIM(ランダムフィールドアイシングモデル)を提案しています。ブーショーは、マンデルブロー、シャノン、チューキー、チューリングなどを含むべきポリ数学のクラスに分類されます。私は彼の議論に非常に興味をそそられていると同時に、彼の提案の実装に関わる厳格さに脅されていると主張できます。 。https://www.researchgate.net/profile/Jean-Philippe_Bouchaud/publication/230788728_Crises_and_Collective_Socio-Economic_Phenomena_Simple_Models_and_Challenges/links/5682d40008ae051f9aee7ee9.pdf?inViewer=0&pdfJsDownload=0detail

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.