打ち切りデータの推定CDFプロットの現象の名前


8

私のデータセットには、2つの(かなり強く相関している)変数(アルゴリズムのランタイム)と(検査されたノードの数など)が含まれています。アルゴリズムは1秒あたり約ノードを管理できるため、どちらも設計によって強く相関しています。n ctnc

アルゴリズムはいくつかの問題で実行されましたが、タイムアウト後に解決策が見つからなかった場合、アルゴリズムは終了しました。したがって、データは時間変数で右打ち切りになります。T

アルゴリズムが終了した場合の変数の推定累積密度関数(または累積カウント)をプロットします。これは、最大ノードを拡張することで解決できる問題の数を示し、アルゴリズムのさまざまな構成を比較するのに役立ちます。しかし、のプロットでは、下の画像に見られるように、鋭い右上にある面白い尾があります。打ち切りが行われた変数のecdfを比較します。t < T n n tnt<Tnnt

累積数n

nのecdf

累積数t

tのecdf

シミュレーション

これが発生する理由を理解し、次のRコードを使用してシミュレーションで効果を再現できます。これは、いくらかのノイズが加わった状態で、強相関変数の打ち切りによって引き起こされます。

qplot(
  Filter(function(x) (x + rnorm(1,0,1)[1]) < 5,
         runif(10000,0,10)),
  stat="ecdf",geom="step")

合成データ

この現象はどのように呼ばれますか? これらのファンは実験の成果物であり、実際の分布を反映していないことを、出版物に記載する必要があります。


これは早期終了によるものですか?
lcrmorin 2013

パラメトリック分布でデータをモデル化できますか?無修正データのみを使用してそれを試すことができます。それが機能する場合は、データセット全体の最大尤度を使用して、真のCDFの推定値を取得し、グラフの動作を排除できます。
soakley 2013

@soaklyサンプルはiisではありません。アルゴリズムは一連のベンチマーク問題で実行され、それらは基本的に曲線の形状を(アルゴリズム構成の特性と共に)定義します。
ziggystar 2013

@lmorin早期終了の意味が正確にはわかりませんが、データは時間変数で正しく右打ち切りされます。
ziggystar 2013

1
ECDFが取得する値は[0,1]であるため、最初の2つの表示の数量は実際にはECDFではありません。より正確なタイトルでラベルを付けることをお勧めします。
Glen_b-2013

回答:


1

私は専門家ではありませんが、あなたが見ているものはソフトクリッピングに似ていると思います。

ソートクリッピング(ゲイン圧縮)

クリッピングは非決定論的なプロセスが原因で発生するため、少し異なります。アナログシグナルを決定論的に低減するデバイスではなく、ランダムノイズとしきい値がしきい値を超えると、信号がクリッピングされます。私はこれを行うギターペダルを持っています、それはエレキギターを弾く「パンチ」を和らげます:

キーリーコンプレッサーのデモ

まともなアナロジーのようです。統計コミュニティに名前があるかどうかはわかりません。


0

安定した非対称分布のファミリーに出くわすと思います。
まず、対数-対数プロットでecdfをプロットします。パラメトリックなアプローチを採用し、パレート分布を仮定し、 ここに画像の説明を入力してください

あなたのケースの累積分布関数は、として変換されます。ここで、 は最小完了時間ですアルゴリズムの結果、しきい値がecdfグラフの左側に表示さ れます。ログ-ログプロットに線が表示された場合は、正しいパスにあり、ログ変換されたデータに対して線形回帰を実行して、 out、いわゆるパレートインデックス。tはmがIN αFt(t)=1(tmint)a for t>tmintmin
α^

パレートインデックスは1より大きい必要があります。これにより、分布の重い「テール」、つまりエッジにまたがるデータの量がわかります。1に近いほど、より病原性のある状況になります。
言い換えると、は、無視される時間を費やしたノードと、完了する前に過度の時間を費やしたノードの比率を表します。以前の読者は実験が突然終了するという事実を指摘しましたが、これは呼ばれる複雑さをもたらします。この依存関係を調査するには、を変化させることをお勧めします。α = αT Tαα^=α^(T)T

特にノードがコンピュータネットワークなどのランダムな方法で共有リソースと競合する場合、ヘビーテール現象はコンピュータサイエンスでは一般的です。


2
私の問題は正しいモデルを見つけることにあるとは思いません。あなたは私の質問の2番目のプロットを見ますか?真の分布は線として表示されますが、打ち切り効果により曲線になります。この現象の呼び方を知りたい。
ziggystar 2013年

ノードは共通のリソースを共有します。これは、時間完了の変動に間接的に反映されるCPUです。これらの赤とピンクのドットは、それぞれの分布の主要な質量からかなり離れているため、疑わしいものがあります。長く続く処理ノードは残りのノードに影響を及ぼします。それらは最終的に質量をその中心から遠ざけるでしょう。
aarsakian 2013年

2
ドメインを正しく理解したかどうかはわかりません。問題は検索です。アルゴリズムは、ソリューションノードを見つけるために、一度にノードを調べます。より良いアルゴリズムは、ソリューションを見つける前に、より少ないノードを調べる必要があります(ノードをより賢く選択するため)。ノードを見るには時間がかかるため、調査するノードの数と消費される時間にはかなり強い相関があります。
ziggystar 2013年

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.