私のデータセットには、2つの(かなり強く相関している)変数(アルゴリズムのランタイム)と(検査されたノードの数など)が含まれています。アルゴリズムは1秒あたり約ノードを管理できるため、どちらも設計によって強く相関しています。n c
アルゴリズムはいくつかの問題で実行されましたが、タイムアウト後に解決策が見つからなかった場合、アルゴリズムは終了しました。したがって、データは時間変数で右打ち切りになります。
アルゴリズムが終了した場合の変数の推定累積密度関数(または累積カウント)をプロットします。これは、最大ノードを拡張することで解決できる問題の数を示し、アルゴリズムのさまざまな構成を比較するのに役立ちます。しかし、のプロットでは、下の画像に見られるように、鋭い右上にある面白い尾があります。打ち切りが行われた変数のecdfを比較します。t < T n n t
累積数
累積数
シミュレーション
これが発生する理由を理解し、次のRコードを使用してシミュレーションで効果を再現できます。これは、いくらかのノイズが加わった状態で、強相関変数の打ち切りによって引き起こされます。
qplot(
Filter(function(x) (x + rnorm(1,0,1)[1]) < 5,
runif(10000,0,10)),
stat="ecdf",geom="step")
この現象はどのように呼ばれますか? これらのファンは実験の成果物であり、実際の分布を反映していないことを、出版物に記載する必要があります。