ランタイムを実験的に比較するための標準はありますか?


10

私の状況

私が開発したソフトウェアモジュールを紹介する論文を書いており、そのランタイムを同じタスクの他のモジュールと比較したいと思います。ランタイムテストの欠点を認識していますが、私の場合は回避策がないと考えてください。(私は理論的にいくつかの特性を推定することができますが、それだけでは十分ではありません。)

ベンチマークに使用したい特定のシナリオには、2つのパラメーターがあります。問題の複雑度 と、詳細な問題を決定するランダムシード です。主に私はへの依存を示したいです  。予備調査と理論によると、ランタイムへのの影響は小さいか無視できます。1つのタスクが完了するまでに最大で10分かかります。rr

実際の質問

私は、そのような実験を実行する上で一般的に受け入れられているか公開されている手順、または少なくとも一般的な落とし穴のリスト(理想的には公開)を探しています。

これまでに見つけたもの

何もない。インターネット検索は、あらゆる種類の無関係な結果を表示しますが、その場合、正しい用語を使用していない可能性があります。私が良い基準あることがわかっているキーワードの最小値を含めること(下記を参照)も役に立ちませんでした。

どうやってやるの

  • すべての実験を、GUIなどの干渉する可能性のあるソフトウェアを可能な限り無効にして、同じマシンで実行します。

  • すべてのモジュールに同じ選択シナリオ、つまり同じおよび ます。r

  • シナリオごとに、さまざまなモジュールをランダムな順序で直接続けてテストします。つまり、さまざまなモジュールのループが最も内側のループです。これにより、マシンのパフォーマンスのゆるやかな変動(温度変化など)によるさまざまなモジュールへのバイアスを回避できます。ランダムな順序は、キャッシュや、同じモジュールの後に常にテストされる1つのモジュールなどの影響によるバイアスを回避する必要があります。

  • 各について、ベンチマークとして異なるシードを使用して、いくつかのシナリオで最小ランタイムを取得します。これにより、マシンのパフォーマンスが短時間変動して、個々の実行が非常に悪くなるため、さまざまなモジュールへのバイアスが回避されます。


「私の場合、それを回避する方法はない」とあなたが考える理由を説明するのに役立つかもしれません。しかし、もちろん、この質問は十分に焦点が絞られているため、おそらく別の質問とそこへのリンクとして。
Apiwat Chantawibul 2017年

@Billiska:私が何をしてほしいのか正確にはわかりません。実験的アプローチの推論を別の質問で説明する必要があるのはなぜですか?これについては疑問の余地はありません。
Wrzlprmft 2017年

繰り返し実験の最小実行時間を取ることには同意しません。上向きだけのアウトライナーがあるかもしれないと思っているようです。アウトライナーも下向きにすることは可能でしょうか?複数の統計を同時に調べるのがより一般的です(例:平均、中央値、最大)。彼らがあなたが予想しなかった何かを示すかもしれないと知っている人。結局のところ、これは経験的な実験です。
Apiwat Chantawibul 2017年

2
これは非常に広範です。本は、トピックについて書かれることができます、例えば、McGeochの「実験アルゴリズムへのガイド」。「科学を行うための基準はありますか?」とあなたが尋ねているとさえ言うかもしれません。したがって、これが適切にスコープされているかどうかはわかりません。より具体的な質問がありますか?
ラファエル

回答:


2

CC McGeochの「実験的アルゴリズムのガイド」は、

  • アルゴリズムの実験を設定する方法
  • 結果を解釈して使用する方法、および
  • 必要に応じて、より意味のある結果に向けて反復する方法。

2

各実行の経過時間に加えて、ユーザーおよびシステムモードの秒数、IPパケットの合計、およびディスクI / Oの合計を報告します。これは、一部の数値が一貫して「低く」、経過時間にほとんど影響がないことを確認する場合のみです。

https://wiki.freebsd.org/BenchmarkAdvice PHKおよびその他を含む、良いアドバイスを提供します

ministatを使用して、数値が重要かどうかを確認します。「統計の漫画ガイド」の購入を検討してください

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.