アルゴリズム/ルーチンをテストするための良いデータセット/テスト問題はどこで入手できますか?


41

計算作業で使用しようとしているソフトウェアの品質を評価する際に(それがあなたが書いたものであるか、缶詰のパッケージであるかを問わず)、標準のデータセットまたは問題でどの程度うまく機能するかを確認することはしばしば良い考えです。計算ルーチンを検証するためのこれらのテストはどこで入手できますか?

(回答ごとに1つのウェブサイト/本をお願いします。)


これをコミュニティWikiの投稿にすることを意図していたため、変換のフラグを立てました。
JM

3
この質問は広すぎませんか?つまり、アルゴリズム/このソフトウェアを使用して解決する問題の性質に依存しますか?
アンドレホルツナー

私はこの質問をコミュニティWiki @Andre(リソースの「大きなリスト」として)にしたかったのです。変換のためにフラグを立てましたが、変換されなかった理由はわかりません。
JM

@JM変換しました。
デビッドケッチャソン

回答:



13

製造されたソリューションの方法は、PDEおよびその他のソルバーをテストするための標準です。ほとんどのシンボリック代数システムにはコードを生成する機能があり、これは製造されたソリューションを作成するのに役立ちます。SymPyとMapleには、この目的のためにとりわけ関数ccodeがあります。




8

計算電磁気学では、テスト問題の有名な(またはいくつかの難しさのために悪名高い)セットがあります:電磁分析法(TEAM)のテスト

それらのいくつかは、実験データと整合した正しいシミュレーション結果を得るために、真剣に最先端の数値技術を本当に必要とします。たとえば、導体コイルの問題

Maxwell方程式のテスト問題の別のセットは、Daugeによってコンパイルされています高度に特異な解の近似のためのMaxwell方程式のベンチマーク計算。有名な(または悪名高い)Ficheraキューブの1つ:

フィチェラ

ϕH1+ϵE=ϕ

Δu=0,where u=rαsin(αθ).

7

分子構造に関連するアルゴリズムのベンチマークに興味がある場合、pubchemデータベースには、ほとんどが有機分子の大規模なコレクションがあります。これは、異なるモデル/プログラムで取得した分子特性の予測を比較するのに役立ちます。このサイトには、事前定義された基準(化学組成など)を満たす分子の大きなバッチをダウンロードするためのいくつかのオプションがあります。



7

可愛いのウェブサイトには、最適化と線形ソルバーのためのいくつかの追加の問題でアーノルドNeumaierのウェブサイト上で述べたCUTEテストセットを更新します。さらに、線形代数と最適化ソルバーのテストと更新のためのソフトウェアツールを提供します。










2

テストする大きなグラフまたはネットワークデータを探している場合。スタンフォードネットワーク解析プロジェクト(SNAP)は、典型的には匿名隣接リストの形で多くの大規模なグラフデータセットを有しています。オプションには次のものがあります。

データ

データのプロパティ

  • エッジの数:10から4億まで
  • ノードの数:〜1000〜〜1億
  • エッジタイプ:有向、無向、加重、無加重、署名付き、および無署名。
  • ネットワークの種類:有向、無向、二部、複数グラフ、一時的、ラベル付き。

データセットで利用可能なグラウンドトゥルース統計:

道具


@JM問題ありません!私は少し前に彼らのソーシャルネットデータセットの一部をプロジェクトに使用し、このスタックエクスチェンジに出くわし、ここで役立つと思いました。
ライアン

-3

データは簡単です。それを取得するためのAPIは困難です。Quandlをお勧めします。このサイトには、1つの簡単でRESTに対応したAPIを介してアクセスできる、公開されている1,000万を超えるデータセットがあります。すべてのデータはCSVまたはJSONで返されます。または、プログラミングがあなたの強みではない場合、データをExcelに取り込む簡単な方法があります。R、Python、Rubyのプログラマーは、ネイティブライブラリをすぐに使用できます。


1
Scicompへようこそ!私はこれが問題の種類のデータだとは思わない。アルゴリズムをテストするには、データセットだけでなく、結果を比較するための対応する既知の結果(問題/アルゴリズムに応じて)も必要です。
クリスチャンクラソン14年

ありがとう、@ ChristianClason。意味がわかります。たとえば、ソフトウェアが線形回帰用である場合、著者はデータセットと一連の詳細な分析結果に興味があり、線形回帰パッケージが正しく実行されているかどうかをテストします。
ブライアンリスク14年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.