タグ付けされた質問 「data-analysis」

2
多対多の一般化された割り当て問題のアルゴリズム
多対多の一般化された割り当て問題(GAP)を解決するために使用できるアルゴリズムに関する文献を見つけることができないようです。つまり、1つのエージェントに複数のタスクを割り当てることができるだけでなく、複数のエージェントを割り当てることができるモデル1つのタスクに割り当てられます(1対1および1対多のAPは、Penticoの論文で説明されています)。割り当ての問題はほとんどありませんが、調査中にこのような問題に遭遇しました。その解決方法について詳しく知りたいと思います。このような多対多のGAPが別の名前で知られている可能性はありますか、またはそれに関する文献がほとんど見つからない別の理由がありますか? Pentico、D。課題の問題:黄金周年記念調査。European Journal Of Operational Research(2007); 176(2):774-793。

3
階層シミュレーションデータを保存するためのベストプラクティス
TL、DR 大量の階層構造データを保存するための科学コンピューティング界で受け入れられているベストプラクティスは何ですか?たとえば、SQLは大きなスパース行列ではうまく機能しません。この種のデータを構造化し、保管し、分析するための優れたツールはありますか?LHCのスタッフは何を使用していますか? ユースケースの詳細 次の階層に従ってタンパク質シミュレーションのデータを保存します。 protein |__simulation conditions |____|__residues |____|____|__conformers |____|____|____|__atoms すべてのタンパク質はその各残基を認識している必要があり、すべての原子はそのシミュレーションなどに使用される条件を知っている必要があります。 もともと、このアプリケーションにはリレーショナルデータベースが最適であると考えたため、pythonとsqlalchemeyを使用して、SQLデータベースにデータを保存するプログラムを作成しました。ただし、実際には、このプログラムはあまりうまく機能していません。 最大の問題は、配座異性体データレベルにN x N行列があり、配座異性体のすべての可能なペア間のペアワイズ相互作用によるポテンシャルエネルギーを格納するという事実に関連しています。マトリックス内のエントリのほとんどはゼロです。そのため、データベース内の別のテーブルに、エントリごとに1行、一種のスパース形式でマトリックスを格納しています。残念ながら、数千の配座異性体を含むシミュレーションの場合、ペアワイズテーブルは依然として数十万行になり、次のようになります。 a)構築とクエリが非常に遅い(時間) b)非スパースマトリックスとしてのデータの同等のプレーンテキスト表現よりもハードドライブ上のスペースを1桁多く 消費するc)10ギガバイト以上のメモリを消費するテーブルはメモリに読み込まれます 私の最終的な目標は、データベースに数万の実行(数十のシミュレーション条件下での数千のタンパク質から派生)を保存して、それらをすべて一緒に分析できるようにすることです。これは、ペアワイズ行列を表すテーブルが約10億行になる可能性が高いことを意味します。現在、このデータベースで単一のクエリを実行するためにも、Crayまたはその他の共有メモリモンスターが必要になるようです。 ここにはより良いオプションがありますか?LHCのスタッフは何を使用していますか?

4
高次元データ用の最速のPCAアルゴリズム
約40 000個のサンプルで構成されるデータセットに対してPCAを実行します。各サンプルには約10,000個の特徴が表示されます。 Matlab princomp関数を使用すると、一貫して30分以上かかり、その時点でプロセスを強制終了します。10分以内に実行される実装/アルゴリズムを見つけたいです。最速のアルゴリズムは何でしょうか?i7デュアルコア/ 4GB RAMにかかる時間はどれくらいですか?

2
Pandasの制限とPythonでの代替
Pandasが最初に金融の世界、特に自然科学(物理学、生物学など)向けに開発されなかったことをどこかで読んだことがあります。同様のデータ分析Pythonパッケージがより「自然科学指向」なものはありますか? 私はパンダの使用を開始したばかりで、他のパッケージまたは自家製のソリューションを使用しないと解決できない2つの問題がすでに発生しています。 不確実性を管理する方法は? データの単位を簡単に定義するにはどうすればよいですか? おそらく他の問題があるかもしれませんが、もっと正確には経験がありません。現時点では、最初の点を解決するための不確実性パッケージについて考えていますが、パンダで正常に動作し、計算速度が低下しないかどうかはわかりません。実際、私は不確実性を伴う計算方法を探しているのではなく、インポートしたデータと共に不確実性を保存する単純な方法を探しています。2番目の点については、DataFrameとは別に辞書を作成して、各データに関連付けられた単位を管理するよりも優れた解決策を見つけることができませんでした。 同じ問題を経験したことがある場合、どのようにそれを解決しましたか、または自然科学のPythonでのデータ操作/保存/分析にどのパッケージを使用しましたか?

2
セットからの類似アイテムのマッチング
アイテムを一致させようとしています。アイテムのセットが与えられた場合、それらが互いにどれだけ類似しているかを0から100までのスケールでランク付けできます。たとえば、アイテムn 1が牛乳でアイテムn 2も牛乳の場合、n 1とn 2の類似性は100%になります。n 3がソーダの場合、n 1とn 3の間の類似性はおそらく80%などになります。んんnん1ん1n_1ん2ん2n_2ん1ん1n_1ん2ん2n_2ん3ん3n_3ん1ん1n_1ん3ん3n_3 アイテムを類似したアイテムのグループにグループ化する方法を理解しようとしていますが、これは難しい問題です。私は次の問題に遭遇します。馬は牛に似ています。これは山羊に似ています。これは、部分的に山羊チーズに似ています。これは、クラッカーに関連するチーズに似ています。しかし、馬がクラッカーと同じグループになるとは思いません。各項目はペアごとに関連付けられている場合がありますが、最初と最後は関連付けられていない場合があります。んんn 何か案は?

1
計算科学とデータ科学の違いは何ですか?[閉まっている]
休業。この質問には、より焦点を当てる必要があります。現在、回答を受け付けていません。 この質問を改善してみませんか?質問を更新して、この投稿を編集するだけで1つの問題に焦点を当てます。 3年前休業。 背景:私の博士号は「計算科学」でした。私の論文は、固体物理学のための分子電子密度の全体的な動的分析におけるX線回折データの分析と熱摂動核の分析に関するものでした。持ち帰り?それは非常に科学に基づいていました。 私の意見では、計算科学は科学の追求であり、「...計算可能な手段によって、宇宙に関するテスト可能な説明と予測の形で知識を構築および整理する体系的な企業」(wiki)です。 ただし、「データサイエンス」のほとんどの位置は、「データ分析」タイプのジョブに似ています。つまり、事前に構築されたRモデルとPythonモデル(線形回帰など)を使用して構造化データと非構造化データから結論を導き出す、重いSQLクエリ。 計算科学はデータ科学のスーパーセットですか?それらは交換可能ですか?データサイエンスは実際の「科学」ですか?計算科学は実際の「科学」ですか?

4
データベースを使用して大量の結果を処理する必要がありますか?
バックグラウンド: 現在、大量のパラメータ変動実験を行っています。これらはnumpyを使用してPython 2.6以降で実行されています。これらの実験の実行には約2週間かかります。 大まかに私は3つのパラメーター(独立変数)を値の範囲で変化させています。さらに6つの独立変数を修正します(今のところ)4つの従属変数についてレポートしています。 私が変更しているパラメーターの1つは、いくつかのプロセス(およびコンピューター)に分散されています。これらの各パラメーターcsvについて、すべての変数(独立、固定、依存を含む)の値を各行に含む個別のファイルを生成します。すべてのバリエーションで、約80,000行のデータが生成されると予想されます ほとんどの場合、私は従属変数の1つの値だけを見ていますが、予期しないことが起こったときに何が起こっているかを説明できるので、他の変数はそのままにしておきます。 この実験の以前のバージョンでは、2つのパラメーター(それぞれ2つの値のみ)で変化していcsvましたが、このファイルをスプレッドシートプログラムにコピーアンドペーストし、一連のコピーペーストを実行して、興味のある従属変数のみのテーブルを作成しました。 。MS-Excelで厄介なことをして数式で並べ替えること。これは、私が持っていた6つの実験結果セットにとって十分な苦痛でした。この実行が完了するまでに、結果が2桁増えることになります。 質問: 一度終わったら、csvファイルのすべての結果をデータベースにダンプし、興味のある部分を照会できると考えていました。次に、それらの結果を取り、分析のためにスプレッドシートに入れます。グラフを作成し、制御結果に関連するスコアを見つけるなど 私は正しい線に沿って考えていますか?(これは人々がすることですか?) 私のデータベースfooは、MS-Accessを使用していて良かったとしても、最近はかなり錆びています。これにもMS-Accessを使うつもりでした。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.