統計における密行列の使用にはどのようなものがありますか?


8

わかりました、私は統計学者ではありません(近いわけではありません)。私はハイパフォーマンスコンピューティングの研究者であり、大規模な(5000x5000を超える)高密度行列のテストケースをいくつか望んでいました。私はここと他のいくつかの場所に尋ねましたが、統計家からの返事はありませんでした。統計の問題について自分のコードを試すことに非常に興味があります。解決する必要がある統計のアプリケーションを提案できますかAx=b xの場合 A 密で正方形です。

Aに構造がない、つまり対称性がない、正定性がないなどのアプリケーションも提供していただければ幸いです。しかし、それは必ずしも必要ではありません。適切なアプリケーションを備えた大規模な密行列で十分です。

この質問が未解決または曖昧に見える場合は申し訳ありませんが、この質問をするためのより良い場所を想像することはできません。


私の頭に浮かぶかなり基本的な例は、混合効果モデリング用のRのlme4パッケージです。これは、スパースな設計行列に依存して多くのランダム効果を処理します。しかし、あなたはまばらな入力にもっと興味を持っているように思います、私は正しいのですか?
12

いいえ、私は理想的に密行列Aをしたい、それが無い対称性とほぼ完全な緻密であるべき

「解決する」と言うとき Ax=b 密に A」、つまり「解決する」という意味ですか Ax=b ために x、 どこ A密度が高い」
ワンストップ

はい。悪いショートカットでごめんなさい。それが私の言いたいことです。たとえば、A = rand(5000,5000); b = rand(5000,1); solve(A、x、b); randが1と2の間の均一な分布を与えると仮定します

たとえばscikit-learnのsamples_generatorなどに、回帰問題のジェネレーターがあり、他にも確かにあります。しかし、私を訂正してください。Ax=bLapackなどではかなり高速です。堅牢な方法、大きな/まばらな/ 不十分に決定されたシステムなどの市場のほうが多いと思います...とにかく、あなたもmetaoptimizeに尋ねるかもしれません。
denis

回答:



0

ここは大きいですが、十分な密度があるかどうかはわかりません。http://www.grouplens.org/node/73から

  • MovieLens 100k-1700本の映画の1000ユーザーからの100,000件の評価で構成されます。
  • MovieLens 1M-4000本の映画で6000人のユーザーからの100万の評価で構成されます。
  • MovieLens 10M-72,000ユーザーが10,000本の映画に適用した1000万の評価と100,000のタグアプリケーションで構成されています。

1.密集度が最も重要であり、形成されるマトリックスが密集していることを疑います。2.これはAx = bとどのように関連していますか?ランダムで大きな統計ではなく、統計アプリケーションが必要です。

統計アプリケーションは協調フィルタリングです。ユーザーx映画のマトリックスが与えられたら、ユーザーがまだ見たことのない映画にユーザーが与える評価を予測します。Amazon.comスタイルの製品推奨を検討してください。そのようなユーザー項目の設定の大きな行列はまばらである傾向がありますが、本当にロングテールのものを取り除くことができます。
ジャックタナー

「このようなユーザーアイテム設定の大きな行列はまばらである傾向があります」密度は最重要事項ですロングテールの要素が何であるかはわかりませんが、それでも構造化されていない完全な高密度の行列につながるとは思えません。

0

あなたが探しているアプリケーションが統計的なコンテキストで意味をなすかどうかはわかりません。興味があるのは線形回帰分析です。ARm×n の行列です m 各行が1つの測定値である測定 n変数。可能性のある2つの潜在的なアプリケーションn>5000私の頭に来ます。1)DNAマイクロアレイ分析および2)機能的MRIデータの分析。いずれにしても、データセットを見つけるのは難しいでしょうm>5000 その中に人(測定値)。

ただし、あなたの要件 m=nそのような分析の意味を原則的な方法で制限します。すべての統計が根底にあるものを推定することについてであるとしましょう。たとえば、ノイズの多いデータから真実を考えます。つまり、質問に暗黙的な統計モデルは

b=aTx+ϵ
どこ a 単一の測定であり、 x 分析で見つけようとする想定パラメーターであり、 ϵ何らかの形のノイズです。今あなたはそれを言うA 可逆である必要があります。つまり、フルランクでなければなりません。つまり、測定値です。 a 繰り返さないでください。つまり、ノイズのある観測が1つしかありません。 b あたり a パラメータを推定しようとするのは非常に悪い状況です x、特に、パラメータの数が測定の数を超える(または等しい)場合。次に、モデルは単にデータのノイズに適合します。これはオーバーフィットと呼ばれます。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.