タグ付けされた質問 「large-data」

「大規模なデータ」とは、観測(データポイント)の数が多すぎて、データアナリストの考え方や分析の方法を変更する必要がある状況を指します。(「高次元」と混同しないでください。)

1
RMSEに基づいて精度測定を計算する方法は?大規模なデータセットは通常に配布されますか?
何千ものポイントのデータセットがいくつかあります。各データセットの値は、空間の座標を参照するX、Y、Zです。Z値は、座標ペア(x、y)での標高差を表します。 通常、私のGISの分野では、標高誤差は、RMSEでグラウンドトゥルースポイントを測定ポイント(LiDARデータポイント)に差し引くことで参照されます。通常、最低20のグラウンドトゥルーシングチェックポイントが使用されます。このRMSE値を使用して、NDEP(National Digital Elevation Guidelines)およびFEMAガイドラインに従って、精度の尺度を計算できます:精度= 1.96 * RMSE。 この基本精度は、「基本垂直精度とは、データセット間で垂直精度を公平に評価および比較できる値です。基本精度は、垂直RMSEの関数として95%の信頼水準で計算されます。」 正規分布曲線の下の面積の95%が1.96 * std.deviation内にあることを理解していますが、それはRMSEとは関係ありません。 一般的に私はこの質問をしています:2つのデータセットから計算されたRMSEを使用して、RMSEをある種の精度(つまり、データポイントの95%が+/- X cm以内にある)に関連付けるにはどうすればよいですか?また、このような大きなデータセットでうまく機能するテストを使用して、データセットが通常は分散されているかどうかをどのように判断できますか?正規分布にとって「十分」とは何ですか?すべての検定でp <0.05にする必要がありますか、それとも正規分布の形状と一致させる必要がありますか? 次の論文で、このトピックに関する非常に優れた情報を見つけました。 http://paulzandbergen.com/PUBLICATIONS_files/Zandbergen_TGIS_2008.pdf

3
非常に大きなデータセットから重要な変数をすばやく選択するにはどうすればよいですか?
約2,000のバイナリ変数/ 200,000行のデータセットがあり、単一のバイナリ従属変数を予測しようとしています。この段階での私の主な目標は、予測の正確さを得ることではなく、これらの変数のどれが重要な予測子であるかを識別することです。最終モデルの変数の数を約100に減らしたいのですが。 最も重要な変数を取得する比較的迅速な方法はありますか?randomForestに時間がかかっているようです。 200,000件すべてを使用する必要はないので、サンプリングはテーブルのオプションです。

3
スペース効率の良いクラスタリング
私が見たほとんどのクラスタリングアルゴリズムは、すべてのポイント間にeach-to-each距離を作成することから始まります。これは、より大きなデータセットでは問題になります。それをしないものはありますか?それとも、それはある種の部分的/近似的/時差的なアプローチですか? O(n ^ 2)スペースよりも少ないクラスタリングアルゴリズム/実装はどれですか? アルゴリズムのリストとその時間と空間の要件はどこかにありますか?

2
標本がANOVAまたはt検定には大きすぎることはありますか?
100万近くのデータセットがあり、平均比較検定(ANOVAまたはt検定)を実行するたびに、SPSSで.0001未満の有意水準が得られます。私のサンプルが非常に大きいので、もちろん、平均を比較すると、大幅に異なるものとして表示されることを心配しています。標本がANOVAまたはt検定には大きすぎることはありますか?

4
データセットの次元の推定
適用された統計の同僚が私にこれを送りました: 「関数のドメインの真の次元を見つける方法を知っているかどうか疑問に思っていました。たとえば、円は2次元空間の1次元関数です。描画方法がわからない場合は、私が計算できる統計は、それが2次元空間の1次元オブジェクトであることを教えてくれますか?これを高次元の状況で行う必要があるため、絵を描くことができません。 ここでの次元の概念は明らかに不明確です。つまり、高次元空間内の点の任意の有限コレクションを介して曲線を実行でき、データは1次元であると言えます。ただし、構成によっては、より高い次元のセットとしてデータを説明するためのより簡単またはより効率的な方法がある場合があります。 そのような問題は統計文献で考慮されたに違いないが、私はそれについてよく知らない。ポインタや提案はありますか?ありがとう!

1
MCMCの反復ごとに大きなデータセットをサブサンプリングできますか?
問題:ギブスサンプリングを実行して、大規模なデータセットの事後を推測したい。残念ながら、私のモデルはそれほど単純ではないため、サンプリングが遅すぎます。私は変分的または並列的なアプローチを検討しますが、その前に... 質問:すべてのステップで学習するインスタンスが少なくなるように、ギブスの反復ごとにデータセットからランダムに(置き換えて)サンプリングできるかどうか知りたいのですが。 私の直感は、サンプルを変更しても確率密度を変更しないため、ギブスサンプルはトリックに気付かないはずです。私は正しいですか?これを行った人々の言及はありますか?

1
ビッグデータ設定のランダムフォレスト
5,818,446行と51列のデータセットがあり、そのうちの50が予測変数です。私の応答は定量的であるため、回帰モデルに興味があります。キャレットパッケージを使用して、ランダムフォレストをデータに適合させようとしています。しかし、それを行うのに十分なRAMがありません。 私は自分の問題の解決策を探していました。より強力なコンピューターを持っていることに加えて、バギングを利用して問題を解決できるようです。したがって、私の考えは次のとおりです。 元のデータセットからトレーニングパーティションとテストパーティションの両方を作成する 電車のデータセットの一部をRに置き換えたサンプル(その1%、つまり58,185行としましょう) データのこの小さな部分にランダムフォレストを当てはめる モデル結果を保存する 手順2〜4を1,000回繰り返します 手順2〜5から取得したこれらの1,000モデルを組み合わせる ただし、ランダムフォレスト自体はバギングを使用してモデルをデータに適合させているため、私のアプローチが正しいかどうかはわかりません。したがって、いくつか質問があります。 i)私のアプローチは正しいですか?つまり、システムに十分なRAMがないため、さまざまなランダムフォレストモデルをさまざまなデータチャンクに適合させ、それらを後で結合することは正しいのでしょうか。 ii)私のアプローチが正しいと仮定すると、データの1%がサンプルサイズの良い目安になりますか?データの1%でも、ます。N » Pん≫pn \gg p iii)私のアプローチが正しいと仮定すると、使用する必要のあるモデルのレプリケーションは多数ありますか?理由で1,000個と思いました。

5
大規模なサンプルで無関係なリグレッサが統計的に有意になるのはなぜですか?
統計的有意性、効果の大きさなどをよりよく理解しようとしています。 大規模なサンプルでは、​​無関係なリグレッサでさえ統計的に有意になることがよくあるという認識があります(おそらく間違っています)。無関係な私回帰は、従属変数に関連しなければならない理由は何の主題の説明がないことを意味します。したがって、この投稿の無関係性は純粋な主題概念であり、統計的概念ではありません。 (ここで説明するように)母集団の影響が正確にゼロでない限り、十分に大きなサンプルが与えられれば、リグレッサは統計的に有意であることを知っています。したがって、大きなサンプルで統計的に有意であると思われる無関係なリグレッサは、母集団でゼロ以外の効果サイズを持っています。 質問: 無関係なリグレッサが統計的に有意であることが判明するのはなぜですか? 主題の説明を探す必要がありますか(つまり、関連性を否定しようとします)、これは統計的な現象ですか? これは、私がこの効果をどのように治すかを明確にしようとしていた投稿の続きです。一方、ここで、なぜそもそもそれが起こるのかを尋ねています。

2
膨大なデータセットが与えられた場合、なぜ統計モデルは過剰適合しますか?
現在のプロジェクトでは、特定のグループの行動を予測するモデルを構築する必要があるかもしれません。トレーニングデータセットには6つの変数のみが含まれます(idは識別目的のみです)。 id, age, income, gender, job category, monthly spend その中で monthly spend応答変数です。ただし、トレーニングデータセットには約300万行が含まれid, age, income, gender, job category、予測されるデータセット(応答変数は含まれるが、含まれない)には100万行が含まれます。私の質問は、統計モデルにあまりにも多くの行(この場合は300万行)を投げた場合に潜在的な問題はありますか?計算コストが懸念事項の1つであることを理解していますが、他に懸念事項はありますか?データセットのサイズの問題を完全に説明している本/紙はありますか?
8 modeling  large-data  overfitting  clustering  algorithms  error  spatial  r  regression  predictive-models  linear-model  average  measurement-error  weighted-mean  error-propagation  python  standard-error  weighted-regression  hypothesis-testing  time-series  machine-learning  self-study  arima  regression  correlation  anova  statistical-significance  excel  r  regression  distributions  statistical-significance  contingency-tables  regression  optimization  measurement-error  loss-functions  image-processing  java  panel-data  probability  conditional-probability  r  lme4-nlme  model-comparison  time-series  probability  probability  conditional-probability  logistic  multiple-regression  model-selection  r  regression  model-based-clustering  svm  feature-selection  feature-construction  time-series  forecasting  stationarity  r  distributions  bootstrap  r  distributions  estimation  maximum-likelihood  garch  references  probability  conditional-probability  regression  logistic  regression-coefficients  model-comparison  confidence-interval  r  regression  r  generalized-linear-model  outliers  robust  regression  classification  categorical-data  r  association-rules  machine-learning  distributions  posterior  likelihood  r  hypothesis-testing  normality-assumption  missing-data  convergence  expectation-maximization  regression  self-study  categorical-data  regression  simulation  regression  self-study  self-study  gamma-distribution  modeling  microarray  synthetic-data 

1
スター座標と主成分分析
現在、「ビジュアルデータ分析」の大学コースのプレゼンテーションを準備しています。そして、私のトピックの1つは「Star Coordinate」の視覚化です。スター座標 Star Coordinatesが高次元データの変換を実行し、よく知られているPCA技法もそれを実行するので、PCAをStar Coordinatesで模倣できるかどうか疑問に思いますか?元の変数の線形結合を表すように座標軸を並べ替えると思いますか?しかし、これは単なるアイデアです。誰かがこれを確認または反証できますか?

2
大規模データのSASの代替としてのR
SASのようなものは逐次分析を行うのに対し、Rはすべてのデータをメモリにロードすることを考えると、Rは大きなデータセットの分析には特に役立ちません。とはいえ、ユーザーがRでより効率的に大規模データ分析(統計分析)を実行できるようにするbigmemoryのようなパッケージがあります。 私は、すべての理論的な情報とは別に、エンタープライズ環境で大規模なデータセットを分析するためにRを使用したり使用したりしている人や、発生する可能性のある典型的な問題を知りたいと思っていました。大きなデータセットとは、サイズが最大200 GBのデータセットを指します。また、そのようなユースケースでSASからRに移行する実際の例についての考えは参考になります。
8 r  sas  large-data 

3
非常に大きなファイルからのサンプルで回帰を行っています。サンプル係数の平均とSEは、一貫した推定量ですか?
100M行30列程度のかなり大きなファイルがあり、その上で複数の回帰を実行したいと思います。私はファイル全体で回帰を実行するための特別なコードを持っていますが、私がしたいことは、ファイルからランダムなサンプルを描画してRで実行することです。戦略は次のとおりです。対象の係数を保存し、係数ごとに異なるサンプルを使用してこのプロセスをM回繰り返し、M回の実行に対する係数の平均と標準誤差を計算します。 Mランで計算された平均を、データセット全体で計算された係数の値の推定値として解釈し、平均の標準誤差を、データセット全体で計算された係数の標準誤差の推定値として解釈したいと思います。 実験はこれが有望な戦略であることを示していますが、根本的な理論についてはわかりません。私の推定者は一貫して効率的で偏っていませんか?それらが一貫している場合、どれくらい早く収束すべきですか?MとNのどのトレードオフが最適ですか? 誰かが私に関連理論を使って論文や本などを教えてもらえれば幸いです。 今後ともよろしくお願いいたします。 ジョー・リッカート

3
統計における密行列の使用にはどのようなものがありますか?
わかりました、私は統計学者ではありません(近いわけではありません)。私はハイパフォーマンスコンピューティングの研究者であり、大規模な(5000x5000を超える)高密度行列のテストケースをいくつか望んでいました。私はここと他のいくつかの場所に尋ねましたが、統計家からの返事はありませんでした。統計の問題について自分のコードを試すことに非常に興味があります。解決する必要がある統計のアプリケーションを提案できますかAx=bAx=bAx=b xの場合 AAA 密で正方形です。 Aに構造がない、つまり対称性がない、正定性がないなどのアプリケーションも提供していただければ幸いです。しかし、それは必ずしも必要ではありません。適切なアプリケーションを備えた大規模な密行列で十分です。 この質問が未解決または曖昧に見える場合は申し訳ありませんが、この質問をするためのより良い場所を想像することはできません。

2
大規模なデータで不正な変数をすばやく検出するにはどうすればよいですか?
数百万行、数千列のデータセットがあり、タスクはバイナリ分類であるとします。ロジスティック回帰モデルを実行すると、パフォーマンスは予想よりもはるかに優れています(たとえば、ほぼ完全な分類)。 データに不正な変数があると思われますが、どうすればすばやく検出できますか? ここで不正な変数とは、応答を非常に示す変数であり、使用すべきではありません。たとえば、ユーザーがカスタマーサービスに電話をかけた場合に使用して、その人が製品を購入したかどうかを予測します。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.