統計とビッグデータ large-data

1

RMSEに基づいて精度測定を計算する方法は？大規模なデータセットは通常に配布されますか？

何千ものポイントのデータセットがいくつかあります。各データセットの値は、空間の座標を参照するX、Y、Zです。Z値は、座標ペア（x、y）での標高差を表します。通常、私のGISの分野では、標高誤差は、RMSEでグラウンドトゥルースポイントを測定ポイント（LiDARデータポイント）に差し引くことで参照されます。通常、最低20のグラウンドトゥルーシングチェックポイントが使用されます。このRMSE値を使用して、NDEP（National Digital Elevation Guidelines）およびFEMAガイドラインに従って、精度の尺度を計算できます：精度= 1.96 * RMSE。この基本精度は、「基本垂直精度とは、データセット間で垂直精度を公平に評価および比較できる値です。基本精度は、垂直RMSEの関数として95％の信頼水準で計算されます。」正規分布曲線の下の面積の95％が1.96 * std.deviation内にあることを理解していますが、それはRMSEとは関係ありません。一般的に私はこの質問をしています：2つのデータセットから計算されたRMSEを使用して、RMSEをある種の精度（つまり、データポイントの95％が+/- X cm以内にある）に関連付けるにはどうすればよいですか？また、このような大きなデータセットでうまく機能するテストを使用して、データセットが通常は分散されているかどうかをどのように判断できますか？正規分布にとって「十分」とは何ですか？すべての検定でp <0.05にする必要がありますか、それとも正規分布の形状と一致させる必要がありますか？次の論文で、このトピックに関する非常に優れた情報を見つけました。 http://paulzandbergen.com/PUBLICATIONS_files/Zandbergen_TGIS_2008.pdf

9 normal-distribution large-data

3

非常に大きなデータセットから重要な変数をすばやく選択するにはどうすればよいですか？

約2,000のバイナリ変数/ 200,000行のデータセットがあり、単一のバイナリ従属変数を予測しようとしています。この段階での私の主な目標は、予測の正確さを得ることではなく、これらの変数のどれが重要な予測子であるかを識別することです。最終モデルの変数の数を約100に減らしたいのですが。最も重要な変数を取得する比較的迅速な方法はありますか？randomForestに時間がかかっているようです。 200,000件すべてを使用する必要はないので、サンプリングはテーブルのオプションです。

9 machine-learning data-mining large-data

3

スペース効率の良いクラスタリング

私が見たほとんどのクラスタリングアルゴリズムは、すべてのポイント間にeach-to-each距離を作成することから始まります。これは、より大きなデータセットでは問題になります。それをしないものはありますか？それとも、それはある種の部分的/近似的/時差的なアプローチですか？ O（n ^ 2）スペースよりも少ないクラスタリングアルゴリズム/実装はどれですか？アルゴリズムのリストとその時間と空間の要件はどこかにありますか？

9 clustering algorithms large-data

2

標本がANOVAまたはt検定には大きすぎることはありますか？

100万近くのデータセットがあり、平均比較検定（ANOVAまたはt検定）を実行するたびに、SPSSで.0001未満の有意水準が得られます。私のサンプルが非常に大きいので、もちろん、平均を比較すると、大幅に異なるものとして表示されることを心配しています。標本がANOVAまたはt検定には大きすぎることはありますか？

9 anova t-test effect-size large-data

4

データセットの次元の推定

適用された統計の同僚が私にこれを送りました：「関数のドメインの真の次元を見つける方法を知っているかどうか疑問に思っていました。たとえば、円は2次元空間の1次元関数です。描画方法がわからない場合は、私が計算できる統計は、それが2次元空間の1次元オブジェクトであることを教えてくれますか？これを高次元の状況で行う必要があるため、絵を描くことができません。ここでの次元の概念は明らかに不明確です。つまり、高次元空間内の点の任意の有限コレクションを介して曲線を実行でき、データは1次元であると言えます。ただし、構成によっては、より高い次元のセットとしてデータを説明するためのより簡単またはより効率的な方法がある場合があります。そのような問題は統計文献で考慮されたに違いないが、私はそれについてよく知らない。ポインタや提案はありますか？ありがとう！

9 large-data

1

MCMCの反復ごとに大きなデータセットをサブサンプリングできますか？

問題：ギブスサンプリングを実行して、大規模なデータセットの事後を推測したい。残念ながら、私のモデルはそれほど単純ではないため、サンプリングが遅すぎます。私は変分的または並列的なアプローチを検討しますが、その前に... 質問：すべてのステップで学習するインスタンスが少なくなるように、ギブスの反復ごとにデータセットからランダムに（置き換えて）サンプリングできるかどうか知りたいのですが。私の直感は、サンプルを変更しても確率密度を変更しないため、ギブスサンプルはトリックに気付かないはずです。私は正しいですか？これを行った人々の言及はありますか？

8 sampling bootstrap mcmc large-data gibbs

1

ビッグデータ設定のランダムフォレスト

5,818,446行と51列のデータセットがあり、そのうちの50が予測変数です。私の応答は定量的であるため、回帰モデルに興味があります。キャレットパッケージを使用して、ランダムフォレストをデータに適合させようとしています。しかし、それを行うのに十分なRAMがありません。私は自分の問題の解決策を探していました。より強力なコンピューターを持っていることに加えて、バギングを利用して問題を解決できるようです。したがって、私の考えは次のとおりです。元のデータセットからトレーニングパーティションとテストパーティションの両方を作成する電車のデータセットの一部をRに置き換えたサンプル（その1％、つまり58,185行としましょう）データのこの小さな部分にランダムフォレストを当てはめるモデル結果を保存する手順2〜4を1,000回繰り返します手順2〜5から取得したこれらの1,000モデルを組み合わせるただし、ランダムフォレスト自体はバギングを使用してモデルをデータに適合させているため、私のアプローチが正しいかどうかはわかりません。したがって、いくつか質問があります。 i）私のアプローチは正しいですか？つまり、システムに十分なRAMがないため、さまざまなランダムフォレストモデルをさまざまなデータチャンクに適合させ、それらを後で結合することは正しいのでしょうか。 ii）私のアプローチが正しいと仮定すると、データの1％がサンプルサイズの良い目安になりますか？データの1％でも、ます。N » Pん≫pn \gg p iii）私のアプローチが正しいと仮定すると、使用する必要のあるモデルのレプリケーションは多数ありますか？理由で1,000個と思いました。

8 r random-forest large-data

5

大規模なサンプルで無関係なリグレッサが統計的に有意になるのはなぜですか？

統計的有意性、効果の大きさなどをよりよく理解しようとしています。大規模なサンプルでは、無関係なリグレッサでさえ統計的に有意になることがよくあるという認識があります（おそらく間違っています）。無関係な私回帰は、従属変数に関連しなければならない理由は何の主題の説明がないことを意味します。したがって、この投稿の無関係性は純粋な主題概念であり、統計的概念ではありません。（ここで説明するように）母集団の影響が正確にゼロでない限り、十分に大きなサンプルが与えられれば、リグレッサは統計的に有意であることを知っています。したがって、大きなサンプルで統計的に有意であると思われる無関係なリグレッサは、母集団でゼロ以外の効果サイズを持っています。質問：無関係なリグレッサが統計的に有意であることが判明するのはなぜですか？主題の説明を探す必要がありますか（つまり、関連性を否定しようとします）、これは統計的な現象ですか？これは、私がこの効果をどのように治すかを明確にしようとしていた投稿の続きです。一方、ここで、なぜそもそもそれが起こるのかを尋ねています。

8 regression statistical-significance effect-size large-data

2

膨大なデータセットが与えられた場合、なぜ統計モデルは過剰適合しますか？

現在のプロジェクトでは、特定のグループの行動を予測するモデルを構築する必要があるかもしれません。トレーニングデータセットには6つの変数のみが含まれます（idは識別目的のみです）。 id, age, income, gender, job category, monthly spend その中で monthly spend応答変数です。ただし、トレーニングデータセットには約300万行が含まれid, age, income, gender, job category、予測されるデータセット（応答変数は含まれるが、含まれない）には100万行が含まれます。私の質問は、統計モデルにあまりにも多くの行（この場合は300万行）を投げた場合に潜在的な問題はありますか？計算コストが懸念事項の1つであることを理解していますが、他に懸念事項はありますか？データセットのサイズの問題を完全に説明している本/紙はありますか？

8 modeling large-data overfitting clustering algorithms error spatial r regression predictive-models linear-model average measurement-error weighted-mean error-propagation python standard-error weighted-regression hypothesis-testing time-series machine-learning self-study arima regression correlation anova statistical-significance excel r regression distributions statistical-significance contingency-tables regression optimization measurement-error loss-functions image-processing java panel-data probability conditional-probability r lme4-nlme model-comparison time-series probability probability conditional-probability logistic multiple-regression model-selection r regression model-based-clustering svm feature-selection feature-construction time-series forecasting stationarity r distributions bootstrap r distributions estimation maximum-likelihood garch references probability conditional-probability regression logistic regression-coefficients model-comparison confidence-interval r regression r generalized-linear-model outliers robust regression classification categorical-data r association-rules machine-learning distributions posterior likelihood r hypothesis-testing normality-assumption missing-data convergence expectation-maximization regression self-study categorical-data regression simulation regression self-study self-study gamma-distribution modeling microarray synthetic-data

1

スター座標と主成分分析

現在、「ビジュアルデータ分析」の大学コースのプレゼンテーションを準備しています。そして、私のトピックの1つは「Star Coordinate」の視覚化です。スター座標 Star Coordinatesが高次元データの変換を実行し、よく知られているPCA技法もそれを実行するので、PCAをStar Coordinatesで模倣できるかどうか疑問に思いますか？元の変数の線形結合を表すように座標軸を並べ替えると思いますか？しかし、これは単なるアイデアです。誰かがこれを確認または反証できますか？

8 data-visualization pca large-data

2

大規模データのSASの代替としてのR

SASのようなものは逐次分析を行うのに対し、Rはすべてのデータをメモリにロードすることを考えると、Rは大きなデータセットの分析には特に役立ちません。とはいえ、ユーザーがRでより効率的に大規模データ分析（統計分析）を実行できるようにするbigmemoryのようなパッケージがあります。私は、すべての理論的な情報とは別に、エンタープライズ環境で大規模なデータセットを分析するためにRを使用したり使用したりしている人や、発生する可能性のある典型的な問題を知りたいと思っていました。大きなデータセットとは、サイズが最大200 GBのデータセットを指します。また、そのようなユースケースでSASからRに移行する実際の例についての考えは参考になります。

8 r sas large-data

3

非常に大きなファイルからのサンプルで回帰を行っています。サンプル係数の平均とSEは、一貫した推定量ですか？

100M行30列程度のかなり大きなファイルがあり、その上で複数の回帰を実行したいと思います。私はファイル全体で回帰を実行するための特別なコードを持っていますが、私がしたいことは、ファイルからランダムなサンプルを描画してRで実行することです。戦略は次のとおりです。対象の係数を保存し、係数ごとに異なるサンプルを使用してこのプロセスをM回繰り返し、M回の実行に対する係数の平均と標準誤差を計算します。 Mランで計算された平均を、データセット全体で計算された係数の値の推定値として解釈し、平均の標準誤差を、データセット全体で計算された係数の標準誤差の推定値として解釈したいと思います。実験はこれが有望な戦略であることを示していますが、根本的な理論についてはわかりません。私の推定者は一貫して効率的で偏っていませんか？それらが一貫している場合、どれくらい早く収束すべきですか？MとNのどのトレードオフが最適ですか？誰かが私に関連理論を使って論文や本などを教えてもらえれば幸いです。今後ともよろしくお願いいたします。ジョー・リッカート

8 r regression large-data bootstrap

3

統計における密行列の使用にはどのようなものがありますか？

わかりました、私は統計学者ではありません（近いわけではありません）。私はハイパフォーマンスコンピューティングの研究者であり、大規模な（5000x5000を超える）高密度行列のテストケースをいくつか望んでいました。私はここと他のいくつかの場所に尋ねましたが、統計家からの返事はありませんでした。統計の問題について自分のコードを試すことに非常に興味があります。解決する必要がある統計のアプリケーションを提案できますかAx=bAx=bAx=b xの場合 AAA 密で正方形です。 Aに構造がない、つまり対称性がない、正定性がないなどのアプリケーションも提供していただければ幸いです。しかし、それは必ずしも必要ではありません。適切なアプリケーションを備えた大規模な密行列で十分です。この質問が未解決または曖昧に見える場合は申し訳ありませんが、この質問をするためのより良い場所を想像することはできません。

8 large-data matrix

2

大規模なデータで不正な変数をすばやく検出するにはどうすればよいですか？

数百万行、数千列のデータセットがあり、タスクはバイナリ分類であるとします。ロジスティック回帰モデルを実行すると、パフォーマンスは予想よりもはるかに優れています（たとえば、ほぼ完全な分類）。データに不正な変数があると思われますが、どうすればすばやく検出できますか？ここで不正な変数とは、応答を非常に示す変数であり、使用すべきではありません。たとえば、ユーザーがカスタマーサービスに電話をかけた場合に使用して、その人が製品を購入したかどうかを予測します。

7 algorithms linear large-data high-dimensional

タグ付けされた質問 「large-data」

タグ付けされた質問「large-data」