タグ付けされた質問 「large-data」

「大規模なデータ」とは、観測(データポイント)の数が多すぎて、データアナリストの考え方や分析の方法を変更する必要がある状況を指します。(「高次元」と混同しないでください。)

1
大規模なデータセットの正規性のテスト-どのようにして信頼できますか?
2つのグループにグループ化された、1から1690の範囲の46840のdouble値を含むデータセットの一部を調べています。これらのグループ間の違いを分析するために、適切な検定を選択するために値の分布を調べることから始めました。 正規性のテストに関するガイドに従って、qqplot、ヒストグラム、ボックスプロットを行いました。 これは正規分布ではないようです。ガイドでは、純粋にグラフィカルな検査では不十分であるといくらか正しく述べているため、分布の正規性もテストしたいと思います。 データセットのサイズとRでのshapiro-wilksテストの制限を考慮して、与えられた分布の正規性をどのようにテストし、データセットのサイズを考慮すれば、これも信頼できますか?(この質問に対する承認された回答を参照してください) 編集: 私が言及しているShapiro-Wilkテストの制限は、テストされるデータセットが5000ポイントに制限されていることです。このトピックに関する別の良い答えを引用するには: Shapiro-Wilkのテストのもう1つの問題は、より多くのデータをフィードすると、帰無仮説が拒否される可能性が大きくなることです。したがって、大量のデータの場合、正規性からのごくわずかな逸脱でも検出できるため、実用的な目的では、帰無仮説イベントハフが拒否され、データは通常よりも十分に多くなります。 [...]幸いにも、shapiro.testは、データサイズを5000に制限することにより、上記の影響からユーザーを保護します。 そもそもなぜ正規分布をテストしているのか: 一部の仮説検定は、データの正規分布を前提としています。これらのテストを使用できるかどうかを知りたい。

4
ビッグデータを使用した仮説検定
ビッグデータを使用して仮説検定をどのように実行しますか?私の混乱を強調するために、次のMATLABスクリプトを作成しました。それが行うことは、2つのランダムな系列を生成し、1つの変数を他の変数に対して単純な線形回帰を実行することだけです。異なるランダム値を使用してこの回帰を数回実行し、平均を報告します。発生する傾向があるのは、サンプルサイズを大きくすると、平均してp値が非常に小さくなることです。 検定の検出力はサンプルサイズと共に増加するため、十分な大きさのサンプルが与えられた場合、pデータは、仮説検定を拒否するのに十分なほど小さくなります。私は周りに尋ねました、そして、何人かの人々は「ビッグデータ」で効果サイズを見ることはより重要であると言いました、すなわち。テストが重要であり、かつ気になるほどの効果があるかどうか。これは、サンプルサイズが大きい場合、ここで説明するように、p値が非常に小さな差異を拾うためです。 ただし、効果のサイズはデータのスケーリングによって決定できます。以下では、説明変数を十分に小さな大きさにスケーリングして、十分に大きなサンプルサイズを指定すると、従属変数に大きな影響を与えます。 これらの問題が存在する場合、どのようにしてビッグデータから洞察を得ることができるのでしょうか。 %make average %decide from how many values to make average obs_inside_average = 100; %make average counter average_count = 1; for average_i = 1:obs_inside_average, %do regression loop %number of observations n = 1000; %first independent variable (constant term) x(1:10,1) = 1; %create dependent variable and the one …

1
モデルの検索をいつ停止する必要がありますか?
エネルギーのストックプライスと天気のモデルを探しています。私は、ヨーロッパの国々の間で購入したMWattの価格と、天気に関する多くの価値を持っています(Gribファイル)。5年(2011-2015)の各時間。 価格/日 これは1年間、1日あたりです。私はこれを5時間に1時間ごとに持っています。 天気の例 ケルビンでの1時間の3Dscatterplot。1時間あたりのデータごとに1000個の値と、クレビン、風、地理ポテンシャルなどの200個のデータがあります。 私は、MWの1時間あたりの平均価格を予測しようとしています。 天気に関する私のデータは非常に密度が高く、1時間あたり10000値を超えるため、高い相関関係があります。これは、短いビッグデータの問題です。 私は、ラッソー、リッジ、SVRの方法を試し、MWattの平均価格を結果として、天気のデータを収入として使用しました。トレーニングデータとして70%、テストとして30%を使用しました。テストのデータが予測されていない場合(トレーニングデータ内のどこかにある場合)、適切な予測が得られます(R²= 0.89)。しかし、私は自分のデータを予測したいと思います。 したがって、テストデータが私のトレーニングデータの後に時系列である場合、何も予測されません(R²= 0.05)。時系列なので、普通だと思います。そして、多くの自己相関があります。 ARIMAのようなタイムセリエモデルを使わないといけないと思いました。メソッドの順序(セリエが静止している)を計算してテストしました。しかし、それは動作しません。つまり、予測のr²は0.05です。テストデータに対する私の予測は、テストデータに対する予測とはまったく異なります。私は自分の天気をリグレッサとしてARIMAXメソッドを試しました。つまり、情報は追加されません。 ACF / PCF、テスト/トレーニングデータ だから私は一日あたり、そして週あたりの季節のカットをしました 日 最初のトレンドの週 そして、私の株価のトレンドの傾向を事前に判断できれば、これを得ることができます: 青は私の予測であり、赤は実際の値です。 天気のローリング平均を収入として、株価のトレンドのトレンドを結果として回帰を行います。しかし、今のところ、私はどんな関係も見つけていません。 しかし、相互作用がない場合、何もないことをどうやって知ることができますか?多分それは私がそれを見つけていないだけのことです。

1
Rでの大規模なデータセットの処理—チュートリアル、ベストプラクティスなど
私はRの大規模なデータセットに対してさまざまな種類の分析を行う必要があるRの初心者です。そのため、このサイトや他の場所を見回していると、ここには難解であまり知られていない問題がたくさんあるようです。どのパッケージをいつ使用するか、どの変換をデータに適用する(適用しない)かなど。 これらすべてをわかりやすく説明し、体系的な方法で情報を提示する本/チュートリアル/ガイドがあるかどうか、私はただ疑問に思っていますか?私は周りを見回して、さまざまなソースからの情報をオンラインで照合するよりも、これを行うことを好みます。 前もって感謝します。
11 r  large-data 

1
大規模なPCAも可能ですか?
主成分分析(PCA)の古典的な方法は、列の平均がゼロである入力データマトリックスで行う(PCAが「分散を最大化できる」)方法です。これは、列を中央に配置することで簡単に実現できます。ただし、入力マトリックスがスパースの場合、中央に配置されたマトリックスはスパースになり、マトリックスが非常に大きい場合、メモリに収まりません。ストレージの問題に対するアルゴリズム的な解決策はありますか?

3
が大きい場合のネストされたバイナリロジスティック回帰モデルの比較
より良い私の質問をするために、私は16変数モデル(両方からの出力のいくつか提供しているfit)と17変数モデル(fit2下記)を(これらのモデル内のすべての予測変数は、これらのモデル間の唯一の違いはそれがどこにあるか、連続してfitいません変数17(var17)を含む): fit Model Likelihood Discrimination Rank Discrim. Ratio Test Indexes Indexes Obs 102849 LR chi2 13602.84 R2 0.173 C 0.703 0 69833 d.f. 17 g 1.150 Dxy 0.407 1 33016 Pr(> chi2) <0.0001 gr 3.160 gamma 0.416 max |deriv| 3e-05 gp 0.180 tau-a 0.177 Brier 0.190 fit2 Model Likelihood Discrimination …

3
大規模な時系列データをインタラクティブに表示する方法は?
私は、適切なサイズの時系列データを処理することが多く、タイムスタンプが5億から2億倍になり、タイムスタンプを動的に視覚化したいと考えています。 これを効果的に行うための既存のソフトウェアはありますか?ライブラリとデータ形式はどうですか?ズームキャッシュは、大規模な時系列に焦点を当てたライブラリの一例です。ズームキャッシュでは、さまざまな解像度で見やすくするために、データがいくつかの解像度で要約されます。 編集:また、この質問をするか、答えを探す必要がある場合は、お知らせください。

1
非常に大きな時系列データセットを処理する
非常に大きなデータセットにアクセスできます。データは、4つのジャンルのうちの1つからの、音楽の抜粋を聞いている人々のMEGレコーディングからのものです。データは次のとおりです。 6科目 3実験の繰り返し(エポック) エポックあたり120回の試行 275 MEGチャネルから500Hz(= 4000サンプル)で試行あたり8秒のデータ したがって、ここでの各「例」はサイズ[4000x275]の行列であり、そのような例は2160あり、これは特徴抽出の前です。目標は、脳の信号に基づいてジャンルを予測することです(4クラス分類)。 明らかに、ここにはいくつかの挑戦的な問題があります。 データセットがメモリに収まりません データには強い時間的相関があり、被験者間の変動は非常に大きくなります。その結果、データを分割する方法は明らかではありません S / N比が非常に低い 分類子の正しい機能が何であるかは明らかではありません これらを順番に取ります: できることはいろいろあります。まず、ナイキスト制限を考慮しても、100Hzを超えると脳の活動が実際に発生しないため、500Hzから〜200Hzに安全にダウンサンプリングできます。一連のチャネルからサブサンプリングすることもできます(たとえば、聴覚領域の中心)が、関心のある他の領域(前頭など)でアクティビティが発生する可能性があるため、これを先験的に行うことは避けます。時間枠の一部を削除することもできます。おそらく、最初の2つだけがタスクにとって重要ですか?それは本当に知られていない。もちろん、誰もが「叫び次元削減を! "ですが、それも簡単なことではありません。最初に、トレーニング/テストの分割(2を参照)に非常に注意する必要があり、これを機能の生成前または後に行うかどうかも明確ではありません。次に、高価なもの以外相互検証、または骨の折れる目視検査では、適切な方法または適切な次元数のいずれかを選択する明白な方法はありません。もちろん、PCA、ICA、またはランダムな投影法などを使用して、最善の結果を期待できます。 これはトリッキーです。トレーニングセットに連続するサンプルがある場合、トレーニングセットにオーバーフィットする可能性があります。一方、連続するサンプルがトレーニングセットとテストセットに分割される場合、トレーニングセットにアンダーフィットする可能性がありますが、テストセットにオーバーフィットする可能性があります。ここにはさまざまなオプションがあるようです: 単一主題分類。個々の主題を自分で取り、時代に応じて分割します。私たちは脳全体を予測しようとしているわけではないので、これは最も簡単な作業です。この中で、クロス検証のために2つの残りのエポックを使用できます。完全を期すために、すべての組み合わせをローテーションする必要があります。すべての被験者の平均精度を報告します。もちろん、これらのモデルが一般化することはまったく期待できません。 被験者分類内。一緒にすべての主題を取り、時代に従って分割します。これは、トレーニング中のすべての被験者を見てきたので、実際には最も簡単な作業かもしれません。ただし、モデルが新しい主題にうまく一般化するとは思わないでしょう。この中で、クロス検証のために2つの残りのエポックを使用できます。完全を期すために、すべての組み合わせをローテーションする必要があります。 被験者間分類。「Leave-one-out」とも呼ばれ、1人の被験者がテストデータとして使用され、残りはトレーニングに使用されます。次に、すべての主題を回転させます。次に、被験者に対して交差検証が実行されます。毎回「新しい脳」を予測しようとしているので、これははるかに困難な作業になると予想します。ここでは、テストと再テストの信頼性(つまり、時間的相関によってどれだけ過剰適合が引き起こされるか)の問題がありますが、モデルはより大きな母集団にうまく一般化すると予想されます。 これは古典的な「干し草の中の針」の問題です。音楽ジャンルの認識やジャンル固有の処理に関連する実際の信号は、脳内の活動の「スープ」と比較するとごくわずかです。部分的にしか削除できない顕著なアーティファクトもあります(主に移動に関連)。データから派生した機能、およびデータの処理方法は、対象の信号の一部を破壊しないようにする必要があります。 ここでは、さまざまなことを想像できます。1つ目は、生のデータ(ベクターに連結されたもの)を特徴ベクトルとして使用することです。それがどれほど実り多いかはわかりませんが、これらのベクトルはおそらく本質的に一様にランダムであると思います。これは実際には信号処理の問題ですが、従うことができるいくつかの一般的なガイドラインがあります。1つは、スライディングウィンドウ上で標準のフーリエ解析を実行することです。ここから、コンポーネントを個別の周波数帯域(アルファ/ベータ/ガンマなど)に分割でき、これらの統計(平均、標準偏差)を機能として使用できます。または、ウェーブレットやヒルベルト変換を使用したり、混沌としたアトラクタを探したりすることもできます。もちろん、順列の数を増やすカーネル(線形、多項式、RBFなど)を選択できます。おそらく、ここで行う最善の方法は、できるだけ多くの異なる機能セットを生成し、MKLまたはブースティングメソッドを使用してそれらを組み合わせることです。 この種類のデータセットにどのように取り組みますか(特にこのデータセットでない場合)?途中で見逃したことはありますか?研究者の時間と計算リソースに限りなく費やすことなく、成功する可能性が最も高い戦略は何ですか?

3
巨大なデータセットから学ぶときのアプローチ?
基本的に、巨大なデータセットに対して学習するには、2つの一般的な方法があります(時間/スペースの制限に直面している場合)。 不正行為:)-「管理可能な」サブセットのみをトレーニングに使用します。リターンの減少の法則により、精度の損失は無視できる場合があります。モデルの予測パフォーマンスは、すべてのトレーニングデータがモデルに組み込まれる前に、通常はフラットになります。 並列計算-問題を小さな部分に分割し、それぞれを別々のマシン/プロセッサーで解決します。ただし、アルゴリズムの並列バージョンが必要ですが、よく知られたアルゴリズムの多くは自然に並列です:最近傍、決定木など。 他の方法はありますか?それぞれを使用するときの経験則はありますか?それぞれのアプローチの欠点は何ですか?

2
母集団全体のデータが利用できる場合、信頼区間を計算し、仮説をテストすることは理にかなっていますか?
母集団全体のデータが利用できる場合、信頼区間を計算し、仮説をテストすることは理にかなっていますか?私の意見では、パラメーターの真の値を正確に計算できるため、答えは「いいえ」です。しかし、それでは、前述の手法を使用できるようにする元の母集団からのデータの最大比率はどのくらいですか?

1
K-means:実際の状況での反復回数は?
私はデータマイニングやビッグデータの業界での経験がないので、いくつかの経験を共有してほしいと思います。 人々は実際に本当に大きなデータセットでk-means、PAM、CLARAなどを実行していますか?または、ランダムにサンプルをランダムに選択しますか?データセットのサンプルを取得するだけの場合、データセットが正常に分散されていなければ、結果は信頼できますか? これらのアルゴリズムを実行する実際の状況では、収束が発生するまでに通常何回の反復が必要かを知ることができますか?または、反復の数は常にデータサイズとともに増加しますか? 収束する前に反復アルゴリズムを終了するアプローチを開発しようと考えていますが、結果はまだ許容範囲なので、これを求めています。計算のコストと時間を節約できるように、反復数が1,000を超える場合は、試してみる価値があると思います。どう思いますか?

2
高次元データセットのガウスプロセス回帰
高次元データセットにガウスプロセス回帰(GPR)を適用した経験があるかどうかを確認したいだけです。さまざまなスパースGPRメソッド(スパース疑似入力GPRなど)のいくつかを調べて、機能選択がパラメーター選択プロセスの一部である高次元データセットで何が機能するかを確認します。 論文/コード/またはさまざまな方法を試してみてください。 ありがとう。

2
スケーラブルな次元削減
特徴の数が一定であることを考えると、Barnes-Hut t-SNEはの複雑さを持ち、ランダムな投影とPCAは複雑さを持ち、非常に大きなデータセットに対して「手頃」になります。O(nlogn)O(nlog⁡n)O(n\log n)O(n)O(n)O(n) 一方、多次元スケーリングに依存するメソッドは複雑さを持っています。O(n2)O(n2)O(n^2) 複雑さがよりも低い他の次元削減手法(もちろん、最初の列を見るような簡単な手法を除くますか?kkkO(nlogn)O(nlog⁡n)O(n\log n)

6
hadoop / map-reduceを使用してスケーリングできる機械学習アルゴリズム
スケーラブルな機械学習アルゴリズムは最近流行しているようです。どの企業もビッグデータ以外の何も扱っていません。Map-Reduceのような並列アーキテクチャを使用してスケーリングできる機械学習アルゴリズムと、そうでないアルゴリズムについて説明した教科書はありますか?またはいくつかの関連論文?

2
混合モデルのパラメトリック、セミパラメトリック、ノンパラメトリックブートストラップ
以下の移植片は、この記事から引用したものです。私はブートストラップの初心者であり、R bootパッケージを使用した線形混合モデルのパラメトリック、セミパラメトリック、ノンパラメトリックのブートストラップブートストラップを実装しようとしています。 Rコード これが私のRコードです: library(SASmixed) library(lme4) library(boot) fm1Cult <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=Cultivation) fixef(fm1Cult) boot.fn <- function(data, indices){ data <- data[indices, ] mod <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=data) fixef(mod) } set.seed(12345) Out <- boot(data=Cultivation, statistic=boot.fn, R=99) Out ご質問 …
9 r  mixed-model  bootstrap  central-limit-theorem  stable-distribution  time-series  hypothesis-testing  markov-process  r  correlation  categorical-data  association-measure  meta-analysis  r  anova  confidence-interval  lm  r  bayesian  multilevel-analysis  logit  regression  logistic  least-squares  eda  regression  notation  distributions  random-variable  expected-value  distributions  markov-process  hidden-markov-model  r  variance  group-differences  microarray  r  descriptive-statistics  machine-learning  references  r  regression  r  categorical-data  random-forest  data-transformation  data-visualization  interactive-visualization  binomial  beta-distribution  time-series  forecasting  logistic  arima  beta-regression  r  time-series  seasonality  large-data  unevenly-spaced-time-series  correlation  statistical-significance  normalization  population  group-differences  demography 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.