タグ付けされた質問 「large-data」

「大規模なデータ」とは、観測(データポイント)の数が多すぎて、データアナリストの考え方や分析の方法を変更する必要がある状況を指します。(「高次元」と混同しないでください。)

4
新しいベクターをPCA空間に投影する方法は?
主成分分析(PCA)を実行した後、新しいベクトルをPCA空間に投影します(つまり、PCA座標系で座標を見つけます)。 を使用してR言語でPCAを計算しましたprcomp。これで、ベクトルにPCA回転行列を掛けることができるはずです。このマトリックスの主成分を行または列に配置する必要がありますか?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

1
* 100万*の係数/独立変数を使用して多変量回帰分析を実際に実行しますか?
私は機械学習の学習に少し時間を費やしています(再帰はごめんなさい:)、多変量線形回帰の場合、回帰係数を計算するための直接方程式の解法よりも勾配降下法を選択するという経験則に興味をそそられることはありませんでした。 経験則:特徴の数は、(係数/独立変数を読み取る)の間にある場合又は百万を超えると、勾配降下で行く、計算逆他の行列は汎用ハードウェア上でかなり扱いであり、したがって、コンピューティング係数は直接十分に機能するはずです。10 、000 - 1 、000 、00010、000−1、000、00010,000 - 1,000,000 計算上言えば、トレードオフ/制限があります。しかし、統計的な観点から、これほど多くの係数を持つモデルを実際に計算できますか?大学院の多変量線形回帰クラスを覚えている場合、独立変数は従属変数に非常に無視できる影響を与えるか、その分布がデータについての仮定に従わない可能性があるため、あまり多くの独立変数を使用しないように注意しました。「多くのIV」を考えるように心を広げたとしても、何百万も考えたことはありませんでした。 質問: これは本当に起こりますか、それとも理論的な問題ですか? 100万個のIVを分析する意味は何ですか?情報を無視するのではなく、得られる情報の価値を大幅に高めることができますか? それとも、最初は何が役に立つのかわからないので、いまいましい回帰を実行して何が役に立つかを確認し、そこから行ってIVのセットをプルーニングするだけでしょうか? 「すべて」を分析できるからといって、それをソルバーに投げ込む(または実行する)ことを意味するわけではなく、過去の質問のいくつかが同様のPOVを反映しているからです。 私はまだコースを終えておらず、すぐに質問をするかもしれませんが、この「なぜ」思考を頭から外すことができず、私の能力を最大限に理解しようとしています。

6
コア外のデータ分析オプション
私はSASを5年近くプロとして使用しています。私はそれをラップトップにインストールし、1,000〜2,000の変数と数十万の観測値を持つデータセットを頻繁に分析する必要があります。 私は、同様のサイズのデータ​​セットで分析を実行できるSASの代替を探しています。このような状況で他の人が何を使用するのか興味があります。これは確かに、今日使用されている方法では「ビッグデータ」ではありません。また、私のデータセットはメモリ内に保持するのに十分なほど小さくありません。ハードドライブに保存されたデータにアルゴリズムを適用できるソリューションが必要です。これらは私が役に立たないと調査したものです: R-BigMemoryはメモリ外に格納された行列を作成できますが、要素は同じモードでなければなりません。私は、文字と数値がほぼ50/50に分割されているデータを使用しています。FFパッケージは必要なものに近づきますが、どのプロシージャがFFパッケージと互換性があるのか​​よくわかりません。サポートはやや限られていると思います。 Pandas-RのPythonの代替案に非常に興奮しました。しかし、それもすべてのデータをメモリに保持する必要があります。 Revolution R-これはかなりの見込みを示しています。自宅のコンピューターにコピーがあり(Kaggleにサインアップした場合は無料)、SASの実行可能な代替手段としてまだテストしていません。SASの代替としてのRevolution Rに関するコメントは大歓迎です。 ありがとう 更新1 編集して、私が実際に使っている実用的なソリューションを探しています。ほとんどの場合、SASを使用すると、メモリの制約について少し心配することなく、大きなファイルを一気に検索できます。SASが実装されている場合、メモリ管理をユーザーに対して透過的にする方法を見つけました。しかし、私は仕事にSASを使用しなければならなかったので、データがどこにあるのかをあまり考えずに「大きな」データに取り組むことができるFOSSの代替手段が大好きです。特定の時間(メモリ内またはディスク上)。 私が遭遇した最も近いものは、RのFFパッケージとPythonの地平線上にあるBlazeと呼ばれるものです。それでも、これらの問題は長年にわたって存在していたので、その間にアナリストは何をしていたのでしょうか?メモリ制限でこれらの同じ問題をどのように処理していますか?提供されているソリューションの大部分は次のようです。 RAMを増やす-これは良い解決策ではありません、imo。RAMを超えてもハードドライブに収まるデータセットを簡単に見つけることができます。さらに、ワークフローは、探索的データ分析中に作成されるすべての構造に対応する必要があります。 データのサブセット化-これは調査には適していますが、結果とレポートの最終処理には適していません。最終的には、サブセットで開発されたプロセスはすべて、データセット全体に適用する必要があります(私の場合、とにかく)。 データのチャンク-これは、このワークフローを実際に実装している人々からもっと知りたいことです。どうやって?どのツールで?ユーザーに対して透過的な方法で実行できますか?(つまり、ディスク上のデータ構造を作成し、フレームワークが内部のチャンクを処理します)。
18 r  sas  large-data 

5
大きなデータでのポアソン回帰:測定単位を変更するのは間違っていますか?
ポアソン分布の階乗のため、観測値が大きい場合、ポアソンモデルを推定することは(たとえば、最尤法を使用して)非実用的になります。たとえば、特定の年の自殺者数を説明するモデルを推定しようとしている場合(年間データのみが利用可能です)、たとえば、毎年何千人も自殺しているとすると、自殺者を数百人で表現するのは間違っていますか? 、したがって2998は29.98〜= 30になりますか?つまり、データを管理しやすくするために測定単位を変更するのは間違っていますか?

5
平均絶対偏差と大規模なデータセットのオンラインアルゴリズム
私にはちょっとした問題があります。多変量時系列のオンライン取得プロセスの手順を作成する必要があります。すべての時間間隔(たとえば1秒)で、基本的にサイズNの浮動小数点ベクトルである新しいサンプルを取得します。実行する必要がある操作は少し複雑です。 新しいサンプルごとに、要素の合計が1になるようにベクトルを正規化して、そのサンプルのパーセントを計算します。 同じ方法で平均パーセントベクトルを計算しますが、過去の値を使用します。 過去の各値について、ステップ2で計算されたグローバル平均パーセントベクトルを使用して、そのサンプルに関連するパーセントベクトルの絶対偏差を計算します。この方法では、絶対偏差は常に0(ベクトルが平均に等しい場合)ベクトル)および2(完全に異なる場合)。 前のすべてのサンプルの偏差の平均を使用して、平均絶対偏差を計算します。これは、0〜2の数値です。 平均絶対偏差を使用して、新しいサンプルが他のサンプルと互換性があるかどうかを検出します(その絶対偏差を、ステップ4で計算されたセット全体の平均絶対偏差と比較します)。 新しいサンプルが収集されるたびにグローバル平均が変化するため(平均絶対偏差も変化するため)、データセット全体を複数回スキャンせずにこの値を計算する方法はありますか?(グローバル平均パーセントの計算に1回、絶対偏差の収集に1回)。わかりました。各次元の合計を保存するために一時的なベクトルを使用するだけなので、セット全体をスキャンせずにグローバル平均を計算するのは非常に簡単ですが、平均絶対偏差はどうですか?その計算にはabs()演算子が含まれているため、過去のすべてのデータにアクセスする必要があります! ご協力いただきありがとうございます。

4
評判に対する投票の影響の分析を改善するにはどうすればよいですか?
最近、私はアップボットに対する評判の影響の分析を行い(ブログ投稿を参照)、その後、より啓発的な(またはより適切な)分析とグラフィックスについていくつか質問をしました。 いくつか質問があります(特に特定の人には自由に回答し、他の人は無視してください)。 現在の化身の中で、私は郵便番号を中央に置くつもりはありませんでした。これは、ポストカウントの下限に向かってより多くのポストがあるため、散布図に負の相関の誤った外観を与えることだと思います(これは、Jon Skeetパネルではなく、定命のユーザーでのみ発生しますパネル)。ポスト番号の平均を中心にしないのは不適切ですか?(ユーザーの平均スコアごとにスコアを中心にしたからです) グラフから、スコアが非常に右に歪んでいることが明らかであるはずです(そして、平均センタリングはそれを変更しませんでした)。回帰直線をフィッティングするとき、線形モデルと、Huber-White sandwhichエラー(rlmMASS Rパッケージを使用)を使用するモデルの両方にフィッティングしますが、勾配推定値に違いはありませんでした。ロバスト回帰の代わりにデータへの変換を検討すべきでしたか?変換では、0および負のスコアの可能性を考慮する必要があることに注意してください。または、OLSの代わりにカウントデータに他のタイプのモデルを使用する必要がありましたか? 一般に、最後の2つのグラフィックスは改善できると考えています(また、改善されたモデリング戦略にも関連しています)。私の(うんざりした)意見では、評判の効果が本当かどうかはポスターの歴史のかなり早い段階で実現されるのではないかと疑います(本当なら、これらは再考されるかもしれません。 「合計スコアによる評判」効果の代わりに「投稿」)。オーバープロットを考慮しながら、これが正しいかどうかを示すためにグラフィックを作成するにはどうすればよいですか?これを実証する良い方法は、フォームのモデルに適合することだと思いました。 Y=β0+β1(X1)+α1(Z1)+α2(Z2)⋯αk(Zk)+γ1(Z1∗X1)⋯γk(Zk∗X1)+ϵY=β0+β1(X1)+α1(Z1)+α2(Z2)⋯αk(Zk)+γ1(Z1∗X1)⋯γk(Zk∗X1)+ϵY = \beta_0 + \beta_1(X_1) + \alpha_1(Z_1) + \alpha_2(Z_2) \cdots \alpha_k(Z_k) + \gamma_1(Z_1*X_1) \cdots \gamma_k(Z_k*X_1) + \epsilon ここで、は(現在の散布図と同じ)、X 1は、Z 1はYYYscore - (mean score per user)X1X1X_1post number例えばポスト番号のいくつかの任意の範囲を表すダミー変数(ある Z 1つの等しいポスト番号である場合、 Zポスト番号がなどの場合、 2は等しくなります)。β 0Z1⋯ZkZ1⋯ZkZ_1 \cdots Z_kZ1Z1Z_111 through 25Z2Z2Z_2126 through 50β0β0\beta_0及びそれぞれグランドインターセプト及び誤差項です。次に、推定γを調べますϵϵ\epsilonγγ\gamma評判の影響がポスターの歴史の早い段階で出現したかどうかを判断する(またはグラフィカルに表示する)スロープ。これは合理的な(そして適切な)アプローチですか? ある種のノンパラメトリックな平滑化線をこれらのような散布図(黄土やスプラインなど)に適合させることは一般的なようですが、スプラインを使った私の実験では啓発的なものは何も明らかになりませんでした(ポスターの歴史の早い段階でのポスト効果の証拠はわずかで気まぐれでした)私が含めたスプラインの数に)。私は効果が早期に起こるという仮説を持っているので、上記のモデリングアプローチはスプラインよりも合理的ですか? また、私はこのデータのすべてをdrしましたが、調べるべき他のコミュニティがまだたくさんあります(スーパーユーザーやサーバーフォールトのようなものは同様に大きなサンプルを引き出しています)ので、将来提案するのは十分合理的ですホールドアウトサンプルを使用して関係を調べる分析。

5
大量のデータをグラフィカルに表示する良い方法
私は、14の変数と345,000の住宅データの観測(建設された年、面積、販売価格、居住郡など)を含むプロジェクトに取り組んでいます。良いグラフィカルなテクニックと、素敵なプロットテクニックを含むRライブラリを見つけようとしています。 ggplotとラティスで何がうまく機能するかをすでに見ています。数値変数のいくつかについてバイオリンプロットを行うことを考えています。 明確で洗練された、最も重要な、簡潔な方法で、大量の数値または因子タイプの変数を表示するために、他のどのパッケージが推奨されますか?

4
サンプルサイズが非常に大きい場合の信頼区間
私の質問は、特に雑誌の出版物については、「ビッグデータを使用してサンプリングエラーを評価する方法」と言い換えることができます。課題を説明するための例を次に示します。 非常に大規模なデータセット(100を超える病院の100,000を超える一意の患者と処方薬)から、特定の薬を服用している患者の割合を推定することに興味がありました。この比率を取得するのは簡単です。nは非常に大きいため、その信頼区間(パラメトリックまたはブートストラップなど)は非常にタイト/ナローです。サンプルサイズが大きいことは幸運ですが、エラー確率のいくつかの形式を評価、提示、および/または視覚化する方法を探しています。信頼区間(例:95%CI:.65878-.65881)を入力/視覚化することは(誤解を招くものではないにしても)役に立たないように見えますが、不確実性に関するいくつかの陳述を避けることも不可能と思われます。 ご意見をお聞かせください。このトピックに関する文献をいただければ幸いです。サンプルサイズが大きい場合でも、データの過剰な信頼を回避する方法。

3
縦断的ビッグデータをモデル化するには?
伝統的に、私たちは混合モデルを使用して、縦断的なデータ、つまり次のようなデータをモデル化します。 id obs age treatment_lvl yield 1 0 11 M 0.2 1 1 11.5 M 0.5 1 2 12 L 0.6 2 0 17 H 1.2 2 1 18 M 0.9 異なる人に対してランダムなインターセプトまたはスロープを想定できます。しかし、私が解決しようとしている質問には、膨大なデータセット(数百万人、1か月の毎日の観測、つまり各人が30の観測を含む)が含まれます。 spark / mahoutにアクセスできますが、混合モデルを提供していません。私のデータは、RandomForestまたはSVMを使用してこのデータセットをモデル化できるようにデータを変更できるのでしょうか。 RF / SVMが自動相関を考慮できるようにするために利用できる機能エンジニアリング手法はありますか? どうもありがとう! いくつかの潜在的な方法がありますが、私はそれらをスパークに書き込む時間を費やすことができませんでした randomForestにランダム効果を含めるにはどうすればよいですか 縦断データを使用したSVM回帰

3
Rでのビッグデータのクラスター化とサンプリングの関連性
私はデータサイエンスの初心者であり、Rに200,000行と50列のデータセットでクラスターを見つけるのに問題があります。 データには数値変数と名義変数の両方があるため、ユークリッド距離測定を使用するK-meansなどの方法は適切な選択のようには見えません。そこで、距離行列を入力として受け入れるPAM、agnes、hclustを使用します。 デイジー方式は混合タイプのデータで機能しますが、距離行列は大きすぎます:200,000 x 200,000は2 ^ 31-1(R 3.0.0より前のベクトル長の制限)よりもはるかに大きいです。 昨日リリースされた新しいR 3.0.0は、長さが2 ^ 31-1を超える長いベクトルをサポートしています。しかし、200,000 x 200,000のダブルマトリックスには、16Gbを超える連続RAMが必要であり、これは私のマシンでは不可能です。 並列コンピューティングとbigmemoryパッケージについて読みましたが、それらが役立つかどうかはわかりません。デイジーを使用している場合、メモリに収まらない大きなマトリックスが生成されます。 サンプリングに関する投稿についても読みました 。「ビッグデータ」の時間にサンプリングは関連していますか? だから私の場合、データセットでサンプリングを使用し、サンプルでクラスター化し、データセット全体の構造を推測するのは適切ですか? 提案をお願いします。ありがとうございました! 私のマシンについて: Rバージョン3.0.0(2013-04-03) プラットフォーム:x86_64-w64-mingw32 / x64(64ビット) OS:Windows 7 64ビット RAM:16.0GB

1
サポートベクターマシンを大きなデータで使用できますか?
SVMに関する知識が限られているため、短くて太いデータマトリックス(機能が多く、インスタンスが多すぎない)には適していますが、ビッグデータには適していません。XXX 1つの理由は、カーネルマトリックスがマトリックスであることを理解しています。ここで、はデータ内のインスタンスの数です。100Kデータと言った場合、カーネル行列は要素を持ち、約80Gのメモリを必要とする場合があります。KKKn×nn×nn \times nnnnKKK1010101010^{10} 大きなデータで使用できるSVMの変更はありますか?(100Kから100万のデータポイントのスケールで言うと?)

3
ビッグデータ設定のために並列/分散方法で線形回帰を実行するにはどうすればよいですか?
私は非常に大きな線形回帰問題に取り組んでいます。データサイズが非常に大きいため、それらをマシンのクラスターに格納する必要があります。すべてのサンプルを1台のマシンのメモリ(ディスクも)に集約するには大きすぎます これらのデータを回帰するために、私は並列アプローチを考えています。つまり、個々のボックスで回帰を実行し、各ベータの統計(おそらく平均または中央値)に基づいてベータを計算します。 これは意味がありますか?もしそうなら、個々のR ^ 2から予想される合計をどのように取得すればよいですか?R2R2R^2R2R2R^2

5
大規模なデータセットに対して勾配降下が非効率なのはなぜですか?
データセットに100万の例、つまりおり、勾配降下を使用してこれらのデータセットでロジスティック回帰または線形回帰を実行するとします。x1,…,x106x1,…,x106x_1, \ldots, x_{10^6} 非効率にする勾配降下法とは何ですか? 時間での勾配降下ステップは次の式で与えられることを思い出してください。ttt wt+1=wt+ηt∇f(x)wt+1=wt+ηt∇f(x)w_{t+1} = w_{t} + \eta_t \nabla f(x) ここで、fffは損失関数です。 上記の手順でアルゴリズムが非効率になる原因となる異常は見当たりません。の計算ですか?この操作は事前に計算できませんでした。つまり、各すでに計算されていて、各データポイントで単純に評価できませんでした∂ F∇f(x)∇f(x)\nabla f(x) XI?∂f∂x∂f∂x\frac{\partial f}{\partial x}xi?xi?x_i?

5
非常に多数のデータポイントで値の代入を実行する方法は?
非常に大きなデータセットがあり、約5%のランダムな値が欠落しています。これらの変数は互いに相関しています。次のRデータセットの例は、ダミーの相関データを使用した単なるおもちゃの例です。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

4
非常に大きなサンプルサイズの適合度
カテゴリデータの非常に大きなサンプル(> 1,000,000)を毎日収集し、データ収集のエラーを検出するために、データが日ごとに「著しく」異なるように見えることを確認したい。 適合度テスト(特にG検定)を使用することは、これに適している(しゃれを意図している)と思いました。予想される分布は、前日の分布によって与えられます。 しかし、私のサンプルサイズは非常に大きいため、テストの出力は非常に高く、多くの誤検出が発生します。つまり、ごくわずかな日ごとの変動でも、p値はほぼゼロになります。 最終的に、テスト統計に定数(0.001)を乗算しました。これは、そのレートでデータをサンプリングするという良い解釈があります。この記事はこのアプローチに同意するようです。彼らは言った: カイ2乗は、約100〜2500人のサンプルで最も信頼性が高い これについて、より信頼できるコメントを探しています。または、大規模なデータセットで統計テストを実行する場合の誤検知に対する代替ソリューションの可能性があります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.