タグ付けされた質問 「large-data」

「大規模なデータ」とは、観測(データポイント)の数が多すぎて、データアナリストの考え方や分析の方法を変更する必要がある状況を指します。(「高次元」と混同しないでください。)

12
ゼロを含む非負のデータを変換するにはどうすればよいですか?
正のデータに大きな偏りがある場合、ログを取得することがよくあります。しかし、ゼロを含む非常に歪んだ非負データではどうすればよいですか?私は2つの変換が使用されているのを見ました: ログ(x + 1 )log⁡(x+1)\log(x+1)0が0にマッピングされるというきちんとした機能を持つ。 ログ(x + c )log⁡(x+c)\log(x+c)ここで、cは推定されるか、非常に小さな正の値に設定されます。 他のアプローチはありますか?あるアプローチを他のアプローチよりも好む理由はありますか?

14
大規模なデータセットは仮説検定に不適切ですか?
では最近の記事のAmstatニュース宣言します- 、作者(マーク・ファン・デル・ラーンとシェリー・ローズは)我々は十分に大きなサンプルサイズのために、効果なしの帰無仮説が真であるすべての研究-を含むものがあることを知っている」と述べました統計的に有意な効果。」。 まあ、私はそれを知りませんでした。これは本当ですか?大規模なデータセットに対して仮説検定は価値がないということですか?

5
大規模な統計分析を実行するには、どのようなスキルが必要ですか?
多くの統計業務では、大規模データの経験が求められます。大規模なデータセットを操作するために必要な統計および計算スキルの種類は何ですか。たとえば、1,000万サンプルのデータセットが与えられた場合に回帰モデルを構築するのはどうでしょうか。

7
業界とKaggleの課題。派手なモデリングよりも多くの観測を収集し、より多くの変数にアクセスすることが重要ですか?
タイトルが自明であることを願っています。Kaggleでは、ほとんどの勝者は何百ものベースモデルとスタックを使用して、MSEの数%、精度を圧縮します...一般的に、あなたの経験では、スタックなどの派手なモデリングはどれだけ重要ですか?データのために?

8
サンプリングは「ビッグデータ」の時期に関連していますか?
それとももっと「そうなる」のでしょうか?ビッグデータは統計と関連知識をさらに重要にしますが、サンプリング理論を過小評価しているようです。 私は「ビッグデータ」の周りでこの誇大広告を見てきましたが、「なぜ」すべてを分析したいのか不思議に思わないでしょうか?「サンプリング理論」を設計/実装/発明/発見する理由はありませんでしたか?データセットの「母集団」全体を分析する意味がありません。できるからといって、やるべきだというわけではありません(愚かさは特権ですが、悪用すべきではありません:) だから私の質問はこれです:データセット全体を分析することは統計的に関連していますか?できることは、サンプリングを行った場合のエラーを最小限にすることです。しかし、そのエラーを最小化するコストは本当に価値がありますか?「情報の価値」は、超並列コンピューターでのビッグデータの分析に費やされる労力、時間コストなどの価値が本当にあるのでしょうか? 母集団全体を分析しても、結果はせいぜい推測であり、正しい確率が高くなります。おそらくサンプリングよりも少し高いでしょうか(それとももっと多いでしょうか?)、母集団の分析とサンプルの分析から得られる洞察は大きく異なりますか? それとも、「時代が変わった」と認めるべきでしょうか?十分な計算能力があれば、アクティビティとしてのサンプリングはそれほど重要ではなくなる可能性があります:) 注:私は議論を始めようとはしていませんが、ビッグデータが何をするのか(つまり、すべてを分析する)を理解し、サンプリングの理論を無視する(またはそうしない?)答えを探しています

10
巨大な読み取り1回のデータセットの中央値を推定するための優れたアルゴリズムは何ですか?
格納するには大きすぎるデータセットの中央値を推定するための優れたアルゴリズム(最小限の計算、最​​小限のストレージ要件を意味する)を探しています。想定できるデータに制限はありません。 精度がわかっている限り、近似は問題ありません。 ポインタはありますか?

10
ビッグデータとは正確には何ですか?
私は何度か質問をされました: ビッグデータとは何ですか? 統計とMLをめぐる話題を取り上げている学生と私の親sによるもの。 このCV-postを見つけました。そして、私はそこで唯一の答えに同意すると感じています。 Wikipediaのページには、さらにその上にいくつかのコメントがありますが、私は本当にそこにすべてに同意するかどうかはわかりません。 編集:( 私はウィキペディアのページでは、これに取り組む方法と私が以下で言及するパラダイムを説明することに欠けていると感じています)。 私は最近エマニュエル・カンデスの講義に参加しました。彼はビッグデータのパラダイムを次のように紹介しました。 最初にデータを収集後で質問する⇒⇒\Rightarrow これは、仮説駆動型の研究との主な違いです。最初に仮説を立ててから、データを収集してそれについて何かを言います。 彼は、データスヌーピングによって生成された仮説の信頼性を定量化する問題に多くのことを取り組みました。私が彼の講義から取り上げた主なことは、FDRを制御し始める必要があるということであり、彼はそのための模造法を提示しました。 CVには、Big-Dataとは何か、それについてのあなたの定義は何かについて質問すべきだと思います。さまざまな「定義」があり、それが何で構成されているかについて一般的なコンセンサスがなければ、それが何であるかを本当に把握したり、他の人に説明したりするのは難しいと思います。 私はと感じている「の定義/パラダイム/説明」あなたの考えは何ですか、Candèsが提供するが、私は同意する最も近いものでしょうか? EDIT2:答えは、データ自体の単なる説明以上のものを提供する必要があると思います。データ/メソッド/パラダイムの組み合わせである必要があります。 EDIT3:マイケル・ジョーダンとのこのインタビューは、テーブルにも何かを追加できると思います。 EDIT4:私は正しいものとして最高の投票された答えを選ぶことにしました。私はすべての答えが議論に何かを加えると思うが、私はこれが仮説を生成し、データを操作する方法のパラダイムの問題であると個人的に感じていますが。この質問が、Big-Dataとは何かを探している人たちの参考資料のプールとして役立つことを願っています。多重比較の問題とFDRの制御をさらに強調するために、ウィキペディアのページが変更されることを願っています。
44 large-data 

2
「ビッグデータ」から有効な結論を引き出すには?
「ビッグデータ」はメディアのいたるところにあります。「ビッグデータ」は2012年の大きなものだと誰もが言います。たとえば、KDNuggetsは2012年のホットなトピックについて投票します。しかし、私はここで深い懸念を持っています。ビッグデータでは、誰もが何かを手に入れるだけで幸せに思えます。しかし、仮説検定や代表的なサンプリングなど、古典的な統計原則すべてに違反しているのではないでしょうか? 同じデータセットについてのみ予測を行う限り、これは問題ないはずです。したがって、Twitterユーザーの行動を予測するためにTwitterデータを使用する場合、おそらく大丈夫です。ただし、たとえば選挙を予測するためにTwitterデータを使用すると、Twitterユーザーが全人口の代表的なサンプルではないという事実は完全に無視されます。さらに、ほとんどの方法では実際に「草の根」の雰囲気とキャンペーンを区別できません。そしてツイッターはキャンペーンでいっぱいです。そのため、Twitterを分析するとき、すぐにキャンペーンとボットを測定することになります。(たとえば、「Yahooはアメリカの政治的勝者を予測する」を参照してください)これは世論調査のバッシングと「感情分析がはるかに優れている」でいっぱいです。彼らは、「ロムニーはノミネートに勝ち、サウスカロライナのプライマリーに勝つ可能性が90%以上ある」と予測した(彼は28%、ギンリッチはこのプライマリーに40%いた)。 他のそのようなビッグデータが失敗することを知っていますか?ある科学者は、あなたが150以上の友情を維持できないと予測したことを大まかに覚えています。彼は実際にフレンドスターの上限を発見しただけでした... twitterデータ、または実際にWebから収集された「ビッグデータ」については、データを収集する方法によって人々がさらにバイアスをかけることさえあると思います。ツイッターのすべてを持つ人はほとんどいません。彼らはスパイダーした特定のサブセットを持ちますが、これはデータセットのさらに別のバイアスです。 データをテストセットに分割したり、相互検証を実行したりすることは、あまり役に立ちません。他のセットには同じバイアスがあります。また、ビッグデータの場合、情報を「圧縮」する必要があるため、過剰に圧縮されることはほとんどありません。 最近、このジョークを聞いたことがあります。ビッグデータの科学者は、世界には約6種類の性別があることを発見しました...そして、これはまさに想像できます。 それでは、特に「ビッグデータ」データセット以外の何かを予測しようとする場合、分析に統計的妥当性を戻すためにどのような方法が必要ですか?

6
有意性検定の仮説としての効果サイズ
今日、Cross Validated Journal Clubで(なぜそこにいなかったのですか?)、@ mbqは次のように尋ねました: 私たち(現代のデータサイエンティスト)は、意味が何を意味するかを知っていると思いますか?そして、それが結果に対する自信にどのように関係しているのでしょうか? @Michelleは、一部の人(私を含む)が通常するように答えました: 私は自分のキャリアを続けるにつれて、重要性の概念(p値に基づく)がますます役に立たなくなってきています。たとえば、非常に大きなデータセットを使用することができるので、すべてが統計的に重要です(p &lt;.01p&lt;.01p<.01) これはおそらく愚かな質問ですが、問題は仮説が検証されているのではないでしょうか?帰無仮説「AはBに等しい」をテストすると、答えは「いいえ」であることがわかります。より大きなデータセットは、この必然的に真の結論に近づくだけです。「ラムの右側の毛の数はその左側の毛の数に等しい」という仮説で例を挙げたのはデミングだったと思います。もちろん、そうではありません。 より良い仮説は、「AはBとそれほど違いはありません」です。または、ラムの例では、「ラムの側面の毛の数はX%を超えて異ならない」。 これは理にかなっていますか?

5
非常に高次元の分類のための無料のデータセット[終了]
1000を超えるフィーチャ(または曲線を含む場合はサンプルポイント)を使用した分類のために無料で利用できるデータセットは何ですか 無料のデータセットに関するコミュニティWikiが既にあります: 自由に利用可能なデータサンプルの検索 しかし、ここでは、より便利に使用できる、より焦点の絞られたリストがあればいいと思います。また、次の規則を提案します。 データセットごとに1つの投稿 データセットのセットへのリンクはありません 各データセットはに関連付けられている必要があります 名前(それが何であるかを把握するため)およびデータセットへのリンク(Rデータセットは、パッケージ名を付けることができます) フィーチャの数(pとする)、データセットのサイズ(nとする)およびラベル/クラスの数(kとする) あなたの経験からの典型的なエラー率(使用されたアルゴリズムを言葉で表す)またはリテラチャーからのこのエラー率(この最後のケースでは論文をリンクします)

3
scikit-learnを使用した多項式回帰
多項式回帰にscikit-learnを使用しようとしています。私が読んだ多項式回帰は、線形回帰の特殊なケースです。scikitの一般化された線形モデルのいずれかが、高次の多項式に適合するようにパラメーター化できるかもしれないと思っていましたが、それを行うオプションはありません。 私はポリカーネルでサポートベクターリグレッサーを使用することに成功しました。これは私のデータのサブセットでうまく機能しましたが、大きなデータセットに適合するにはかなり時間がかかりますので、(ある程度の精度を交換しても)さらに高速なものを見つける必要があります。 ここで明らかな何かを見逃していますか?

9
大規模なデータセットを扱うための統計およびデータマイニングソフトウェアツール
現在、約2,000万件のレコードを分析し、予測モデルを作成する必要があります。これまでのところ、Statistica、SPSS、RapidMiner、Rを試しました。これらの中で、Statisticaはデータマイニングに最も適しているようで、RapidMinerユーザーインターフェイスも非常に便利ですが、Statistica、RapidMiner、およびSPSSは小さなデータセットにのみ適しているようです。 誰もが大規模なデータセットに適したツールを推奨できますか? ありがとうございます!

1
最先端のストリーミング学習
私は最近大規模なデータセットを扱っており、ストリーミング方法に関する多くの論文を見つけました。いくつか例を挙げると: Follow-the-Regularized-Leader and Mirror Descent:等価定理とL1正則化(http://jmlr.org/proceedings/papers/v15/mcmahan11b/mcmahan11b.pdf) ストリーミング学習:ワンパスSVM(http://www.umiacs.umd.edu/~hal/docs/daume09onepass.pdf) Pegasos:SVMのプライム推定サブGrAdient SOlver http://ttic.uchicago.edu/~nati/Publications/PegasosMPB.pdf またはここ:SVMは一度に1つの例をストリーム学習できますか? ストリーミングランダムフォレスト(http://research.cs.queensu.ca/home/cords2/ideas07.pdf) しかし、私はそれらが互いにどのように比較されるかに関するドキュメントを見つけることができませんでした。私が読んだすべての記事は、異なるデータセットで実験を行っているようです。 私は、sowia-ml、vowpal wabbitについて知っていますが、それらは既存の膨大な量のメソッドと比較して、ごく少数のメソッドを実装しているようです! あまり一般的ではないアルゴリズムのパフォーマンスは十分ではありませんか?できるだけ多くの方法をレビューしようとしている論文はありますか?

1
巨大なスパース分割表を視覚化する方法は?
私には2つの変数があります:薬物名(DN)と対応する有害事象(AE)は、多対多の関係にあります。33,556の薬名と9,516の有害事象があります。サンプルサイズは約580万回の観測です。 DNとAEの関連/関係を研究し、理解したい。写真を見たほうが良いので、このセットをRで視覚化する方法を考えています。どうすればいいのかわかりません...

3
ビッグデータの最初のステップ(
1日あたり数十億回の観測値で膨大なデータセットを分析しており、各観測値には数千のスパースで冗長な数値変数およびカテゴリ変数があるとします。回帰問題が1つ、不均衡なバイナリ分類問題が1つ、「どの予測変数が最も重要かを調べる」タスクが1つあるとします。問題にアプローチする方法についての私の考えは次のとおりです。 次の状態になるまで、データの次第に大きくなる(ランダムな)サブサンプルに予測モデルを適合させます。 モデルの適合と相互検証が計算上困難になります(たとえば、ラップトップで不当に遅くなる、Rでメモリが不足するなど)、または トレーニングおよびテストRMSEまたは精度/リコール値が安定します。 トレーニングエラーとテストエラーが安定しなかった場合(1.)、より単純なモデルを使用するか、モデルのマルチコアバージョンまたはマルチノードバージョンを実装して、最初からやり直します。 トレーニングエラーとテストエラーが安定した場合(2.): 場合(つまり、私はまだ上のアルゴリズムを実行することができますそれはまだ大きすぎないよう)、特徴空間の拡大や、より複雑なモデルを使用して、最初から再起動することで、パフォーマンスを改善しよう。Nsubset≪NNsubset≪NN_{subset} \ll NXsubsetXsubsetX_{subset} 場合「大きい」およびさらなる分析を実行することは高価であり、変数の重要度および終了を分析します。NsubsetNsubsetN_{subset} 私のようなパッケージを使用する予定のbiglm、speedglm、multicore、およびffR中に最初に、そして後に必要に応じて、より複雑なアルゴリズムおよび/または(EC2上の)マルチノードを使用します。 これは理にかなったアプローチのように聞こえますか?そうであれば、具体的なアドバイスや提案はありますか?そうでない場合、このサイズのデータ​​セットに対して代わりに何を試してみますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.