統計とビッグデータ dataset

14

では最近の記事のAmstatニュース宣言します- 、作者（マーク・ファン・デル・ラーンとシェリー・ローズは）我々は十分に大きなサンプルサイズのために、効果なしの帰無仮説が真であるすべての研究-を含むものがあることを知っている」と述べました統計的に有意な効果。」。まあ、私はそれを知りませんでした。これは本当ですか？大規模なデータセットに対して仮説検定は価値がないということですか？

129 hypothesis-testing sample-size dataset large-data

25

自由に利用可能なデータサンプルの検索

私は、データセットを分析および解析して、サブグループの特性を知らずに母集団のサブグループを特定および分離する新しい方法に取り組んでいます。この方法は、人工データサンプル（つまり、母集団のサブセットを識別および分離するために特別に作成されたデータセット）で十分に機能しますが、ライブデータでテストしてみたいと思います。私が探しているのは、自由に利用できる（つまり、非機密、非専有）データソースです。好ましくは、バイモーダルまたはマルチモーダル分布を含むもの、または明らかに従来の手段では簡単に分解できない複数のサブセットで構成されるものです。そのような情報はどこで入手できますか？

98 dataset sample population teaching

6

重要なデータチェックテスト

私の職務では、他の人のデータセットをよく使用します。専門家ではない人が臨床データを持ってきて、それを要約して統計テストを行うのを助けます。私が抱えている問題は、私が持ってくるデータセットがほとんどの場合、タイプミス、矛盾、その他あらゆる種類の問題に満ちていることです。他の人が、入ってくるデータセットをチェックしようとする標準テストを持っているかどうかを知りたいです。よく見るために各変数のヒストグラムを描いていましたが、このテストを乗り切ることができる恐ろしいエラーがたくさんあることに気付きました。たとえば、先日、反復測定データセットがありました。一部の個人では、反復測定が時間2と時間1で同一でした。これは、予想どおり正しくないことが判明しました。別のデータセットには、非常に重度の障害（高スコアで表される）から問題のない状態に移行した個人がいて、全体で0で表されています。これは絶対に不可能ですが、明確に証明することはできませんでした。それでは、各データセットでどのような基本的なテストを実行して、タイプミスや不可能な値が含まれていないことを確認できますか？前もって感謝します！

93 dataset outliers checking

8

特定の平均値や標準偏差など、特定の制約を満たすデータをシミュレートする方法は？

この質問は、メタ分析に関する私の質問に基づいています。しかし、既存の公開されたデータセットを正確に反映するデータセットを作成したいコンテキストを教えるのにも役立つと思います。特定の分布からランダムデータを生成する方法を知っています。たとえば、次のような研究の結果について読んだ場合：平均102 5.2の標準偏差、およびサンプルサイズは72です。 rnormR を使用して同様のデータを生成できます。たとえば、 set.seed(1234) x <- rnorm(n=72, mean=102, sd=5.2) もちろん、平均とSDはそれぞれ102と5.2に正確には等しくありません。 round(c(n=length(x), mean=mean(x), sd=sd(x)), 2) ## n mean sd ## 72.00 100.58 5.25 一般的に、一連の制約を満たすデータをシミュレートする方法に興味があります。上記の場合、制約はサンプルサイズ、平均、標準偏差です。他の場合には、追加の制約があるかもしれません。例えば、データまたは基になる変数の最小値と最大値がわかっている場合があります。変数は整数値のみ、または非負の値のみをとることがわかっている場合があります。データには、相互相関が既知の複数の変数が含まれる場合があります。ご質問一般に、一連の制約を正確に満たすデータをどのようにシミュレートできますか？これについて書かれた記事はありますか？Rにこれを行うプログラムはありますか？例のために、特定の平均値とsdを持つように変数をどのようにシミュレートできますか？

56 r dataset simulation random-generation

3

Rのパッケージとして利用可能なデータAPI /フィード

編集：Web Technologies and Services CRAN タスクビューには、Rで利用可能なデータソースとAPIのより包括的なリストが含まれています。タスクビューにパッケージを追加する場合は、githubでプルリクエストを送信できます。すでにRにフックされているか、セットアップが簡単なさまざまなデータフィードのリストを作成しています。これが私のパッケージの最初のリストです。他に何が欠けているのだろうと思っていました。このリストを「リアルタイム」または「リアルタイムに近い」データフィード/ APIに制限しようとしています。この場合、基になるデータはダウンロードごとに変わる可能性があります。静的データセットのリストはたくさんあり、ダウンロードは1回だけで済みます。現在、このリストは財務/時系列データに偏っているので、他のドメインに拡張するためにいくつかの助けを借りることができます。無料データ：データソース-パッケージグーグル・ファイナンス過去のデータ - quantmod Googleの財政のバランスシート - quantmod ヤフー・ファイナンスの過去データ - quantmod ヤフー・ファイナンスの過去データ- tseries ヤフー・ファイナンス現在のオプションのチェーン - quantmod ヤフー・ファイナンスの歴史的アナリストの見積もり - fImport ヤフー・ファイナンス、現在の主要な統計情報 - fImport -壊れているようです OANDAの歴史的な為替レート/金属価格 quantmod - FRED歴史的なマクロ経済指標 - quantmod 世界銀行歴史的なマクロ経済指標 - WDI Googleトレンド歴史的な検索ボリュームデータ - RGoogleTrends Googleドキュメント- RGoogleDocs Googleのストレージ- RGoogleStorage のTwitter …

53 r references dataset

3

対数変換された予測子および/または応答の解釈

従属変数のみ、従属変数と独立変数の両方、または独立変数のみが対数変換されるかどうかの解釈に違いがあるのかと思います。の場合を考えます log(DV) = Intercept + B1*IV + Error IVはパーセントの増加として解釈できますが、 log(DV) = Intercept + B1*log(IV) + Error または私が持っているとき DV = Intercept + B1*log(IV) + Error ？

46 regression data-transformation interpretation regression-coefficients logarithm r dataset stata hypothesis-testing contingency-tables hypothesis-testing statistical-significance standard-deviation unbiased-estimator t-distribution r functional-data-analysis maximum-likelihood bootstrap regression change-point regression sas hypothesis-testing bayesian randomness predictive-models nonparametric terminology parametric correlation effect-size loess mean pdf quantile-function bioinformatics regression terminology r-squared pdf maximum multivariate-analysis references data-visualization r pca r mixed-model lme4-nlme distributions probability bayesian prior anova chi-squared binomial generalized-linear-model anova repeated-measures t-test post-hoc clustering variance probability hypothesis-testing references binomial profile-likelihood self-study excel data-transformation skewness distributions statistical-significance econometrics spatial r regression anova spss linear-model

9

クラスで例を与えるための小さな（実際の）データセット？

入門レベルのクラスを教えるとき、私が知っている教師は、彼らが教えている方法を例示するために、いくつかの数字と物語を発明する傾向があります。私が好むのは、実数で実話を語ることです。ただし、これらのストーリーは、手動計算を可能にする非常に小さなデータセットに関連付ける必要があります。このようなデータセットに関する提案は大歓迎です。小さなデータセットのサンプルトピック：相関/回帰（基本） ANOVA（1/2の方法） z / tテスト-1対2の非ペアのサンプル比率の比較-ツーウェイ/マルチウェイテーブル

43 dataset references teaching

8

人々にデータをよりよく世話させるにはどうすればよいですか？

私の職場には非常に幅広い分野の従業員がいるため、さまざまな形でデータを生成しています。その結果、各チームはデータを保存する独自のシステムを開発しました。AccessデータベースまたはSQLデータベースを使用するものもあります。一部のチーム（私の恐怖）は、ほぼ完全にExcelスプレッドシートに依存しています。多くの場合、データ形式はプロジェクトごとに変わります。場合によっては、それを「システム」と呼ぶのはあまりにも親切です。これに伴う問題は、すべてのプロジェクトのデータを消去するために新しいコードを作成する必要があることです。これは高価です。スプレッドシートを手動で編集する人は、データの再現性と監査をほぼ不可能にします。さらに悪いことに、データが失われたり、不正確になったりする可能性があります。私は会社の役員とこれらの問題について話し合う機会を与えられました。私は彼に何を伝えるべきかを考え出す必要があります。私たちには問題があり、これを正しくすることでより良い科学とお金の節約が可能になると彼を説得したと思います。問題は、何を目指すべきか、そしてどのようにそこに到達するかです。すなわち：論文の作成から公開まで追跡できるように、データをどのように保存する必要がありますか？（データベースは中央サーバーに保存されていますか？）データベース形式を標準化するにはどうしますか？データの世話をする方法について人々を教育するための良いリソースはありますか？（原則として、職業衛生士と爆発物のエンジニアはデータオタクではないため、非技術的なコンテンツが優先されます。）

42 dataset reproducible-research quality-control

2

「ビッグデータ」から有効な結論を引き出すには？

「ビッグデータ」はメディアのいたるところにあります。「ビッグデータ」は2012年の大きなものだと誰もが言います。たとえば、KDNuggetsは2012年のホットなトピックについて投票します。しかし、私はここで深い懸念を持っています。ビッグデータでは、誰もが何かを手に入れるだけで幸せに思えます。しかし、仮説検定や代表的なサンプリングなど、古典的な統計原則すべてに違反しているのではないでしょうか？同じデータセットについてのみ予測を行う限り、これは問題ないはずです。したがって、Twitterユーザーの行動を予測するためにTwitterデータを使用する場合、おそらく大丈夫です。ただし、たとえば選挙を予測するためにTwitterデータを使用すると、Twitterユーザーが全人口の代表的なサンプルではないという事実は完全に無視されます。さらに、ほとんどの方法では実際に「草の根」の雰囲気とキャンペーンを区別できません。そしてツイッターはキャンペーンでいっぱいです。そのため、Twitterを分析するとき、すぐにキャンペーンとボットを測定することになります。（たとえば、「Yahooはアメリカの政治的勝者を予測する」を参照してください）これは世論調査のバッシングと「感情分析がはるかに優れている」でいっぱいです。彼らは、「ロムニーはノミネートに勝ち、サウスカロライナのプライマリーに勝つ可能性が90％以上ある」と予測した（彼は28％、ギンリッチはこのプライマリーに40％いた）。他のそのようなビッグデータが失敗することを知っていますか？ある科学者は、あなたが150以上の友情を維持できないと予測したことを大まかに覚えています。彼は実際にフレンドスターの上限を発見しただけでした... twitterデータ、または実際にWebから収集された「ビッグデータ」については、データを収集する方法によって人々がさらにバイアスをかけることさえあると思います。ツイッターのすべてを持つ人はほとんどいません。彼らはスパイダーした特定のサブセットを持ちますが、これはデータセットのさらに別のバイアスです。データをテストセットに分割したり、相互検証を実行したりすることは、あまり役に立ちません。他のセットには同じバイアスがあります。また、ビッグデータの場合、情報を「圧縮」する必要があるため、過剰に圧縮されることはほとんどありません。最近、このジョークを聞いたことがあります。ビッグデータの科学者は、世界には約6種類の性別があることを発見しました...そして、これはまさに想像できます。それでは、特に「ビッグデータ」データセット以外の何かを予測しようとする場合、分析に統計的妥当性を戻すためにどのような方法が必要ですか？

40 data-mining dataset large-data validation

2

-1と1の間のデータを正規化する方法は？

min-max正規化公式を見ましたが、0〜1の値を正規化します。-1〜1のデータを正規化するにはどうすればよいですか。データマトリックスに負の値と正の値の両方があります。

36 dataset normalization

5

非常に高次元の分類のための無料のデータセット[終了]

1000を超えるフィーチャ（または曲線を含む場合はサンプルポイント）を使用した分類のために無料で利用できるデータセットは何ですか無料のデータセットに関するコミュニティWikiが既にあります：自由に利用可能なデータサンプルの検索しかし、ここでは、より便利に使用できる、より焦点の絞られたリストがあればいいと思います。また、次の規則を提案します。データセットごとに1つの投稿データセットのセットへのリンクはありません各データセットはに関連付けられている必要があります名前（それが何であるかを把握するため）およびデータセットへのリンク（Rデータセットは、パッケージ名を付けることができます）フィーチャの数（pとする）、データセットのサイズ（nとする）およびラベル/クラスの数（kとする）あなたの経験からの典型的なエラー率（使用されたアルゴリズムを言葉で表す）またはリテラチャーからのこのエラー率（この最後のケースでは論文をリンクします）

35 machine-learning classification dataset large-data

5

線形回帰データに複数の混合線形関係が含まれている場合はどうなりますか？

水仙がさまざまな土壌条件にどのように反応するかを研究しているとしましょう。土壌のpHと水仙の成熟した高さに関するデータを収集しました。私は線形関係を期待しているので、線形回帰を実行します。しかし、私が研究を始めたとき、個体群には実際に2種類のスイセンが含まれており、それぞれが土壌のpHに対して非常に異なる反応を示すことを知りませんでした。したがって、グラフには2つの異なる線形関係が含まれます。もちろん、目で見て、手動で分離できます。しかし、もっと厳密なアプローチがあるのだろうか。質問：データセットが1行またはN行のどちらに適しているかを判断する統計的テストはありますか？ N行に適合する線形回帰を実行するにはどうすればよいですか？言い換えれば、混合データのもつれを解くにはどうすればよいですか？いくつかの組み合わせアプローチを考えることができますが、それらは計算量が多いようです。明確化： 2つの品種の存在は、データ収集の時点では不明でした。各水仙の多様性は観察も記録もされていません。この情報を回復することは不可能です。水仙はデータ収集の時から死んでいます。私は、この問題はクラスタリングアルゴリズムの適用に似たもので、開始する前にクラスターの数をほとんど知る必要があるという印象を持っています。どのデータセットでも、行数を増やすとrmsエラーの合計が減ると思います。極端な場合、データセットを任意のペアに分割し、各ペアに線を引くだけです。（たとえば、1000個のデータポイントがある場合、それらを500個の任意のペアに分割し、各ペアに線を引くことができます。）近似は正確で、rmsエラーは正確にゼロになります。しかし、それは私たちが望むものではありません。「正しい」行数が必要です。

34 regression linear-model dataset

3

Anscombeのカルテットと同様の目的で構築されたデータセット

私はちょうどAnscombeのカルテット（ほとんど区別できない記述統計を持っているが、プロットすると非常に異なって見える4つのデータセット）に出くわしました。統計分析の。

32 regression data-visualization dataset

2

データを視覚化した後に統計テストを実行する-データの??

例としてこの質問を提案します。ボストンの住宅価格データセットなどのデータセットがあり、そこに連続変数とカテゴリ変数があるとします。ここには、1〜10の「品質」変数と販売価格があります。品質のカットオフを（任意に）作成することで、データを「低」、「中」、「高」の品質の家に分けることができます。次に、これらのグループを使用して、販売価格のヒストグラムを相互にプロットできます。そのようです：ここで、「低」は、および「高」である> 7「品質」スコアに。これで、3つのグループのそれぞれの販売価格の分布ができました。中品質の住宅と高品質の住宅では、場所の中心に違いがあることは明らかです。さて、これをすべて終えた後、「うーん、場所の中心に違いがあるようです！どうして平均値でt検定をしないのですか？」と思います。次に、平均に差がないという帰無仮説を正しく拒否するように見えるp値を取得します。≤ 3≤3\leq 3> 7>7>7 さて、データをプロットするまで、この仮説をテストすることを何も考えていないとします。このデータはdrですか？「もし、私は以前に家に住んでいた人間だから、高品質の家はもっと費用がかかるに違いない。データをプロットするつもりだ。ああ、違う！時間だ！」 t検定に！」当然、この仮説を最初からテストするためにデータセットが収集された場合、データのredではありません。しかし、しばしば私たちに与えられたデータセットで作業しなければならず、「パターンを探す」ように言われます。このあいまいなタスクを念頭に置いて、データのdrを回避する方法を教えてください。データをテストするためのホールドアウトセットを作成しますか？視覚化は、データによって提案された仮説をテストする機会のスヌーピングとして「カウント」されますか？

31 hypothesis-testing data-visualization p-value dataset inference

3

多くのセットの交差点を視覚化する

多くのセットの交差部分の重なりを示すのに適した視覚化モデルはありますか？私はベン図のようなものを考えていますが、どういうわけか10以上などのより多くのセットに適しているかもしれません。ウィキペディアにはいくつかのより高いセットのベン図が表示されますが、4セットの図でさえ多くを取り入れる必要があります。データの最終結果についての私の推測では、セットの多くが重複しないため、ベン図がうまくいく可能性がありますが、それを生成できるコンピューターツールを見つけたいと思います。Googleチャートではそれほど多くのセットが許可されていないようです。

30 data-visualization dataset

タグ付けされた質問 「dataset」

タグ付けされた質問「dataset」