統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

2
階層的クラスタリングのための正しいリンケージ方法の選択
Google BigQueryのredditデータダンプから収集および処理したデータに対して階層クラスタリングを実行しています。 私のプロセスは次のとおりです。 / r / politicsで最新の1000件の投稿を取得 すべてのコメントを集める データを処理し、n x mデータマトリックスを計算します(n:users / samples、m:posts / features) 階層的クラスタリングの距離行列を計算する リンク方法を選択して、階層クラスタリングを実行します データを樹状図としてプロットする 私の質問は、最適なリンケージ方法がどのように決定されるのですか?私は現在、使用していますWardが、私が使用してするかどうか私は知らないsingle、complete、average、など? 私はこのようなものに非常に新しいですが、私は1つが確かではないので、オンラインで明確な答えを見つけることができません。それでは、私のアプリケーションにとって良いアイデアは何でしょうか?n x mマトリックスに多くのゼロがあるという意味で、データは比較的まばらであることに注意してください(ほとんどの人は、数件以上の投稿にコメントしません)。

2
時系列データを使用したブートストラップはどのように行いますか?
最近、ブートストラップ手法を使用して、推定量の標準誤差と信頼区間を計算することを学びました。私が学んだことは、データがIIDである場合、サンプルデータを母集団として扱い、置換を使用してサンプリングを行うことができ、これにより検定統計量の複数のシミュレーションを取得できることです。 時系列の場合、自己相関が存在する可能性が高いため、明らかにこれを行うことはできません。時系列があり、固定日付の前後のデータの平均を計算したいと思います。修正版のブートストラップを使用してこれを行う正しい方法はありますか?


10
なぜ2つのランダム変数の合計が畳み込みなのですか?
長い間、2つの確率変数の「合計」が畳み込みである理由を理解できませんでしたが、と混合密度関数の合計はf(x)f(x)f(x)g(x)g(x)g(x)pf(x)+(1−p)g(x)pf(x)+(1−p)g(x)p\,f(x)+(1-p)g(x); 畳み込みではなく算術和。「2つのランダム変数の合計」というフレーズは、googleで146,000回表示され、次のように楕円形です。RVが単一の値を生成すると考える場合、その単一の値を別のRVの単一の値に追加できます。これは、少なくとも直接ではなく、畳み込みとは関係ありません。それは2つの数値の合計です。ただし、統計のRV結果は値の集合であるため、より正確なフレーズは「2つのRVからの関連する個々の値のペアの調整された合計のセットは離散畳み込み」のようになり、...それらのRVに対応する密度関数の畳み込み。さらに単純な言語: 2 RVnnn-サンプルは、事実上、ベクトルの合計として加算される2つのn次元ベクトルです。 2つのランダム変数の合計が畳み込みと合計である方法の詳細を示してください。

7
変動係数の解釈方法は?
変動係数を理解しようとしています。次の2つのデータサンプルに適用しようとすると、結果の解釈方法を理解できません。 サンプル1が 、サンプル2がます。サンプル2サンプル1をご覧ください。10 、15 、17 、22 、21 、27 = + 100 、5 、7 、12 、11 、170,5,7,12,11,17{0, 5, 7, 12, 11, 17}10 、15 、17 、22 、21 、2710,15,17,22,21,27{10 ,15 ,17 ,22 ,21 ,27}===+ 10 + 10+\ 10 どちらも同じ標準偏差が、およびです。μ 2 = 18.67 μ 1 = 8.66667σ2= σ1= 5.95539σ2=σ1=5.95539\sigma_{2} = \sigma_{1}= 5.95539μ2= 18.67μ2=18.67\mu_{2}=18.67μ1= 8.66667μ1=8.66667\mu_{1}=8.66667 …

1
ランダム対称行列を生成する場合、正定である可能性はどのくらいですか?
いくつかの凸最適化を実験していたときに、奇妙な質問を受けました。質問は: ランダム(標準正規分布など)で対称マトリックスを生成するとします(たとえば、上三角マトリックスを生成し、下半分を埋めて対称であることを確認します)。これは正定マトリックスである可能性があります?とにかく確率を計算する方法はありますか?N× NN×NN \times N

3
大規模な研究で小さな効果を見つけることが出版バイアスを示すのはなぜですか?
いくつかの方法論論文(eg Egger et al 1997a、1997b)では、以下のようなファンネルプロットを使用して、メタ分析によって明らかにされた出版バイアスを議論しています。 1997bの論文は続けて、「出版バイアスが存在する場合、発表された研究のうち、最大のものが最小の効果を報告することが予想される」と述べています。しかし、それはなぜですか?これはすべて、私たちがすでに知っていることであることが証明されるように思えます。小さな影響は、大きなサンプルサイズでのみ検出可能です。未発表のままの研究については何も言わずに。 また、引用された研究は、ファンネルプロットで視覚的に評価される非対称性は、「大きなメリットの少ない小規模試験の選択的非公開があったことを示している」と主張しています。しかし、再び、私はどのように理解していない任意の研究の特徴をされた公表はおそらく私たちにされた作品については何も(私たちは推論を行うことができ)伝えることができない、公開を! 参考文献 Egger、M.、Smith、GD、&Phillips、AN(1997)。メタ分析:原則と手順。BMJ、315(7121)、1533-1537。 Egger、M.、Smith、GD、Schneider、M。、およびMinder、C。(1997)。単純なグラフィカルテストによって検出されたメタ分析のバイアス。BMJ、315(7109)、629-634。


2
生成的敵対ネットワークはユルゲン・シュミットフーバーによって導入されましたか?
https://en.wikipedia.org/wiki/Generative_adversarial_networksを読みます: [ジェネレーティブな敵対的ネットワーク]は、2014年にIan Goodfellowらによって導入されました。 しかし、Jurgen Schmidhuberは、その方向で以前に同様の作業を実行したと主張しています(たとえば、生成的敵対ネットワークチュートリアル中にNIPS 2016で議論がありました:https ://channel9.msdn.com/Events/Neural-Information-Processing-Systems- Conference / Neural-Information-Processing-Systems-Conference-NIPS-2016 / Generative-Adversarial-Networksを参照1h03min)。 ジェネレーティブな敵対的ネットワークの背後にあるアイデアは、ユルゲン・シュミットフーバーによって最初に公開されましたか?そうでない場合、ユルゲン・シュミットフーバーのアイデアはどの程度似ていましたか?

6
中心極限定理が成り立たない例はありますか?
ウィキペディアによると- 確率理論では、中心極限定理(CLT)は、ほとんどの場合、独立したランダム変数が追加されると、元の変数自体ではなくても、適切に正規化された合計が正規分布(非公式に「ベル曲線」)になる傾向があることを確立します正規分布しています... 「ほとんどの状況で」と書かれている場合、どのような状況で中心極限定理は機能しませんか?

8
最初にベイジアン統計または頻度統計を教える必要がありますか?
私は現在高校生で、統計を理解している少年たちを助けています。そして、理論を垣間見ることなく、いくつかの簡単な例から始めることを考えています。 私の目標は、統計をさらに追求し、定量的学習に興味を持たせるために、統計をゼロから学習するための最も直感的でありながら建設的なアプローチを提供することです。 ただし、始める前に、非常に一般的な意味を持つ特定の質問があります。 ベイジアンまたは頻度主義のフレームワークを使用して統計を教え始める必要がありますか? よく調べてみると、一般的なアプローチは、頻繁な統計の簡単な紹介から始まり、その後にベイジアン統計の詳細な議論が続きます(例:Stangl)。

3
なぜ基本的な仮説検定は中央値ではなく平均値に焦点を合わせているのですか?
基本的な学部生の統計コースでは、学生は(通常?)母集団の平均に対する仮説検定を教えられます。 中央値ではなく平均値に焦点が当てられているのはなぜですか?私の推測では、中心極限定理のために平均値をテストする方が簡単だと思いますが、私はいくつかの教育された説明を読みたいです。



2
ランダムフォレストの高度に相関した変数は、精度と特徴選択をゆがめませんか
私の理解では、高度に相関する変数は、ランダムフォレストモデルで多重共線性の問題を引き起こしません(間違っている場合は修正してください)。ただし、他の方法で、類似の情報を含む変数が多すぎる場合、他のモデルよりもこのセットのモデルの重みが大きくなりすぎますか? たとえば、同じ予測力を持つ2つの情報セット(A、B)があります。変数、、...すべて情報Aを含み、Yのみが情報Bを含みます。ランダムサンプリング変数では、ほとんどのツリーが情報Aで成長し、結果として情報Bが完全にキャプチャされませんか?バツ1バツ1X_1バツ2バツ2X_2バツ1000バツ1000X_{1000}

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.