統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

4
正規化とスケーリング
データ「正規化」とデータ「スケーリング」の違いは何ですか?今まで、両方の用語が同じプロセスを指していると思っていましたが、今では、私が知らない/理解していないものがあることに気付きました。また、正規化とスケーリングに違いがある場合、スケーリングではなく正規化をいつ使用する必要がありますか? 例を挙げて詳しく説明してください。

1
タイプI、タイプII、およびタイプIII ANOVAおよびMANOVAの解釈方法
私の主な質問は、タイプI(シーケンシャル)分散分析を実行するときに出力(係数、F、P)を解釈する方法です。 私の特定の研究問題はもう少し複雑なので、私の例をいくつかに分けます。まず、植物の成長(Y1)に対するクモの密度(X1)の影響に興味があり、囲いに苗木を植え、クモの密度を操作した場合、単純なANOVAまたは線形回帰でデータを分析できます。その後、ANOVAにタイプI、II、またはIIIの二乗和(SS)を使用したかどうかは関係ありません。私の場合、5つの密度レベルの複製が4つあるため、密度を因子または連続変数として使用できます。この場合、私はそれを連続的な独立(予測)変数として解釈することを好みます。RIでは、次を実行できます。 lm1 <- lm(y1 ~ density, data = Ena) summary(lm1) anova(lm1) anova関数を実行すると、後で比較できることを願っていますので、ここで奇妙な点を無視してください。出力は次のとおりです。 Response: y1 Df Sum Sq Mean Sq F value Pr(>F) density 1 0.48357 0.48357 3.4279 0.08058 . Residuals 18 2.53920 0.14107 さて、私がコントロールできなかった土壌中の無機窒素の開始レベルも、植物の成長に大きな影響を与えたのではないかと疑っているとしましょう。私はこの効果に特に興味はありませんが、それが引き起こす変動を潜在的に説明したいと思います。実際、私の主な関心はクモの密度の効果です(仮説:クモの密度の増加は植物の成長の増加を引き起こします-おそらく草食性昆虫の減少によるものですが、メカニズムではなく効果のみをテストしています)。無機Nの効果を分析に追加できます。 私の質問のために、相互作用密度* inorganicNをテストし、それが有意ではないふりをして、分析からそれを削除し、次の主な効果を実行します: > lm2 <- lm(y1 ~ density + inorganicN, data = Ena) > anova(lm2) …

6
分布間のコルモゴロフ距離の動機
2つの確率分布がどれほど似ているかを測定する方法はたくさんあります。(異なるサークルで)人気のある方法は次のとおりです。 コルモゴロフ距離:分布関数間の距離。 Kantorovich-Rubinstein距離:リプシッツ定数を持つ関数の2つの分布に対する期待値の最大差111。これは分布関数間のL1L1L^1距離でもあります。 境界付きリプシッツ距離:KR距離に似ていますが、関数は絶対値がである必要があります111。 これらには異なる利点と欠点があります。3.の意味での収束のみが実際に分布の収束に正確に対応します。1.または2.の意味での収束は、一般にわずかに強くなります。(特に、X n = 1の場合Xn=1nXn=1nX_n=\frac{1}{n}は確率111で、は分布で0にXnXnX_n収束し000が、コルモゴロフ距離では収束しません。ただし、制限の分布が連続している場合、この病理は発生しません。) 初等確率または測度理論の観点から見ると、1はあるセットに含まれる確率を比較するため、非常に自然です。一方、より洗練された確率論的視点は、確率よりも期待に集中する傾向があります。また、機能分析の観点から、いくつかの機能空間との双対性に基づいた2または3のような距離は非常に魅力的です。 しかし、私の印象(間違っていれば私を修正してください!)は、統計では、コルモゴロフ距離が分布の類似性を測定するための通常好ましい方法であるということです。理由の1つは推測できます:分布の1つが有限のサポートで離散的である場合、特に実際のデータの分布である場合、モデル分布までのコルモゴロフ距離は計算が簡単です。(KR距離は計算がやや​​難しく、BL距離は実際的にはおそらく不可能です。) 私の質問(最終的に)は、統計的な目的でコルモゴロフ距離(またはその他の距離)を優先する他の理由(実用的または理論的)がありますか?

8
すべてのモデルは役に立ちませんか?正確なモデルは可能ですか?または有用ですか?
この質問は、1か月以上にわたって私の頭の中で悩まされてきました。Amstat Newsの 2015年2月号には、バークレー教授Mark van der Laanによる不正確なモデルの使用をforる記事が掲載されています。彼は、モデルを使用することで、統計は科学ではなく芸術になると述べています。彼によると、いつでも「正確なモデル」を使用でき、そうしないと「厳密性の欠如...データサイエンスにおける私たちの表現が取り残されてしまうのではないか」と心配しています。 私たちは疎外される危険にさらされていることに同意しますが、脅威は通常、おおよその方法を使用していないが、実際にはその方法がはるかに少ないと主張する人(ファンデルラーン教授のように聞こえます)慎重に適用された統計モデルよりも厳密です。 Van der Laan教授は、Boxのよく使われる引用を繰り返している人々に対して「すべてのモデルは間違っているが、一部は有用である」と軽ratherしていると言ってもいいと思います。基本的に、私がそれを読んだとき、彼はすべてのモデルが間違っていて、すべてが役に立たないと言っています。今、私はバークレーの教授に反対するだろうか?一方、私たちの分野の本当の巨人の一人の意見をそれほど軽んじて却下するのは誰ですか? 詳述すると、ファンデルラーン博士は、「すべてのモデルが間違っていると述べるのは完全にナンセンスです。たとえば、仮定を行わない統計モデルは常に正しい」と述べています。「しかし、多くの場合、私たちはそれよりもはるかに優れた結果を得ることができます。データは、独立した同一の実験の結果であることがわかります。非常に狭いランダムサンプリングまたは制御された実験設定を除いて、どのようにそれを知ることができるかわかりません。著者は、「機械学習/データ適応推定の最新技術、因果推論、打ち切りデータ、効率性、経験的経験のすべてを統合する、目標最尤学習と目標最小損失ベース学習の研究を指摘しています。正式な統計的推論を提供しながら、プロセス理論。」nnn 私が同意する声明もいくつかあります。彼は、私たちの仕事、統計学者としての役割、そして科学協力者を真剣に受け止める必要があると言います。聞いて聞いて!科学的な質問に答えることが適切かどうか、またはデータに適合するかどうかを慎重に検討せずに、人々が日常的にロジスティック回帰モデルなどを使用する場合、それは確かに悪いニュースです。そして、私はこのフォーラムに投稿された質問でそのような虐待の多くを見ています。しかし、パラメトリックなモデルであっても、不正確なモデルの効果的で価値のある使用法も見ています。そして、彼の言うこととは反対に、私はめったに「別のロジスティック回帰モデルによって死に退屈する」ことはありません。これが私の素朴さだと思います。 だからここに私の質問があります: まったく仮定を行わないモデルを使用して、どのような有用な統計的推論を行うことができますか? 対象の最尤法を使用した重要な実際のデータを使用したケーススタディはありますか?これらの方法は広く使用され、受け入れられていますか? すべての不正確なモデルは本当に役に立たないのですか? あなたが些細な場合以外の正確なモデルを持っていることを知ることは可能ですか? これがあまりにも意見に基づいているため、トピックから外れている場合、どこで議論できますか?ファン・デル・ラーン博士の記事は間違いなく議論が必要だからです。

10
ビッグデータとは正確には何ですか?
私は何度か質問をされました: ビッグデータとは何ですか? 統計とMLをめぐる話題を取り上げている学生と私の親sによるもの。 このCV-postを見つけました。そして、私はそこで唯一の答えに同意すると感じています。 Wikipediaのページには、さらにその上にいくつかのコメントがありますが、私は本当にそこにすべてに同意するかどうかはわかりません。 編集:( 私はウィキペディアのページでは、これに取り組む方法と私が以下で言及するパラダイムを説明することに欠けていると感じています)。 私は最近エマニュエル・カンデスの講義に参加しました。彼はビッグデータのパラダイムを次のように紹介しました。 最初にデータを収集後で質問する⇒⇒\Rightarrow これは、仮説駆動型の研究との主な違いです。最初に仮説を立ててから、データを収集してそれについて何かを言います。 彼は、データスヌーピングによって生成された仮説の信頼性を定量化する問題に多くのことを取り組みました。私が彼の講義から取り上げた主なことは、FDRを制御し始める必要があるということであり、彼はそのための模造法を提示しました。 CVには、Big-Dataとは何か、それについてのあなたの定義は何かについて質問すべきだと思います。さまざまな「定義」があり、それが何で構成されているかについて一般的なコンセンサスがなければ、それが何であるかを本当に把握したり、他の人に説明したりするのは難しいと思います。 私はと感じている「の定義/パラダイム/説明」あなたの考えは何ですか、Candèsが提供するが、私は同意する最も近いものでしょうか? EDIT2:答えは、データ自体の単なる説明以上のものを提供する必要があると思います。データ/メソッド/パラダイムの組み合わせである必要があります。 EDIT3:マイケル・ジョーダンとのこのインタビューは、テーブルにも何かを追加できると思います。 EDIT4:私は正しいものとして最高の投票された答えを選ぶことにしました。私はすべての答えが議論に何かを加えると思うが、私はこれが仮説を生成し、データを操作する方法のパラダイムの問題であると個人的に感じていますが。この質問が、Big-Dataとは何かを探している人たちの参考資料のプールとして役立つことを願っています。多重比較の問題とFDRの制御をさらに強調するために、ウィキペディアのページが変更されることを願っています。
44 large-data 


6
お気に入りの統計グラフは何ですか?
これは私のお気に入りです この例はユーモラスなものです(クレジットは私の前教授であるSteven Gortmakerに帰属します)が、統計的洞察や方法を美しくキャプチャし、それについてのアイデアを伝えるグラフにも興味があります。 回答ごとに1つのエントリ。もちろん、この質問は、あなたの好きな「データ分析」漫画とは何ですか? 提供する画像には適切なクレジット/引用を提供してください。

4
他の機能マップを作成するために、機能マップにカーネルをどのように適用しますか?
畳み込みニューラルネットワークの畳み込み部分を理解しようとしています。次の図を見てください。 4つの異なるマップ(サイズ)がある最初の畳み込み層を理解するのに問題はありません。これは、入力画像と畳み込んで4つの特徴マップを取得します。k×kk×kk \times k 私が理解できないのは、次の畳み込み層で、4つのフィーチャマップから6つのフィーチャマップに移動します。このレイヤーに6つのカーネルがあると想定しています(その結果、6つの出力機能マップが提供されます)が、これらのカーネルはC1に示されている4つの機能マップでどのように機能しますか?カーネルは3次元ですか、それとも2次元であり、4つの入力フィーチャマップにわたって複製されていますか?

4
なぜ統計学者は、帰無仮説を受け入れるのではなく、有意でない結果は「あなたはヌルを拒否できない」ことを意味すると言うのでしょうか?
2サンプルt検定のような従来の統計的検定は、2つの独立したサンプルの関数に差がないという仮説を排除しようとすることに焦点を当てています。次に、信頼レベルを選択し、平均の差が95%レベルを超えている場合、帰無仮説を棄却できると言います。そうでない場合、「帰無仮説を拒否することはできません」。これは、私たちもそれを受け入れることができないことを暗示しているようです。帰無仮説が正しいかどうかわからないということですか? 次に、2つのサンプルの関数が同じであるという仮説を立てるテストを設計します(これは、2つのサンプルが異なるという仮説である従来の統計検定の反対です)。したがって、私の帰無仮説は、2つのサンプルが異なるというものになります。このようなテストをどのように設計する必要がありますか?p値が5%未満の場合、有意差がないという仮説を受け入れることができると言うのと同じくらい簡単でしょうか?

5
学術論文に掲載されている統計
私は、統計が教科書の外で「現実世界」でどのように使用されているかを見るという特定の目的で、多くの進化的/生態学的な学術論文を読みました。私は通常、論文の統計を福音として取り上げ、統計の学習に役立つように論文を使用します。結局のところ、論文を書くのに何年もかかり、厳格な査読を経たなら、統計は確かに堅実になるでしょうか?しかし、過去数日間、私は自分の仮定に疑問を呈し、学術論文で発表された統計分析がどのくらいの頻度で疑われるのか疑問に思っていました。特に、生態学や進化などの分野の人々は、統計の学習に費やす時間を減らし、自分の分野の学習により多くの時間を費やすことが期待されます。 学術論文で疑わしい統計を見つける頻度はどれくらいですか?

1
複数のランダム変数の積の分散
2つの独立変数の答えを知っています: V a r(XY)= E(X2Y2)− (E(XY))2= V a r(X)V a r(Y)+ V a r(X)(E(Y))2+ V a r(Y)(E(X))2Var(XY)=E(X2Y2)−(E(XY))2=Var(X)Var(Y)+Var(X)(E(Y))2+Var(Y)(E(X))2 {\rm Var}(XY) = E(X^2Y^2) − (E(XY))^2={\rm Var}(X){\rm Var}(Y)+{\rm Var}(X)(E(Y))^2+{\rm Var}(Y)(E(X))^2 しかし、3つ以上の変数の積をとると、各変数の分散と期待値の観点から答えはどうなりますか?V a r( X1バツ2⋯ Xn)Var(X1X2⋯Xn){\rm Var}(X_1X_2 \cdots X_n)

3
p値を組み合わせるとき、なぜ平均化しないのですか?
最近、p値を結合するFisherの方法について学びました。これは、nullの下のp値が一様分布に従うこと、および これは天才だと思います。しかし、私の質問は、なぜこの複雑な方法で行くのですか?そして、なぜp値の平均を使用し、中央限界定理を使用しないのですか?または中央値?この壮大な計画の背後にあるRAフィッシャーの天才を理解しようとしています。−2∑i=1nlogXi∼χ2(2n), given X∼Unif(0,1)−2∑i=1nlog⁡Xi∼χ2(2n), given X∼Unif(0,1)-2\sum_{i=1}^n{\log X_i} \sim \chi^2(2n), \text{ given } X \sim \text{Unif}(0,1)

1
Cohenのカッパ分散(および標準誤差)の計算
Kappa()統計は、2人の評価者間の一致を測定するために、コーエン[1]によって1960年に導入されました。しかし、その分散はかなり長い間矛盾の原因でした。κκ\kappa 私の質問は、大きなサンプルでどの分散計算を使用するのが最適かについてです。私は、Fleiss [2]によってテストおよび検証されたものが正しい選択であると信じていますが、これが正しいと思われる唯一の公開されたものではないようです(かなり最近の文献で使用されています)。 現在、漸近の大きなサンプル分散を計算する2つの具体的な方法があります。 Fleiss、Cohen、Everittが公開した修正済みメソッド[2]。 Colgaton、2009 [4](106ページ)の本に記載されているデルタ方式。 この混乱の一部を説明するために、ここに強調鉱山のFleiss、CohenおよびEveritt [2]による引用があります。 多くの人間の努力は、最終的な成功が達成される前に繰り返される失敗に呪われています。エベレスト山のスケーリングはその一例です。北西航路の発見は2番目です。kappaの正しい標準誤差の導出は3番目です。 そのため、ここで何が起こったのかを簡単に要約します。 1960:Cohenは、論文「名目スケールの一致係数」[1]を発行し、と呼ばれる2人の評価者間の偶然修正された一致の尺度を紹介します。ただし、彼は分散計算の誤った式を公開しています。κκ\kappa 1968年:エヴァーリットはそれらを修正しようとしますが、彼の式も間違っていました。 1969:Fleiss、CohenおよびEverittは、論文「KappaおよびWeighted Kappaの大きなサンプル標準誤差」[2]で正しい式を公開しています。 1971:Fleiss は、同じ名前で別の統計(ただし、別の統計)を公開しますが、分散の式は正しくありません。κκ\kappa 1979:Fleiss NeeとLandisは、Fleissの修正された式を公開しています。κκ\kappa 最初に、次の表記法を検討します。この表記は、ドットが置かれている次元のすべての要素に加算演算子が適用されることを意味します。 pi.=∑j=1kpij pi.=∑j=1kpij\ \ \ p_{i.} = \displaystyle\sum_{j=1}^{k} p_{ij} p.j=∑i=1kpij p.j=∑i=1kpij\ \ \ p_{.j} = \displaystyle\sum_{i=1}^{k} p_{ij} これで、カッパを次のように計算できます。 κ^=po−pc1−pe κ^=po−pc1−pe\ \ \ \hat\kappa = \displaystyle\frac{p_o-p_c}{1-p_e} その中で po=∑i=1kpii po=∑i=1kpii\ \ \ p_o …

7
なぜ誰かが、従来のアプローチの代わりに「情報価値のない」不適切な事前のベイジアンアプローチを使用するのでしょうか?
関心が単にモデルのパラメーターを推定するだけで(ポイントワイズおよび/または間隔推定)、以前の情報が信頼できず、弱い場合(これは少しあいまいですが、選択のシナリオを確立しようとしています)事前は困難です)...なぜ誰かが、古典的なアプローチの代わりに「非情報的」な不適切な事前確率でベイジアンアプローチを使用することを選択するのでしょうか?

8
ベイジアン分析の短所は何ですか?
どんな状況でもベイジアン統計法の使用に対する実際的な反対は何ですか?いいえ、私は事前の選択についての通常の対処を意味しません。答えが得られない場合は喜んでいます。
44 bayesian 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.