統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

2
これは最先端の回帰方法論ですか?
私は長い間Kaggleのコンペティションをフォローしてきましたが、多くの勝利戦略には、「ビッグスリー」の少なくとも1つ、つまりバギング、ブースティング、スタックの使用が含まれることに気付きました。 回帰については、可能な限り最良の回帰モデルの構築に焦点を当てるのではなく、(一般化)線形回帰、ランダムフォレスト、KNN、NN、SVM回帰モデルなどの複数の回帰モデルを構築し、合理的な方法で結果を1つにブレンドします-個々のメソッドを何回も実行します。 もちろん、各方法をしっかり理解することが重要であり、線形回帰モデルに基づいて直感的なストーリーを伝えることができますが、これが最良の結果を達成するための最先端の方法論になっているのではないかと思っています。

3
(なぜ)コホーネンスタイルのSOMは支持されなくなったのですか?
私の知る限り、コホーネンスタイルのSOMは2005年頃にピークを迎えましたが、最近はあまり好まれていません。私は、SOMが別の方法に包まれている、または他の方法と同等であると証明されている(とにかく高次元で)ことを示す論文を見つけませんでした。しかし、たとえばWikipediaやSciKit Learnなどでは、tSNEや他のメソッドがより多くのインクを獲得しているように思われ、SOMは歴史的なメソッドとしてより多く言及されています。 (実際、Wikipediaの記事は、SOMが競合他社に対して一定の利点を持ち続けていることを示しているように見えますが、リストの中で最も短いエントリでもあります。編集:gungのリクエストにより、私が考えている記事の1つは、非線形次元削減です。SOMは他の方法よりも記述されていないことに注意してください。SOMが他のほとんどの方法よりも優れているという利点を述べた記事を見つけることができません。) 洞察はありますか?他の誰かがなぜSOMが使用されていないのかを尋ね、しばらく前から参考文献を入手し、SOM会議の議事録を見つけましたが、SVMやtSNEなどの台頭がポップ機械学習でSOMを覆い隠しただけではないかと思っていました。 編集2:純粋な偶然の一致により、私は今晩、非線形次元削減に関する2008年の調査を読んでいたが、例としてのみ言及している:Isomap(2000)、locally linear embedding(LLE)(2000)、Hessian LLE(2003)、Laplacian eigenmaps(2003)、および半正定値埋め込み(SDE)(2004)。

8
データから外れ値を削除しても大丈夫ですか?
データセットから外れ値を削除する方法を探しましたが、この質問を見つけました。 ただし、この質問に対するいくつかのコメントと回答では、データから外れ値を削除するのは悪い習慣であると人々は言及しました。 私のデータセットには、測定エラーが原因である可能性が高いいくつかの外れ値があります。それらのいくつかがそうでなくても、私はそれをケースバイケースでチェックする方法がありません。なぜなら、あまりにも多くのデータポイントがあるからです。外れ値を削除するだけでなく、統計的に有効ですか?または、そうでない場合、別の解決策は何ですか? それらのポイントをそこに残すだけで、それらは現実を反映しない方法で平均に影響を与えます(それらのほとんどはとにかくエラーであるため)。 編集:私は皮膚コンダクタンスデータを扱っています。極端な値のほとんどは、誰かがワイヤーを引っ張るようなアーティファクトによるものです。 EDIT2:データの分析における私の主な関心は、2つのグループに違いがあるかどうかを判断することです
33 outliers 


1
因子分析/ PCAで回転を行う背後にある直感的な理由と、適切な回転を選択する方法は何ですか?
私の質問 因子分析で因子(またはPCAのコンポーネント)の回転を行う背後にある直感的な理由は何ですか? 私の理解では、変数が最上位のコンポーネント(または要因)にほぼ均等にロードされる場合、コンポーネントを区別することは明らかに困難です。そのため、この場合、回転を使用してコンポーネントをより適切に区別できます。これは正しいです? 回転を行うとどうなりますか?これは何に影響しますか? 適切なローテーションを選択する方法は?直交回転と斜め回転があります。これらの選択方法と、この選択の意味は何ですか? 最小限の数式で直感的に説明してください。広範にわたる答えはほとんどありませんでしたが、私は直感的な理由と経験則でもっと探しています。

2
Rで四分位を見つける
私はRを学習しながら統計の教科書を読んでいますが、次の例で障害に遭遇しました: 見た後、?quantile私は次のようにしてRでこれを再作成しようとしました: > nuclear <- c(7, 20, 16, 6, 58, 9, 20, 50, 23, 33, 8, 10, 15, 16, 104) > quantile(nuclear) 0% 25% 50% 75% 100% 6.0 9.5 16.0 28.0 104.0 テキストとRの結果が異なることを考えると、Rが1番目と3番目の四分位数の計算で中央値を利用していることを収集しています。 質問: 1番目と3番目の四分位数の計算に中央値を含める必要がありますか? より具体的には、教科書またはRにこれは正しいですか?教科書にこれが正しい場合、Rでこれを適切に達成する方法はありますか? 前もって感謝します。
33 r  quantiles 


2
Hosmer-Lemeshowテストのの自由度
ロジスティック回帰モデルの適合度(GOF)に対するHosmer-Lemeshow検定(HLT)の検定統計量は、次のように定義されます。 その後、サンプルは単位、に分割され、十分位ごとに次の量が計算されます。d= 10d=10d=10D1、D2、… 、DdD1、D2、…、DdD_1, D_2, \dots , D_{d} O1つのD= ∑I ∈ Ddy私O1d=∑私∈Ddy私O_{1d}=\displaystyle \sum_{i \in D_d} y_i、すなわち、十分位数での陽性症例の観測数。DdDdD_d O0 d= ∑I ∈ Dd(1 − y私)O0d=∑私∈Dd(1−y私)O_{0d}=\displaystyle \sum_{i \in D_d} (1-y_i)、すなわち、十分位数で観測された負のケースの数。DdDdD_d E1つのD= ∑I ∈ Ddπ^私E1d=∑私∈Ddπ^私E_{1d}=\displaystyle \sum_{i \in D_d} \hat{\pi}_i、つまり十分位数陽性症例の推定数。DdDdD_d E0 d= ∑I ∈ Dd(1 - π^私)E0d=∑私∈Dd(1−π^私)E_{0d}= \displaystyle \sum_{i \in D_d} (1-\hat{\pi}_i)、すなわち、十分位数負のケースの推定数。DdDdD_d ここで、は番目の観測の観測されたバイナリ結果で、はその観測の推定確率です。y私y私y_iπ I私私iπ^私π^私\hat{\pi}_i 次に、検定統計量は次のように定義されます。 …

4
(なぜ)オーバーフィットモデルは大きな係数を持つ傾向がありますか?
変数の係数が大きいほど、モデルはその次元で「スイング」する能力が大きくなり、ノイズに適合する機会が増えると思います。モデルの分散と大きな係数との関係については合理的な意味を持っていると思いますが、オーバーフィットモデルでそれらが発生する理由についてはあまり意味がありません。それらが過剰適合の症状であり、係数の収縮はモデルの分散を減らすための技術であると言うのは間違っていますか?係数の縮小による正則化は、大きな係数は過剰適合モデルの結果であるという原則に基づいているようですが、おそらくこの手法の背後にある動機を誤解しているのでしょう。 大きな係数は一般に過剰適合の症状であるという私の直感は、次の例から得られます。 すべてがx軸上にある点をフィットさせたいとしましょう。これらの点がある多項式を簡単に構築できます。私たちのポイントがでているとしましょう。この手法は、10以上のすべての係数を提供します(1つの係数を除く)。さらにポイントを追加すると(したがって、多項式の次数が増加します)、これらの係数の大きさは急速に増加します。f (x )= (x − x 1)(x − x 2)。。。。(X - X N - 1)(X - X N)のx = 1 、2 、3 、4nnnf(x)=(x−x1)(x−x2)....(x−xn−1)(x−xn)f(バツ)=(バツ−バツ1)(バツ−バツ2)。。。。(バツ−バツn−1)(バツ−バツn)f(x) = (x-x_1)(x-x_2)....(x-x_{n-1})(x-x_n)x=1,2,3,4バツ=1、2、3、4x=1,2,3,4 この例は、現在、モデル係数のサイズと生成されたモデルの「複雑さ」をどのように結びつけているのかを示していますが、実際の動作を実際に示すためにこのケースが不毛になることを心配しています。私は意図的にオーバーフィットモデル(2次サンプリングモデルから生成されたデータにフィットする10次多項式OLS)を構築し、私のモデルでほとんど小さな係数を見ることに驚きました: set.seed(123) xv = seq(-5,15,length.out=1e4) x=sample(xv,20) gen=function(v){v^2 + 7*rnorm(length(v))} y=gen(x) df = data.frame(x,y) model = lm(y~poly(x,10,raw=T), data=df) summary(abs(model$coefficients)) # Min. 1st Qu. Median …

7
(巨大な)ひねりを加えた誕生日のパラドックス:正確に同じ生年月日をパートナーと共有する確率?
私はボーイフレンドと同じ生年月日、同じ日付、同じ年を共有しています。私たちの生年月日はわずか5時間ほどしか離れていません。 私と同じ日に生まれた人に会う可能性はかなり高いことを知っていますし、誕生日のパラドックスについて読んだことはほとんどありませんが、私の誕生日を共有する人を知っていますアカウントに同じ年。以前に確率について議論したことがありますが、私はまだ満足していません。私のポイントは、あなたが関係にある確率を考慮すれば、チャンスはわずかであるということでした(Xの時間の間、それで成功します)。考慮すべき要因の量は非常に膨大です(ポイント、性別、年齢、可用性、地域での分離の可能性など)。 このようなものの確率を計算することさえ可能ですか?どうしますか?


3
glmモデルの残差診断プロットを解釈しますか?
glmモデルの残差プロットの解釈方法に関するガイドラインを探しています。特にポアソン、負の二項、二項モデル。モデルが「正しい」場合、これらのプロットから何を期待できますか?(たとえば、ポアソンモデルを扱う場合、予測値が増加すると分散が大きくなると予想されます) 答えはモデルに依存することを知っています。参考文献(または考慮すべき一般的なポイント)があれば参考になります。

4
素粒子物理学で証拠を受け入れるための「
ニュースレポートによると、CERN は明日、ヒッグス粒子が5つの証拠で実験的に検出されたことを発表すると発表しています。その記事によると:σσ\sigma 5は、CMSおよびATLAS検出器が見ているデータがランダムノイズではない99.99994%の可能性に相当します。5は、何かが科学的な「発見」と正式にラベル付けされるために必要な確実性です。σσσ\sigmaσσ\sigma これは、超厳格ではありませんが、物理学者は、統計的な手法を「仮説検定」の設定標準を使用することを言っているようだにに、その対応(2がテイル)?それとも他の意味がありますか?0.0000006 Z = 5αα\alpha0.00000060.00000060.0000006z= 5z=5z=5 もちろん、科学の多くでは、アルファを0.05に設定することは日常的に行われています。これは "two- "の証拠に相当しますが、それが呼ばれたことは聞いたことがないです。アルファのより厳密な定義が標準である他のフィールド(粒子物理学以外)はありますか?5ルールが粒子物理学でどのように受け入れられたのかについてのリファレンスを知っている人はいますか?σσσ\sigmaσσ\sigma 更新:簡単な理由でこの質問をしています。私の本の直観的生物統計学(ほとんどの統計の本のように)には、通常の「P <0.05」ルールがいかにarbitrary 意的であるかを説明するセクションがあります。私は科学的分野のこの例を追加したいと思います。そこでは、はるかに(ずっと!)小さい値が必要と考えられています。しかし、例が実際にはより複雑で、ベイジアンメソッドを使用している場合(以下のコメントが示唆するように)、それはまったく適切ではないか、より多くの説明が必要になります。αα\alpha

2
p値を理解する
p値を説明する多くの資料があることを知っています。しかし、この概念は、さらに明確にしないとしっかりと把握するのは容易ではありません。 ウィキペディアのp値の定義は次のとおりです。 p値は、帰無仮説が真であると仮定して、少なくとも実際に観測されたものと同じくらい極端な検定統計量を取得する確率です。(http://en.wikipedia.org/wiki/P-value) 私の最初の質問は、「少なくとも実際に観察されたものと同じくらい極端な」という表現に関するものです。p値の使用の根底にあるロジックの私の理解は次のとおりです。p値が小さい場合、帰無仮説を仮定して観測が行われた可能性は低く、観測を説明するために代替仮説が必要になる場合があります。p値がそれほど小さくない場合は、帰無仮説を仮定するだけで観測が行われた可能性が高く、観測を説明するのに対立仮説は必要ありません。したがって、誰かが仮説を主張したい場合、彼/彼女は帰無仮説のp値が非常に小さいことを示さなければなりません。この見解を念頭に置いて、あいまいな表現の私の理解は、p値がmin[P(X&lt;x),P(x&lt;X)]min[P(X&lt;x),P(x&lt;X)]\min[P(X<x),P(x<X)]、統計のPDFが単峰性の場合、XXXは検定統計量、xxxは観測から取得した値です。これは正解?正しい場合、統計のバイモーダルPDFを使用することはまだ可能ですか?PDFの2つのピークが適切に分離されており、観測値が2つのピーク間の低確率密度領域のどこかにある場合、p値はどの間隔で確率を与えますか? 2番目の質問は、ヴォルフラムMathWorldからp値の別の定義についてです。 変量が偶然に厳密に観測値以上の値をとる確率。(http://mathworld.wolfram.com/P-Value.html) 「偶然に」というフレーズは「帰無仮説を仮定する」と解釈されるべきだと理解しました。そうですか? 3番目の質問は、「帰無仮説」の使用を考えています。誰かがコインが公正であることを主張したいと仮定しましょう。彼は、頭の相対頻度が0.5であるという仮説を表現しています。帰無仮説は、「頭の相対頻度は0.5ではありません」です。この場合、帰無仮説のp値の計算は困難ですが、対立仮説の計算は簡単です。もちろん、2つの仮説の役割を入れ替えることで問題を解決できます。私の質問は、元の対立仮説のp値に直接基づいた拒否または受け入れ(帰無仮説を導入せず)はそれがOKかどうかです。うまくいかない場合、帰無仮説のp値を計算するときのそのような困難に対する通常の回避策は何ですか? このスレッドでの議論に基づいて、より明確な新しい質問を投稿しました。

5
SVMは一度に1つの例を学習することができますか?
ストリーミングデータセットがありますが、例は一度に1つずつ入手できます。それらに対してマルチクラス分類を行う必要があります。学習プロセスにトレーニング例を提供したらすぐに、その例を破棄する必要があります。同時に、ラベルなしデータの予測を実行するために最新のモデルも使用しています。 私の知る限り、ニューラルネットワークは、サンプルを1つずつフィードし、そのサンプルで順伝播と逆伝播を実行することにより、ストリーム学習を行うことができます。 SVMは一度に1つの例を学習するストリームを実行し、すぐに例を破棄できますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.