統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

17
機械学習のクックブック/リファレンスカード/チートシート?
Probability and Statistics Cookbookやデータマイニング用のR Reference Cardなどのリソースは非常に便利です。それらは明らかに参考資料として役立ちますが、主題に関する私の考えを整理し、土地を築くのにも役立ちます。 Q:これらのリソースのようなものは、機械学習方法に存在しますか? 各MLメソッドに含まれる参照カードを想像しています: 一般的なプロパティ メソッドがうまく機能するとき メソッドが不十分な場合 どのメソッドから、または他のどのメソッドにメソッドが一般化されるか。ほとんど置き換えられましたか? メソッドに関する独創的な論文 メソッドに関連する未解決の問題 計算強度 これらすべては、私が確信している教科書を少し掘り下げることで見つけることができます。それらを数ページにすると便利です。

8
カテゴリデータを連続として扱うのは理にかなっていますか?
離散データと連続データに関するこの質問に答える際、カテゴリデータを連続データとして扱うことはほとんど意味がないと断言しました。 一見すると自明のように思えますが、直観はしばしば統計の貧弱なガイドであり、少なくとも私の場合はそうです。だから今私は疑問に思う:それは本当ですか?または、カテゴリデータから連続体への変換が実際に役立つ分析が確立されていますか?データが序数である場合、違いが生じますか?

2
ベイズ回帰:標準回帰と比較してどのように行われますか?
ベイジアン回帰についていくつか質問がありました。 として標準回帰をます。これをベイジアン回帰に変更したい場合、と両方の事前分布が必要ですか(またはこの方法では機能しませんか)?y=β0+β1x+εy=β0+β1x+εy = \beta_0 + \beta_1 x + \varepsilonβ0β0\beta_0β1β1\beta_1 標準回帰では、残差を最小化しておよび単一の値を取得しようとします。これはベイズ回帰でどのように行われますか?β0β0\beta_0β1β1\beta_1 私はここで本当に苦労しています: posterior=prior×likelihoodposterior=prior×likelihood \text{posterior} = \text{prior} \times \text{likelihood} 尤度は現在のデータセットから得られます(したがって、それは私の回帰パラメーターですが、単一の値としてではなく、尤度分布としてですよね?)。事前は、以前の研究から得られます(言いましょう)。だから私はこの方程式を得ました: y=β1x+εy=β1x+ε y = \beta_1 x + \varepsilon 私の可能性または後部であること(または、これは単に完全に間違っていますか)? β1β1\beta_1 標準回帰がベイズ回帰に​​どのように変換されるのか、単純に理解できません。


3
ログスケールはいつ適切ですか?
時系列グラフのy軸など、特定の状況でグラフ化/グラフ化が適切な場合にログスケールを使用することを読みました。しかし、なぜそうなのか、それが適切な場合についての明確な説明を見つけることができませんでした。私は統計学者ではないので、この点を完全に見逃しているかもしれないことを覚えておいてください。もしそうなら、改善策の方向性に感謝します。

3
サンプルの標準偏差が
標準偏差の不偏推定に関するウィキペディアの記事によると、サンプルSD s = 1n − 1∑i = 1n(x私− x¯¯¯)2−−−−−−−−−−−−−−−√s=1n−1∑i=1n(xi−x¯)2s = \sqrt{\frac{1}{n-1} \sum_{i=1}^n (x_i - \overline{x})^2} 人口のSDの偏った推定量です。これは、と述べている。E(s2−−√)≠ E(s2)−−−−−√E(s2)≠E(s2)E(\sqrt{s^2}) \neq \sqrt{E(s^2)} NB。ランダム変数は独立しており、それぞれバツ私〜N(μ 、σ2)xi∼N(μ,σ2)x_{i} \sim N(\mu,\sigma^{2}) 私の質問は2つあります。 偏見の証拠は何ですか? サンプル標準偏差の期待値をどのように計算しますか 数学/統計に関する私の知識は中程度です。

7
業界とKaggleの課題。派手なモデリングよりも多くの観測を収集し、より多くの変数にアクセスすることが重要ですか?
タイトルが自明であることを願っています。Kaggleでは、ほとんどの勝者は何百ものベースモデルとスタックを使用して、MSEの数%、精度を圧縮します...一般的に、あなたの経験では、スタックなどの派手なモデリングはどれだけ重要ですか?データのために?

9
「80人に1人が自動車事故によって引き起こされた」を「80人に1人が自動車事故の結果として死亡した」と言い換えることは間違っていますか?
ステートメント1(S1):「80人に1人の死亡は自動車事故によるものです。」 ステートメント2(S2):「80人に1人が自動車事故の結果死亡しました。」 今、私は個人的に、これらの2つのステートメントの間に大きな違いは見ていません。書くとき、私はそれらを一般の聴衆と交換可能であると考えます。しかし、私はこれについて2人の人に挑戦されており、いくつかの追加の視点を探しています。 S2のデフォルトの解釈は、「人間の人口から一様にランダムに引き出された80人のうち、そのうちの1人が自動車事故の結果として死亡することを期待します」です。 私の質問は次のとおりです。 Q1)デフォルトの解釈は、実際にはステートメント1と同等ですか? Q2)これが私のデフォルトの解釈であるのは珍しいですか、無謀ですか? Q3)S1とS2が異なると思う場合、1つ目が誤解を招く/間違っているという意味で2つ目を述べる場合、同等のS2の完全修飾リビジョンを提供してください。 S1が人間の死を具体的に言及していないという明白なめ事を脇に置き、それが文脈で理解されていると仮定しましょう。また、クレーム自体の真実性についての議論はさておき、説明のためのものです。 私の知る限り、これまでに聞いた意見の不一致は、最初と2番目のステートメントの異なる解釈に対するデフォルトを中心としているようです。 最初は、私の挑戦者は1/80 * num_deaths =自動車事故による死者数と解釈しますが、何らかの理由で、「もしあなたが何かセットを持っているなら、 80人の、そのうちの一つがします(明らかに同等の請求ではありません)車の事故」で死亡します。S1の解釈を考えると、S2のデフォルトは(1/80 * num_dead_people =自動車事故で亡くなった人の数==自動車事故による死者の数)と解釈されると思います。なぜ解釈に矛盾があるのか​​(S2のデフォルトがはるかに強い仮定である)、またはそれらに私が実際には欠けているという生来の統計的意味があるかどうかはわかりません。


6
L2正則化はガウス事前分布と同等です
私はこれを読み続け、直感的にこれを見ることができますが、L2の正則化から分析的にガウス事前分布であると言うにはどうすればよいですか?L1がラプラシアンの事前分布と同等であることも同じです。 それ以上の参照は素晴らしいでしょう。

1
Rのロジスティック回帰により、完全な分離が発生しました(Hauck-Donner現象)。それで?
50の連続した説明変数を使用してバイナリの結果を予測しようとしています(ほとんどの変数の範囲はから)。私のデータセットにはほぼ24,000行あります。Rで実行すると、次のようになります。−∞−∞-\infty∞∞\inftyglm Warning messages: 1: glm.fit: algorithm did not converge 2: glm.fit: fitted probabilities numerically 0 or 1 occurred 完全な分離が発生している可能性があることを示唆する他の応答を読みましたが、データにはそうではないと確信しています(準完全な分離が存在する可能性がありますが、そうであるかどうかを確認するにはどうすればよいですか?) 。一部の変数を削除すると、「収束しませんでした」エラーがなくなる可能性があります。しかし、それは常に起こることではありません。 bayesglm関数で同じ変数を使用しようとすると、同じエラーが発生しました。 ここで何が起こっているのかを正確に把握するには、どのようなステップを踏むでしょうか?どの変数が問題を引き起こしているのかをどのように把握しますか?

4
95%の信頼区間内のすべての値が等しく発生する可能性はありますか?
「平均値の差または比率の差の95%信頼区間(CI)を構築する場合、CI内のすべての値は等しく発生する可能性がありますか?または、ポイント推定値が最も発生する可能性があります、CIの「テール」に近い値はCIの中央にある値よりも少ない可能性がありますか? たとえば、特定の治療による死亡の相対リスクが1.06(95%CI 0.96から1.18)であるとランダム化臨床試験レポートに記載されている場合、0.96が正しい値である可能性は1.06と同じですか? この概念に関する多くの参照がオンラインで見つかりましたが、次の2つの例はその中の不確実性を反映しています。 信頼区間に関する Lisa Sullivanのモジュールの状態: 平均の差の信頼区間は、(μ1−μ2μ1−μ2μ_1-μ_2)の可能性のある値の範囲を提供します。信頼区間のすべての値は、(μ1−μ2μ1−μ2μ_1-μ_2)の真の値の推定値である可能性が等しいことに注意することが重要です。 「エラーの範囲内」というタイトルのこのブログ投稿は次のように述べています。 私が念頭に置いているのは、中央限界定理がt分布ではなく有界均一分布を暗示しているかのように、信頼区間内のすべての点を同等に扱う「誤差範囲」についての誤解です。[...] 「エラーのマージン」ミスについて話すことは、ポイント推定値に近い可能性が、マージンの端にある可能性よりもはるかに高いということです。 これらは矛盾しているように見えるので、どちらが正しいですか?

6
統計的検定に対するフィッシャーとネイマン・ピアソンのアプローチ間の「ハイブリッド」は、実際には「インコヒーレントなミッシュマッシュ」ですか?
統計的検定への最も普及しているアプローチは、フィッシャーのアプローチとネイマン・ピアソンのアプローチの2つのアプローチの「ハイブリッド」であるという考え方があります。主張によれば、これらの2つのアプローチは「互換性がない」ため、結果の「ハイブリッド」は「一貫性のないミッシュマッシュ」です。以下に参考文献といくつかの引用を提供しますが、現時点では、統計的仮説検定に関するウィキペディアの記事にそれについて多くのことが書かれていると言って十分です。CVでは、@ Michael Lewがこの点を繰り返し述べています(こちらとこちらをご覧ください)。 私の質問は次のとおりです。なぜFとNPのアプローチは互換性がないと主張され、ハイブリッドは一貫性がないと主張されるのですか?少なくとも6つのアンチハイブリッドペーパー(下記を参照)を読みましたが、それでも問題や議論を理解できないことに注意してください。また、FまたはNPがより良いアプローチであるかどうかを議論することを提案していないことに注意してください。頻度主義者対ベイジアンの枠組みについて議論することも申し出ていません。代わりに、問題は次のとおりです。FとNPの両方が有効で意味のあるアプローチであることを受け入れると、ハイブリッドのどこが悪いのでしょうか。 ここに私が状況を理解する方法があります。フィッシャーのアプローチは、値を計算し、それを帰無仮説に対する証拠とすることです。小さいほど、証拠を確信させることができます。研究者は、この証拠を彼の背景知識と組み合わせ、それが十分に説得力があるかどうかを判断し、それに応じて進むことになっています。(フィッシャーの見解は長年にわたって変化したが、これは彼が最終的に収束したように見えることに注意してください。)対照的に、Neyman-Pearsonアプローチは事前にを選択し、をチェックすることですP αのp個の≤のαppppppαα\alphap≤αp≤αp\le\alpha; もしそうなら、それを重要と呼び、帰無仮説を拒否します(ここでは、現在の議論に関係のないNPストーリーの大部分を省略します)。FisherとNeyman-Pearsonのフレームワークを使用するタイミングは?の @gungによる優れた返信も参照してください。 ハイブリッドアプローチは、値を計算し、それを報告し(暗黙的に小さい方が良いと仮定して)、場合は有意な結果(通常は)、それ以外の場合は有意でない結果も呼び出します。これは一貫性のないことになっています。2つの有効なことを同時に行うのはどうして無効なのでしょうか。のp ≤のαのα = 0.05pppp≤αp≤αp\le\alphaα=0.05α=0.05\alpha=0.05 特に一貫性のない反ハイブリッド主義者は、値を、、または(または)として報告する広範な慣行を、常に最も強い不平等が選択されるとます。議論は、(a)正確なが報告されないため、証拠の強度を適切に評価できないこと、および(b)不等式の右辺の数をとして解釈し、それをタイプIエラーと見なす傾向があると思われるレート、それは間違っています。ここで大きな問題は見当たりません。第一に、正確な報告することは確かに良い習慣ですが、が例えばか、、P &lt; 0.05 、P &lt; 0.01 、P &lt; 0.001 のp « 0.0001 のp α のp のp 0.02 0.03 〜0.0001 0.05 α = 0.05 、P ≠ α αpppp&lt;0.05p&lt;0.05p<0.05p&lt;0.01p&lt;0.01p<0.01p&lt;0.001p&lt;0.001p<0.001p≪0.0001p≪0.0001p\ll0.0001pppαα\alphapppppp0.020.020.020.030.030.03なので、ログスケールで丸めてもそれほど悪くありません(そしてを下回ることは意味がありません。小さなp値を報告する方法を参照してください)。第二に、コンセンサスが未満のすべてを有意と呼ぶ場合、エラー率はおよびになります。@ gungは仮説検定でのp値の解釈で説明しています。これは混乱を招く可能性のある問題ですが、統計テスト(ハイブリッド以外)の他の問題よりも混乱させることはありません。また、すべての読者は、ハイブリッドペーパーを読むときに自分のお気に入りのを念頭に置くことができ、その結果として自分のエラー率を知ることができます。∼0.0001∼0.0001\sim 0.00010.050.050.05α=0.05α=0.05\alpha=0.05p≠αp≠αp \ne \alphaαα\alphaそれで、大したことは何ですか? 私がこの質問をしたい理由の1つは、統計仮説検定に関するウィキペディアの記事のどれだけがハイブリッドの暴行に当てられているかを見るのが文字通り痛いからです。ハルピン&スタムに続いて、それが(そこに彼の教科書のも、大きなスキャンが黄色でハイライト「エラー」である)、そしてもちろんAA一定リンドクイストは責任があると主張リンドクイスト自分自身についてのwikiの記事が同じ告発で始まります。しかし、その後、多分私は何かを見逃しています。 参照資料 Gigerenzer、1993年、超自我、自我、および統計的推論のidは - 「ハイブリッド」という用語を導入し、「支離滅裂寄せ集め」と呼びました Gigerenzer et …

8
深層学習のためのRライブラリ
ディープラーニングニューラルネットワーク用の優れたRライブラリがあるかどうか疑問に思っていましたか?私は知っているnnet、neuralnetとRSNNS、これらのどれも深い学習方法を実装するように見えるん。 特に、教師なし学習に続いて教師なし学習に興味があり、ドロップアウトを使用して共同適応を防ぎます。 / edit:数年後、h20ディープラーニングパッケージは非常に適切に設計され、インストールが簡単であることがわかりました。mxnetパッケージも大好きです。これはインストールが(少し)難しいですが、covnetなどをサポートし、GPU上で実行され、非常に高速です。

9
lme4混合モデルの効果のp値(有意性をチェック)を取得する方法は?
Rでlme4を使用して混合モデルに適合させる lmer(value~status+(1|experiment))) 値が連続的であり、ステータスと実験が要因であり、私は得る Linear mixed model fit by REML Formula: value ~ status + (1 | experiment) AIC BIC logLik deviance REMLdev 29.1 46.98 -9.548 5.911 19.1 Random effects: Groups Name Variance Std.Dev. experiment (Intercept) 0.065526 0.25598 Residual 0.053029 0.23028 Number of obs: 264, groups: experiment, 10 Fixed effects: Estimate …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.