統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

6
確率のベイジアン対頻繁な解釈
確率に対するベイジアンアプローチと頻度主義的アプローチの違いを誰かが適切に要約できますか? 私が理解していることから: 専門家の見解では、データは特定の頻度/確率(試行回数が無限に近づくにつれて発生するイベントの相対頻度として定義されます)を持つ反復可能なランダムサンプル(ランダム変数)です。基礎となるパラメータと確率は、この反復プロセス中、変動がの変動によるものであることが一定のままとしない(特定のイベント/プロセスのために固定されている)の確率分布。XnXnX_n ベイジアンビューでは、データは固定されますが、特定のイベントの頻度/確率は変化する可能性があるため、分布のパラメーターが変化します。実際、取得するデータは、データの各セットに対して更新されるパラメーターの事前分布を変更します。 私には、イベントに特定の確率があり、変動がサンプリングにあることが合理的であると思われるため、頻度主義的アプローチがより実用的/論理的であると思われます。 さらに、研究からのほとんどのデータ分析は、容易に理解できるので、通常、頻繁なアプローチ(すなわち、信頼区間、p値を使用した仮説検定など)を使用して行われます。 頻度のp値と信頼区間のベイジアン統計的同等物を含む、頻度対ベイジアンのアプローチの解釈の簡単な要約を誰かが私に与えることができるかどうか疑問に思っていました。さらに、1つの方法が他の方法よりも好ましい特定の例が評価されます。

6
有意性検定の仮説としての効果サイズ
今日、Cross Validated Journal Clubで(なぜそこにいなかったのですか?)、@ mbqは次のように尋ねました: 私たち(現代のデータサイエンティスト)は、意味が何を意味するかを知っていると思いますか?そして、それが結果に対する自信にどのように関係しているのでしょうか? @Michelleは、一部の人(私を含む)が通常するように答えました: 私は自分のキャリアを続けるにつれて、重要性の概念(p値に基づく)がますます役に立たなくなってきています。たとえば、非常に大きなデータセットを使用することができるので、すべてが統計的に重要です(p &lt;.01p&lt;.01p<.01) これはおそらく愚かな質問ですが、問題は仮説が検証されているのではないでしょうか?帰無仮説「AはBに等しい」をテストすると、答えは「いいえ」であることがわかります。より大きなデータセットは、この必然的に真の結論に近づくだけです。「ラムの右側の毛の数はその左側の毛の数に等しい」という仮説で例を挙げたのはデミングだったと思います。もちろん、そうではありません。 より良い仮説は、「AはBとそれほど違いはありません」です。または、ラムの例では、「ラムの側面の毛の数はX%を超えて異ならない」。 これは理にかなっていますか?

5
ニューラルネットワークの動作を視覚化/理解する方法
ニューラルネットワークは、複雑な構造のため、「ブラックボックス」として扱われることがよくあります。これは理想的ではありません。多くの場合、モデルが内部でどのように機能しているかを直感的に把握することが有益だからです。トレーニングされたニューラルネットワークの動作を視覚化する方法は何ですか?または、どのようにしてネットワークの簡単に消化可能な記述を抽出できますか(たとえば、この非表示ノードは主にこれらの入力で動作します)? 私は主に2層のフィードフォワードネットワークに興味がありますが、より深いネットワークの解決策も聞きたいです。入力データは、本質的に視覚的または非視覚的のいずれかです。

2
確率不等式
無制限のランダム変数の合計の確率不等式を探しています。誰かが私にいくつかの考えを提供できるなら、本当に感謝しています。 私の問題は、実際には2つのiidガウスの乗算である無制限のiid確率変数の合計が特定の値、つまりを超える確率に関する指数の上限を見つけることです。、、とからIIDが生成される。Pr[X≥ϵσ2N]≤exp(?)Pr[X≥ϵσ2N]≤exp⁡(?)\mathrm{Pr}[ X \geq \epsilon\sigma^2 N] \leq \exp(?)X=∑Ni=1wiviX=∑i=1NwiviX = \sum_{i=1}^{N} w_iv_iwiwiw_iviviv_iN(0,σ)N(0,σ)\mathcal{N}(0, \sigma) モーメント生成関数(MGF)を使用してChernoff境界を使用しようとしましたが、派生境界は次のようになります。 Pr[X≥ϵσ2N]≤=minsexp(−sϵσ2N)gX(s)exp(−N2(1+4ϵ2−−−−−−√−1+log(1+4ϵ2−−−−−−√−1)−log(2ϵ2)))Pr[X≥ϵσ2N]≤minsexp⁡(−sϵσ2N)gX(s)=exp⁡(−N2(1+4ϵ2−1+log⁡(1+4ϵ2−1)−log⁡(2ϵ2)))\begin{eqnarray} \mathrm{Pr}[ X \geq \epsilon\sigma^2 N] &\leq& \min\limits_s \exp(-s\epsilon\sigma^2 N)g_X(s) \\ &=& \exp\left(-\frac{N}{2}\left(\sqrt{1+4\epsilon^2} -1 + \log(\sqrt{1+4\epsilon^2}-1) - \log(2\epsilon^2)\right)\right) \end{eqnarray} ここで、gX(s)=(11−σ4s2)N2gX(s)=(11−σ4s2)N2g_X(s) = \left(\frac{1}{1-\sigma^4 s^2}\right)^{\frac{N}{2}}はXのMGFですXXX。しかし、限界はそれほど厳しくありません。私の問題の主な問題は、ランダム変数が制限されていないことであり、残念ながら、ヘフディング不等式の境界を使用することはできません。 あなたが私にいくつかのきつい指数関数的境界を見つけるのを手伝ってくれれば幸いです。


3
変換された変数の密度の直感的な説明?
仮定 PDFとランダム変数である。次に、確率変数の確率密度関数はXXXfX(x)fX(x)f_X(x)Y=X2Y=X2Y=X^2 fY(y)={12y√(fX(y√)+fX(−y√))0y≥0y&lt;0fY(y)={12y(fX(y)+fX(−y))y≥00y&lt;0f_Y(y)=\begin{cases}\frac{1}{2\sqrt{y}}\left(f_X(\sqrt{y})+f_X(-\sqrt{y})\right) & y \ge 0 \\ 0 & y \lt 0\end{cases} この背後にある計算を理解しています。しかし、私は微積分を知らない人にそれを説明する方法を考えています。特に、因子が前面に現れる理由を説明しようとしています。私はそれに刺します:1y√1y\frac{1}{\sqrt{y}} 仮定ガウス分布を有します。pdfのほぼすべての重みは、値と間ですただし、 0〜9にマップされます。そのため、のpdfの重い重みは、への変換の値のより広い範囲にわたって拡張されています。したがって、が真のpdfであるためには、余剰重量を乗数因子だけ小さくする必要がありますXXX−3−3-33.3.3.YYYXXXYYYfY(y)fY(y)f_Y(y)1y√1y\frac{1}{\sqrt{y}} それはどのように聞こえますか? 誰かが自分自身のより良い説明を提供したり、文書や教科書のいずれかへのリンクを提供できれば、とても感謝しています。この変数変換の例は、いくつかのイントロ数学的確率/統計の本にあります。しかし、私はそれで直感的な説明を見つけることはありません:(

5
特徴的な機能の目的は何ですか?
私は、誰かが素人の言葉で、特徴的な機能とは何か、実際にどのように使用されるかを説明できることを望んでいます。私はそれがpdfのフーリエ変換であることを読んだので、私はそれが何であるか知っていると思いますが、私はまだその目的を理解していません。誰かがその目的の直感的な説明と、おそらくそれが通常どのように使用されるかの例を提供できれば、それは素晴らしいことです! 最後の注意点:Wikipediaのページを見たことがありますが、何が起こっているのかを理解するには密度が高すぎるようです。私が探しているのは、確率論の不思議に没頭していない人、たとえばコンピューター科学者が理解できる説明です。

3
StackExchange Webサイトでの機械学習メソッドの適用
今学期には機械学習コースがあり、教授は実世界の問題を見つけて、クラスで導入された機械学習方法の1つでそれを解決するように依頼しました。 決定木 人工ニューラルネットワーク サポートベクターマシン インスタンスベースの学習(kNN、LWL) ベイジアンネットワーク 強化学習 私はstackoverflowとstackexchangeのファンの1人であり、これらのウェブサイトのデータベースダンプが素晴らしいので一般に提供されていることを知っています!これらのデータベースに関する優れた機械学習の課題を見つけて解決できることを願っています。 私の考え 私が思いついたアイデアの1つは、質問本文に入力された単語に基づいて質問のタグを予測することです。ベイジアンネットワークは質問のタグを学習するのに適したツールだと思いますが、さらに調査が必要です。とにかく、ユーザーが質問の入力を終えた段階を学習した後、いくつかのタグが彼に提案されるべきです。 教えてください: MLに関する2つの質問について、統計コミュニティに経験豊富な人々に尋ねたいと思います。 タグの提案は少なくとも解決する可能性がある問題だと思いますか?それについて何かアドバイスはありますか?stackexchangeはまだそのような機能を実装していないので、少し心配です。 stackexchangeデータベースに基づくMLプロジェクトのその他の/より良いアイデアはありますか?stackexchangeデータベースから学ぶべきものを見つけるのは本当に難しいと思います。 データベースエラーに関する考慮事項: データベースは巨大で、多くのインスタンスを持っていますが、完全ではなく、エラーが発生しやすいことを指摘したいと思います。明白なのは、信頼できないユーザーの年齢です。質問に対して選択されたタグでさえ、100%正確ではありません。とにかく、問題を選択する際にデータの正確性の割合を考慮する必要があります。 問題自体についての考察:私のプロジェクトはdata-miningこのようなものであってはなりません。それは、実世界でのMLメソッドのアプリケーションであるべきです。

2
線形回帰で標準化された説明変数を使用するタイミングと方法
線形回帰について2つの簡単な質問があります。 説明変数を標準化することが推奨されるのはいつですか? 標準化された値で推定が実行されたら、新しい値でどのように予測できますか(新しい値を標準化する方法)。 いくつかの参考文献が役立ちます。


11
オープンソースの統計教科書?
Free統計教科書の質問などの統計教科書についての質問がいくつかありました。しかし、たとえば、Creative Commonsライセンスを持っているオープンソースの教科書を探しています。その理由は、他のドメインの教材では、基本的な統計に関するテキストを含める必要があるためです。この場合、既存の素材を書き換えるのではなく、その素材を再利用することは興味深いでしょう。 したがって、統計(およびおそらく機械学習)に関するオープンソースの教科書は何ですか?

5
働く統計学者は、頻繁な推論とベイジアン推論の違いを気にしますか?
部外者として、統計的推論を実行する方法については2つの競合する見解があるようです。 2つの異なる方法は、両方とも統計学者によって有効と見なされていますか? 哲学的な質問と考えられているものを選択していますか?または、現在の状況は問題があると考えられており、さまざまなアプローチを何らかの形で統一する試みがなされていますか?

7
因果関係の推論に相互検証を使用できますか?
すべてのコンテキストで、クロスバリデーションに精通しているのは、予測精度を高めるという目的でのみ使用されます。相互検証のロジックを拡張して、変数間の公平な関係を推定できますか? 一方で、このリチャード・バークの論文は「最終」回帰モデルにおけるパラメータ選択のためのサンプルアウトホールドの使用を示し(かつ段階的パラメータの選択は良いアイデアではない理由を示している)、私はまだどのように正確性を保証が表示されませんXがYに与える影響の偏りのない推定は、対象の論理と事前知識に基づいてモデルを選択すること以上です。 因果関係の推測を支援するためにホールドアウトサンプルを使用した例、または私の理解に役立つ一般的なエッセイを引用してください。また、クロスバリデーションの概念が素朴であることを疑うことはありません。控えめなサンプルの使用は因果推論の影響を受けやすいと思われますが、これを行う作業またはそれらがどのように行うかについては知りません。 バーク紙の引用: モデル選択後の統計的推論 :Richard Berk、Lawrence Brown、Linda Zhao Journal of Quantitative Criminology、Vol。26、No。2(2010年6月1日)、pp。217-236。 PDF版はこちら chlによる小規模サンプル研究の探索的データ分析に関するこの質問は、この質問を促しました。

1
ロジスティック回帰出力、カイ2乗検定、ORの信頼区間でp値が異なるのはなぜですか?
治療を受けた後、結果変数が治癒するロジスティック回帰を構築しました(Curevs. No Cure)。この研究のすべての患者は治療を受けました。糖尿病にかかっていることがこの結果に関連しているかどうかを確認したいです。 Rでは、ロジスティック回帰の出力は次のようになります。 Call: glm(formula = Cure ~ Diabetes, family = binomial(link = "logit"), data = All_patients) ... Coefficients: Estimate Std. Error z value Pr(&gt;|z|) (Intercept) 1.2735 0.1306 9.749 &lt;2e-16 *** Diabetes -0.5597 0.2813 -1.990 0.0466 * ... Null deviance: 456.55 on 415 degrees of freedom Residual deviance: 452.75 …

7
なぜ正則化はデータに対するディープニューラルネットの飢えを解決しないのですか?
一般にニューラルネットワーク、特にディープニューラルネットワークのコンテキストで頻繁に発生する問題は、「データを大量に消費する」ことです。つまり、大きなデータセットがないとうまく機能しません。ネットワークのトレーニングに使用します。 私の理解では、これはNNet、特にディープNNetには多数の自由度があるという事実によるものです。そのため、モデルとして、NNetには非常に多数のパラメーターがあり、モデルのパラメーターの数がトレーニングデータポイントの数に比べて大きい場合、オーバーフィットする傾向が増加します。 しかし、なぜこの問題は正則化によって解決されないのでしょうか?私の知る限り、NNetsはL1とL2の正則化を使用でき、ネットワーク内のパラメーターの数を減らすことができるドロップアウトのような独自の正則化方法もあります。 節約を強制し、ネットワークのサイズを制限するような正則化方法を選択できますか? 私の考えを明確にするために:データをモデル化するために大きなディープNNetを使用しているが、データセットは小さく、実際には線形モデルでモデル化できるとしましょう。次に、1つのニューロンが線形回帰をシミュレートし、他のすべてのニューロンがゼロに収束するように、ネットワークの重みが収束しないのはなぜですか?なぜ正規化がこれに役立たないのですか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.