統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

27
眠れる森の美女のパラドックス
状況 一部の研究者は、あなたを眠らせたいと思っています。公正なコインの秘密のトスに応じて、彼らはあなたを一回(頭)または二回(尾)目覚めさせます。それぞれの目覚めの後、彼らはあなたがその目覚めを忘れさせる薬であなたを眠りに戻すでしょう。あなたが目覚めたとき、コイントスの結果はどの程度ヘッズだと信じるべきですか? (OK、この実験の対象になりたくないかもしれません!代わりに、Sleeping Beauty(SB)がそれに同意していると仮定します(もちろん、魔法の王国の治験審査委員会の完全な承認を得て)。 100年寝るので、とにかくあと1、2日は何ですか?) [ マックスフィールドパリッシュのイラストの詳細。] あなたはハーフまたはサードですか? Halferポジション。 シンプル!コインは公正であり、SBはそれを知っているので、彼女は頭の半分のチャンスがあると信じるべきです。 サードポジション。この実験が何度も繰り返された場合、コインはSBが目覚める時間の3分の1だけ頭になります。彼女の頭の確率は3分の1です。 サードに問題がある これについて書いた人のほとんどは、すべてではありませんが、第三者です。しかし: 日曜日の夕方、SBが眠る直前に、彼女は頭のチャンスが半分であると信じなければなりません:それは公正なコインであるということです。 SBが目覚めるたびに、彼女は日曜日の夜に彼女が知らなかったことを全く学ばなかった。 彼女は、頭への信念が今では半分ではなく3分の1であると述べるために、どのような合理的な議論をすることができますか? いくつかの試みられた説明 SBは、1/3以外のオッズで頭に賭けた場合、必然的にお金を失います。(Vineberg、inter alios) 半分は本当に正しい:量子力学のエバーレッティの「多くの世界」の解釈を使用するだけです!(ルイス)。 SBは、世界の彼女の「時間的位置」の自己認識に基づいて彼女の信念を更新します。(エルガ、ia) SBは混乱しています。「[目覚めたときの認識状態に、頭に対する明確な信念が含まれるべきではないと言うのはもっともらしいようです。…本当の問題は、既知の避けられない認知機能障害にどのように対処するかです。」[Arntzenius] 質問 この主題について既に書かれていることを考慮して(参考文献および以前の投稿を参照)、このパラドックスを統計的に厳密な方法でどのように解決できますか?これも可能ですか? 参照資料 Arntzenius、フランク(2002)。 眠れる森の美女分析に関する考察 62.1 pp 53-62。 ブラッドリー、DJ(2010)。 分岐世界での確認:エベレットの解釈と眠れる森の美女。ブリット。J.フィル。科学 0(2010)、1〜21。 エルガ、アダム(2000)。自己発見の信念と眠れる森の美女の問題。分析60 pp 143-7。 フランチェスキ、ポール(2005)。 眠れる森の美女と世界縮小の問題。プレプリント。 グロイスマン、ベリー(2007)。 眠れる森の美女の悪夢の終わり。プレプリント。 ルイス、D(2001)。 眠れる森の美女:Elgaへの返信。分析61.3 pp 171-6。 パピノー、デビッド、ビクターデュラビラ(2008)。 サードとエベレッティアン:ルイスの「眠れる森の美女」への返信。 Pust、Joel(2008)。 眠れる森の美女のホーガン。合成160 pp 97-101。 …

8
ニュートンの方法が機械学習で広く使用されていないのはなぜですか?
これはしばらくの間私を悩ませてきたものであり、満足のいく答えをオンラインで見つけることができなかったので、ここに行きます: 凸最適化に関する一連の講義をレビューした後、Newtonの方法は、勾配降下よりもはるかに優れたアルゴリズムであり、グローバルに最適なソリューションを見つけることができます。これは、Newtonの方法は、はるかに少ないステップ。ニュートン法などの2次最適化アルゴリズムが、機械学習問題で確率的勾配降下ほど広く使用されないのはなぜですか?

4
平易な英語でのコーエンのカッパ
データマイニングの本を読んでいますが、分類器の予測パフォーマンスを評価する手段としてカッパ統計に言及しています。しかし、私はこれを理解できません。私はまた、ウィキペディアをチェックしますが、それはあまりにも助けなかった:https://en.wikipedia.org/wiki/Cohen's_kappaを。 Cohenのカッパは、分類器の予測パフォーマンスの評価にどのように役立ちますか?それは何を伝えますか? 100%のカッパは、分類器がランダムな分類器と完全に一致していることを意味しますが、これが分類器のパフォーマンスの評価にどのように役立つかわかりませんか? 40%kappaはどういう意味ですか?40%の時間、分類器はランダム分類器と一致しているということですか?もしそうなら、それは私に何を伝え、分類器を評価するのに役立ちますか?

14
大規模なデータセットは仮説検定に不適切ですか?
では最近の記事のAmstatニュース宣言します- 、作者(マーク・ファン・デル・ラーンとシェリー・ローズは)我々は十分に大きなサンプルサイズのために、効果なしの帰無仮説が真であるすべての研究-を含むものがあることを知っている」と述べました統計的に有意な効果。」。 まあ、私はそれを知りませんでした。これは本当ですか?大規模なデータセットに対して仮説検定は価値がないということですか?


9
マハラノビス距離の一番下の説明?
私はパターン認識と統計を研究しており、マハラノビス距離の概念にぶつかる主題について私が開くほとんどすべての本です。本は一種の直観的な説明を提供しますが、それでも私が実際に何が起こっているのかを実際に理解するには十分ではありません。誰かが「マハラノビス距離とは何ですか?」私は答えることしかできませんでした:「それはある種の距離を測定するこの素晴らしいことです」:) 定義には通常、固有ベクトルと固有値も含まれていますが、マハラノビス距離との接続には少し問題があります。固有ベクトルと固有値の定義を理解していますが、それらはマハラノビス距離とどのように関係していますか?線形代数などでベースを変更することに関係していますか? 私はまた、主題に関するこれらの以前の質問を読みました: マハラノビス距離とは何ですか?パターン認識でどのように使用されますか? ガウス分布関数とマハラノビス距離の直感的な説明(Math.SE) 私もこの説明を読みました。 答えは素晴らしく良いと絵ですが、まだ私はしていない、本当に私はアイデアを持っているが、それは暗闇の中で、まだだ...それを得ます。誰かが「おばあちゃんにそれをどのように説明しますか」という説明を与えることができますか?:)それはどこから来たのですか、何で、なぜですか? 更新: マハラノビスの式を理解するのに役立つものを次に示します。 https://math.stackexchange.com/questions/428064/distance-of-a-test-point-from-the-center-of-an-ellipsoid

9
ランダムフォレストから知識を取得する
ランダムフォレストはブラックボックスと見なされますが、最近、ランダムフォレストからどのような知識が得られるのかと考えていましたか? 最も明白なことは、変数の重要性です。最も単純なバリアントでは、変数の出現回数を計算するだけでそれを行うことができます。 私が考えていた2番目のことは相互作用です。木の数が十分に大きければ、変数のペアの出現回数をテストできると思います(カイ二乗独立のようなもの)。3番目のことは、変数の非線形性です。私の最初のアイデアは、変数対スコアのチャートを見ることでしたが、それが意味をなすかどうかはまだわかりません。 追加された2012.01.2012 動機 この知識を使用して、ロジットモデルを改善したいと思います。見落とされた相互作用と非線形性を見つけることは可能だと思います(または少なくとも希望します)。

3
一貫性のある推定量と公平な推定量の違いは何ですか?
誰もこれをすでに尋ねていないように見えることに本当に驚いています... 推定量について議論するとき、頻繁に使用される2つの用語は「一貫性のある」と「不偏」です。私の質問は簡単です:違いは何ですか? これらの用語の正確な技術的定義はかなり複雑であり、その意味を直感的に理解することは困難です。良い評価者と悪い評価者を想像できますが、どの評価者がどのように一方の条件を満たし、もう一方の条件を満たさないかを見るのに苦労しています。

3
ベイズの事前分布と事後分布の理解を助けてください
学生のグループでは、18人のうち2人が左利きです。情報価値のない事前分布を仮定して、人口の左利きの学生の事後分布を見つけます。結果を要約します。文献によると、5-20%の人が左利きです。事前にこの情報を考慮し、新しい事後を計算します。 私が知っているベータ分布は、ここで使用する必要があります。まず、αα\alphaとββ\beta値を1にして?事後の資料で見つけた方程式は π(r|Y)∝r(Y+−1)×(1−r)(N−Y+−1)π(r|Y)∝r(Y+−1)×(1−r)(N−Y+−1)\pi(r \vert Y ) \propto r^{(Y +−1)} \times (1 − r)^{(N−Y +−1)} \\ Y=2Y=2Y=2、N=18N=18N=18 なぜそのrrrは方程式にあるのですか?(rrrは左利きの人々の割合を示します)。不明ですが、この方程式にはどのように当てはまりますか?私には計算にばかげrrr与えられたYYY、その使用rrr与える式でrrr。さて、サンプルとr=2/18r=2/18r=2/18の結果であった0,00190,00190,0019。fff私がそれから推測する必要がありますか? 期待値を与える式RRR知られて与えられたYYYとNNN、より良い仕事をしてくれました0,150,150,15権利について鳴ります。方程式は、値はおよび割り当てられます。事前情報を考慮するために、とにどの値を指定する必要がありますか?E(r|X,N,α,β)=(α+X)/(α+β+N)E(r|X,N,α,β)=(α+X)/(α+β+N)E(r | X, N, α, β) = (α + X)/(α + β + N)111αααβββαααβββ いくつかのヒントをいただければ幸いです。事前分布と事後分布に関する一般的な講義も害になりません(私はそれらが何であるかを曖昧に理解していますが、曖昧です)高度な数学はおそらく私の頭の上を飛ぶでしょう。

6
順序付けされていないカテゴリ変数との相関
多くの観測と多くの変数を含むデータフレームがあります。それらの一部はカテゴリカル(順不同)であり、その他は数値です。 これらの変数間の関連を探しています。私は数値変数の相関(スピアマンの相関)を計算できましたが、 順序付けされていないカテゴリ変数間の相関を測定する方法がわかりません。 順序付けられていないカテゴリ変数と数値変数の相関を測定する方法がわかりません。 誰もこれがどのように行われるか知っていますか?ある場合、これらのメソッドを実装するR関数はありますか?

4
畳み込みニューラルネットワーク、制限付きボルツマンマシン、および自動エンコーダーの違いは何ですか?
最近、私はディープラーニングについて読んでいますが、用語(またはテクノロジー)について混乱しています。違いは何ですか 畳み込みニューラルネットワーク(CNN)、 制限付きボルツマンマシン(RBM)および 自動エンコーダー?


3
なぜ確率空間を定義するためにシグマ代数が必要なのですか?
サンプル空間形成するさまざまな結果を使用したランダムな実験があり、イベントと呼ばれる特定のパターンに興味を持って調べますシグマ代数(またはシグマフィールド)は、確率測定を割り当てることができるイベントで構成されています。nullセットとサンプル空間全体の包含、ベン図表との結合と交点を記述する代数など、特定のプロパティが満たされています。 Ω,Ω,\Omega,F。P ∅ F.F.\mathscr{F}. PP\mathbb{P}∅∅\varnothing 確率は、代数と区間間の関数として定義されます。全体で、トリプルは確率空間を形成します。σσ\sigma[0,1][0,1][0,1](Ω,F,P)(Ω,F,P)(\Omega, \mathscr{F}, \mathbb{P}) 誰かが代数を持っていなかった場合に確率構造が崩壊する理由を簡単な英語で説明できますか?それらは、その書道「F」がありえないほど真ん中に押し込まれています。それらが必要だと信じています。イベントは結果とは異なることがわかりますが、\ sigma-代数がなければ何がおかしくなりますか?σσ\sigmaσσ\sigma 問題は、どのタイプの確率問題において、σσ\sigma代数を含む確率空間の定義が必要になるかです。 ダートマス大学のWebサイトにあるこのオンラインドキュメントは、わかりやすい英語の説明を提供します。アイデアは、単位周囲の円上で反時計回りに回転する回転ポインターです。 まず、図に示すように、単位円の円とポインターで構成されるスピナーを作成します。円上の点を選択してにラベルを付け、次に、円上の他のすべての点に、から反時計回りに測定した距離(など)のラベルを付けます。実験では、ポインターを回転させ、ポインターの先端にあるポイントのラベルを記録します。ランダム変数にこの結果の値を示します。サンプル空間は明らかに間隔000xxx000XXX[0,1)[0,1)[0,1)。各結果が等しく発生する可能性がある確率モデルを構築したいと思います。可能性のある結果の数が限られている実験で[...]のように進めた場合、可能性のある結果のすべてについて確率の合計がそうでないため、確率を各結果に割り当てる必要があります等しい1(実際、数え切れない数の実数を合計するのは難しい仕事です;特に、そのような合計が何らかの意味を持つためには、せいぜい数え切れないほどの被加数の多くがと異なる場合があり。)割り当てられた確率の全ては、その後、合計があり、 ではなくそれがあるべきように、。000000000000111 したがって、各ポイントに確率を割り当て、(数え切れないほど)無限の数のポイントがあるとすると、それらの合計はます。>1>1> 1

21
制限のある無限プロセスの各ステップで、10個のボールを骨putに入れ、ランダムに1個取り出します。いくつのボールが残っていますか?
次のように質問(わずかに修正)が行くとあなたがそれに遭遇したことがない場合は、実施例6a、第2章、シェルドン・ロスの中でそれを確認することができます前に、最初のコース確率で: 無限に大きなnumberと、ボール番号1、番号2、番号3などのラベルが付いたボールの無限のコレクションを持っているとします。次のように実行される実験について考えてみましょう。1分から12時に、1から10の番号が付けられたボールが骨urに置かれ、1つのボールがランダムに取り除かれます。(撤回に時間がかからないと仮定します。)1/2分から12 PMに、11から20の番号のボールが骨nに置かれ、別のボールがランダムに取り除かれます。14:00から12P.M.に、21から30の番号が付けられたボールが骨nに置かれ、別のボールがランダムに取り除かれます...など。興味深いのは、午後12時に骨nの中にいくつのボールがあるかということです。 この質問は、提起されているように、基本的に誰もが誤解することを強制します-通常、直観は、午後12時に無限に多くのボールがあると言うことです午後12時 確率論を教えるとき、この問題は直感的な説明をするのが非常に難しいものの一つです。 一方で、次のように説明することができます。「午後12時にボールiがurにいる確率を考えてください。無限のランダムドロー中に、最終的に削除されます。これはすべてのボールに当てはまります。それらの最後にあることができます」。 しかし、生徒たちは「しかし、私は毎回10個のボールを入れて、1個のボールを取り除いています。最後にボールがなくなることは不可能です」と正しく主張します。 これらの矛盾する直観を解決するために彼らに与えることができる最良の説明は何ですか? また、この問題は不適切なものであり、より適切に定式化すると「パラドックス」が消えるという議論や、パラドックスが「純粋に数学的」であるという議論も受け入れています(ただし、それについて正確に説明してください)。


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.