統計とビッグデータ

3

（私は統計の初心者です。私は数学者でプログラマーであり、単純なベイジアンスパムフィルタのようなものを構築しようとしています。）多くの場所で、人々はベイズの定理の方程式の分母を分解する傾向があることに気付きました。したがって、これの代わりに： P（A | B ）⋅ P（B ）P（A ）P（A|B）⋅P（B）P（A）\frac{P(A|B)\cdot P(B)}{P(A)} これが提示されます： P（A | B ）⋅ P（B ）P（A | B ）⋅ P（B ）+ P（A | ¬ B ）⋅ P（¬ B ）P（A|B）⋅P（B）P（A|B）⋅P（B）+P（A|¬B）⋅P（¬B）\frac{P(A|B)\cdot P(B)}{P(A|B)\cdot P(B)+P(A|\neg B)\cdot P(\neg B)} このウィキペディアの記事と、Tim Petersによるこの洞察に満ちた投稿で、この規則が使用されていることがわかります。私はこれに困惑しています。分母がなぜこのように分解されるのですか？それは物事をどのように助けますか？スパムフィルターの場合、計算するのにそれほど複雑なのは何ですか？P（A ）P（A）P(A)The probability that the word "cheese" appears in an email, regardless of …

23 bayesian

7

3パーセンタイルに基づく分布の推定

パーセンタイルが3つしかわからない場合、どの方法を使用して分布を推測できますか？たとえば、特定のデータセットでは、5パーセンタイルが8,135、50パーセンタイルが11,259、95パーセンタイルが23,611であることを知っています。他の数値からそのパーセンタイルに移行できるようにしたいです。それは私のデータではなく、それらはすべて私が持っている統計です。分布が正規でないことは明らかです。私が持っている他の唯一の情報は、このデータがさまざまな学区の政府の一人当たりの資金を表しているということです。この問題には明確な解決策がないことを知るには統計については十分知っていますが、良い推測を見つける方法を知るには十分ではありません。対数正規分布は適切でしょうか？回帰を実行するためにどのツールを使用できますか（または自分で行う必要がありますか）？

23 r regression quantiles

3

CDFを指定してPDFを見つける

CDF（累積分布関数）が与えられた分布のPDF（確率密度関数）を見つけるにはどうすればよいですか？

23 distributions pdf cdf

2

ラムダが、エラスティックネット回帰のラムダの推奨値である「最小値から1つの標準誤差以内」であるのはなぜですか？

エラスティックネット回帰でラムダが果たす役割を理解しています。そして、なぜ相互検証エラーを最小化するラムダ値であるlambda.minを選択するのかを理解できます。私の質問は、統計文献のどこでlambda.1seを使用することを推奨していますか、それはCVエラーと1つの標準エラーを最小にするラムダの値ですか？正式な引用を見つけることも、これがしばしば良い値である理由を見つけることもできないようです。私はそれがより制限された正則化であり、パラメータをゼロに向かってより小さくすることを理解していますが、lambda.1seがlambda.minよりも良い選択である条件が常にあるとは限りません。誰かが説明を助けることができますか？

23 regression cross-validation regularization glmnet elastic-net

4

スチューデントのt分布のパラメーターの推定

スチューデントのt分布のパラメーターの最尤推定量は何ですか？それらは閉じた形で存在しますか？簡単なGoogle検索では結果が得られませんでした。今日は単変量のケースに興味がありますが、おそらくモデルを複数の次元に拡張する必要があります。編集：私は実際には主に場所とスケールのパラメータに興味があります。今のところ、自由度パラメーターが固定されていると仮定し、場合によっては後で数値を使用して最適値を見つけることができます。

23 estimation maximum-likelihood t-distribution

6

相関するリグレッサへの対処

相関性の高いリグレッサを使用した多重線形回帰では、使用する最適な戦略は何ですか？相関するすべてのリグレッサーの積を加算するのは正当なアプローチですか？

23 regression multicollinearity

3

素人向けの十分な統計

誰かが非常に基本的な用語で十分な統計を説明してもらえますか？私はエンジニアリングのバックグラウンドを持っており、多くのことを経験しましたが、直感的な説明を見つけることができませんでした。

23 machine-learning mathematical-statistics intuition

4

誰でも共役事前確率を可能な限り簡単な用語で説明できますか？

私はしばらくベイズ統計の共役事前分布の概念を理解しようと試みてきましたが、私はそれを理解していません。おそらく「ガウス事前分布」を例として使用して、誰でも考えを最も簡単な用語で説明できますか？

23 bayesian conditional-probability conjugate-prior

3

自己相関の目的は何ですか？

自己相関がなぜそれほど重要なのですか？私はそれの原理を理解しました（私は推測します）。自己相関が発生しない例もあるので、私は疑問に思います：自然界のすべてが何らかの形で自己相関しているのではないのですか？最後の側面は、自己相関自体の一般的な理解をより目指しています。なぜなら、私が言ったように、宇宙のすべての状態は以前の状態に依存していないからです。

22 autocorrelation

4

なぜ平均値は中央値よりも異なるサンプルでより安定しているのですか

Andy FieldsによるRを使用した統計の発見などのセクション1.7.2、および平均対中央値の長所を挙げながら： ...平均は異なるサンプルで安定する傾向があります。これは中央値の多くの美徳を説明した後、例えば ...中央値は、分布の両端の極端なスコアに比較的影響を受けません... 中央値が極端なスコアの影響を比較的受けないことを考えると、サンプル全体でより安定していると思っていたでしょう。だから著者の主張に戸惑った。シミュレーションを実行したことを確認するために、1Mの乱数を生成し、100の数値を1000回サンプリングし、各サンプルの平均と中央値を計算してから、それらのサンプルの平均と中央値のsdを計算しました。 nums = rnorm(n = 10**6, mean = 0, sd = 1) hist(nums) length(nums) means=vector(mode = "numeric") medians=vector(mode = "numeric") for (i in 1:10**3) { b = sample(x=nums, 10**2); medians[i]= median(b); means[i]=mean(b) } sd(means) >> [1] 0.0984519 sd(medians) >> [1] 0.1266079 p1 <- hist(means, col=rgb(0, …

22 mean median

1

自信を持って公平性を評価するために、ダイスを何回振る必要がありますか？

（統計的言語ではなく、素人の言語を使用したことに対する事前の謝罪。）特定の物理的な6面ダイスの各面を約+/- 2％以内に確実に合理的に自信を持ってロールするオッズを測定したい場合、サンプルダイスロールはいくつ必要ですか？すなわち、それぞれの結果を数えてダイスを振る必要がある回数は、それが各サイドを振る可能性が14.6％-18.7％以内であることを98％確信するために必要ですか？（または、ダイが2％以内で公平であると約98％確信するような類似の基準）（これは、シミュレーションゲームは、サイコロを使用してください特定のサイコロのデザインになりたいために、実世界の関心事である許容可能な近接数を転がすの1/6機会にしている。があります主張、多くの一般的なサイコロの設計はで29％1つのローリングに測定されていることがそのようなサイコロをそれぞれ1000回転がします。）

22 probability inference pdf dice

7

ヒートマップは「最も効果の低いタイプのデータ視覚化の1つ」ですか？

質問：ヒートマップが最も効果的なのはいつ（どの種類のデータ視覚化問題に対して）ですか？（特に、他のすべての可能な視覚化手法よりも効果的ですか？）ヒートマップの効果が最も低いのはいつですか？ヒートマップがデータを視覚化する効果的な方法である可能性が高いかどうか、およびそれらがいつ効果的でない可能性があるかを決定するために使用できる一般的なパターンまたは経験則はありますか？（主に、2つのカテゴリ変数と1つの連続変数のヒートマップを念頭に置いていますが、他のタイプのヒートマップに関する意見を聞くことにも興味があります。）コンテキスト：データの視覚化に関するオンラインコースを受講しており、現在、効果がなく使い古されたプロットタイプについて議論しています。彼らはすでにダイナマイトプロットと円グラフについて言及していましたが、それらが効果的でなく、それらに代わるより良い代替物がある理由については、明確で説得力がありました。さらに、ダイナマイトプロットと円グラフに関する特定の意見を裏付ける他のソースを見つけるのは簡単でした。ただし、このコースでは、「ヒートマップは最も効率の低いタイプのデータ視覚化の1つである」とも述べています。理由の言い換えを以下に示します。しかし、この観点を裏付けるGoogleの他の場所を見つけようとしたとき、円グラフとダイナマイトプロットの有効性について意見を調べるのとは対照的に、私は多くの困難を抱えていました。そのため、コースで与えられるヒートマップの特性評価がどの程度有効であるか、また、それらに対する要因が特定のコンテキストで最も重要でなく、最も重要な場合を知りたいと思います。指定された理由は次のとおりです。色を連続的なスケールにマッピングすることは困難です。この規則にはいくつかの例外があります。したがって、これは通常、取引のブレーカーではありませんが、ヒートマップの場合、色の知覚は隣接する色によって変化するため、問題は特に困難です。したがって、ヒートマップは、小さなデータセットであっても、個々の結果を表示するのには適していません。これは以下につながります：特定の色に対応する数値を十分な精度で推測することは不可能であるため、テーブル検索方法を使用して特定の質問に回答することは一般に実行不可能です。多くの場合、データはトレンドを引き出すような方法でクラスター化されていません。このようなクラスタリングがなければ、一般的な全体パターンについて何かを推測することは、しばしば困難または不可能です。特にマルチカラーグラデーションを使用する場合、ヒートマップは「すごい要素」を伝えるため、または単にクールに見えるためにのみ使用されることがよくありますが、通常、データを伝達するためのより良い方法があります。共通のスケールで連続データをプロットすることは常に最良の選択肢です。時間成分がある場合、最も明白な選択はラインプロットです。

22 data-visualization heatmap

7

均一に分布した数の違いは均一に分布していますか？

6面ダイスを何回も振る。ロールとその前のロールの差（絶対値）を計算すると、差は均一に分布すると予想されますか？ 10ロールで説明するには： roll num result diff 1 1 0 2 2 1 3 1 1 4 3 2 5 3 0 6 5 2 7 1 4 8 6 5 9 4 2 10 4 0 うdiff値が均一に分布しますか？

22 distributions uniform

1

ResNet経由の勾配バックプロパゲーションは接続をスキップします

ResNetモジュール/スキップ接続を使用してニューラルネットワークを介して勾配がどのように逆伝播されるかについて興味があります。ResNetに関するいくつかの質問（スキップレイヤー接続のニューラルネットワークなど）を見てきましたが、これは特にトレーニング中の勾配の逆伝播について尋ねています。基本的なアーキテクチャは次のとおりです。この論文「画像認識のための残差ネットワークの研究」を読み、セクション2で、ResNetの目標の1つが、勾配がベースレイヤーに逆伝播するためのより短い/より明確なパスを可能にすることについて話します。勾配がこのタイプのネットワークをどのように流れているのか説明できますか？加算操作、および加算後のパラメーター化されたレイヤーの欠如が、より良い勾配伝播を可能にする方法をよく理解していません。加算演算子を介して流れるときに勾配が変化せず、乗算なしで何らかの形で再配布される方法と関係がありますか？さらに、グラデーションがウェイトレイヤーを通過する必要がない場合、消失するグラデーションの問題がどのように軽減されるかを理解できますが、ウェイトを通るグラデーションフローがない場合、逆方向パス後にどのように更新されますか？

22 machine-learning neural-networks conv-neural-network gradient-descent backpropagation

1

ニューラルネットワークのコスト関数が非凸であるのはなぜですか？

ここにも同様のスレッドがあります（ニューラルネットワークのコスト関数は非凸状ですか？）差の二乗コスト関数の合計を使用している場合、最終的にという形式の何かを最適化します。ここではトレーニング中の実際のラベル値ですphaseおよびは予測ラベル値です。これは正方形の形をしているので、これは凸コスト関数でなければなりません。それでは、NNで非凸になる可能性があるのは何ですか？ΣNi=1(yi−yi^)2Σi=1N(yi−yi^)2 \Sigma_{i=1}^{N}(y_i - \hat{y_i})^2yyyy^y^\hat{y}

22 machine-learning neural-networks optimization loss-functions convex