統計とビッグデータ

3

私の大学院の物理学教授は、ノーブル賞受賞者のファインマンと同様、ハーモニックオシレーター、振り子、こま、トップボックス、ブラックボックスなどの物理学の基本的な概念と方法を説明するために、常にトイモデルと呼ばれるものを提示しました。ニューラルネットワークのアプリケーションの基礎となる基本的な概念と方法を説明するために、どのおもちゃモデルが使用されていますか？（参考にしてください。）玩具モデルとは、基本的な方法を提示できる非常に制約のある問題に適用される、特にシンプルで最小サイズのネットワークを意味します。手で基本的な数学をチェックしたり、シンボリック数学アプリで支援したりします。

18 machine-learning neural-networks deep-learning

4

Q-Learningがテスト中にepsilon-greedyを使用するのはなぜですか？

Deep MindのAtariビデオゲームのDeep Q-Learningに関する論文（こちら）では、トレーニング中の探索にイプシロングリディ法を使用しています。これは、トレーニングでアクションが選択されると、最高のq値を持つアクションとして選択されるか、ランダムアクションとして選択されることを意味します。これら2つの選択はランダムで、イプシロンの値に基づき、イプシロンはトレーニング中にアニールされ、最初は多くのランダムなアクションが実行されます（探索）が、トレーニングが進むにつれて、最大q値を持つアクションが多く実行されます（搾取）。次に、テスト中に、彼らはこのイプシロン貪欲法も使用しますが、イプシロンは非常に低い値であるため、探査よりも搾取に強いバイアスがあり、ランダムアクションよりも最も高いq値を持つアクションを選択します。ただし、ランダムアクションが選択されることもあります（時間の5％）。私の質問は次のとおりです。トレーニングが既に行われているのに、なぜこの時点で調査が必要なのですかシステムが最適なポリシーを学習した場合、最高のq値を持つアクションとして常にアクションを選択できないのはなぜですか？トレーニングでのみ調査を行い、最適なポリシーを学習したら、エージェントは最適なアクションを繰り返し選択できますか？ありがとう！

18 machine-learning reinforcement-learning q-learning deep-rl

4

対数尤度対尤度を使用するための理論的動機

私は、統計学と確率論における対数尤度（そしておそらくより一般的には対数確率）の遍在性をより深いレベルで理解しようとしています。対数確率はあちこちに現れます。通常、分析（たとえば最大化）のために対数尤度を使用します。フィッシャー情報は対数尤度の2次導関数で定義され、エントロピーは期待される対数確率です。、Kullback-Lieblerの発散には対数確率が含まれ、予想される逸脱は予想される対数尤度などです。今、私は多くの実用的で便利な理由に感謝しています。多くの一般的で有用なpdfは、指数ファミリからのものであり、対数変換されると用語がエレガントに簡素化されます。合計は、製品よりも扱いやすい（特に差別化のため）。対数プローブには、直線プローブよりも優れた浮動小数点の利点があります。PDFをログ変換すると、多くの場合、非凹関数が凹関数に変換されます。しかし、ログプロブの理論的な理由/正当化/動機は何ですか？私の困惑の例として、フィッシャー情報（FI）を考えてみましょう。FIを直観するための通常の説明は、対数尤度の2次導関数が対数尤度の「ピーク」を示していることです。、ほぼ平坦な対数尤度（低い曲率）は、多くの異なるパラメーター値が（対数尤度に関して）MLEとほぼ同じくらい良いことを意味するため、MLEはより不確実です。これはすべてうまくいきますが、尤度関数自体の曲率を見つけることはより自然ではありませんか？一見、対数変換の強調はarbitrary意的で間違っているように見えます。確かに、実際の尤度関数の曲率にもっと興味があります。代わりにスコア関数と対数尤度のヘッセ行列を使用するフィッシャーの動機は何ですか？答えは、最終的に、対数尤度から漸近的に素晴らしい結果が得られるという単純なものですか？たとえば、Cramer-RaoおよびMLE /後方の正常性。または、より深い理由がありますか？

18 probability bayesian likelihood log-likelihood

6

ワイン評価を予測する線形回帰または順序ロジスティック回帰（0〜10）

ここから、0から10までの値を持つ各エントリに関連付けられた従属評価を持つ11の数値独立変数で構成されるワインデータがあります。これは、変数と関連する変数との関係を調べるために回帰モデルを使用するのに最適なデータセットになります評価。しかし、線形回帰は適切でしょうか、または多項/順序付きロジスティック回帰を使用する方が良いでしょうか？ロジスティック回帰は、特定のカテゴリ、つまり連続従属変数ではないが、（1）11のカテゴリ（少し多すぎる？）があり、（2）検査時に、それらのカテゴリのうち6〜7のデータ、つまり残りの5-4のカテゴリには、データセットに例がありません。一方、線形回帰では、0〜10の間の評価を線形に推定する必要があります。これは、私が見つけようとしているものに近いようです。それでも、従属変数はデータセット内で連続的ではありません。どちらが良いアプローチですか？注：分析にRを使用しています回答に記載されているいくつかのポイントに対処して編集します。これは実際には大学のコースであるため、ビジネス目標はありません。タスクは、私が適切と思う方法で、選択したデータセットを分析することです。評価の分布は正常に見えます（ヒストグラム/ qqプロット）。データセットの実際の値は3〜8です（技術的には0〜10です）。

18 r regression logistic ordered-logit

1

サンプルサイズをランダム変数にすることはどういう意味ですか？

Frank Harrellがブログ（統計的思考）を開始しました。彼の最高の投稿では、彼の統計哲学のいくつかの重要な特徴をリストしています。他のアイテムの中で、含まれるもの：可能な場合、サンプルサイズをランダム変数にする「サンプルサイズをランダム変数にする」とはどういう意味ですか？これを行う利点は何ですか？なぜそれが好ましいのでしょうか？

18 sample-size random-variable regression-strategies

2

ロジスティック回帰にiidの仮定はありますか？

ロジスティック回帰の応答変数にiidの仮定はありますか？たとえば、データポイントがあるとします。応答は、ベルヌーイ分布から来ているようです。したがって、異なるパラメーター持つベルヌーイ分布を持つ必要があります。100010001000YiYiY_ipi=logit(β0+β1xi)pi=logit(β0+β1xi)p_i=\text{logit}(\beta_0+\beta_1 x_i)100010001000ppp したがって、それらは「独立」していますが、「同一」ではありません。私は正しいですか？ PS。「機械学習」の文献からロジスティック回帰を学びました。そこでは、目的関数を最適化し、仮定についてあまり語ることなく、データのテストに適しているかどうかを確認します。私の質問は、この投稿で始まりました。一般化線形モデルのリンク関数の理解ここで、統計的仮定の詳細を調べます。

18 regression logistic assumptions iid

2

と仮定し。表示

次の文が正しいことを確認する最も簡単な方法は何ですか？と仮定し。表示。Y1,…,Yn∼iidExp(1)Y1,…,Yn∼iidExp(1)Y_1, \dots, Y_n \overset{\text{iid}}{\sim} \text{Exp}(1)∑ni=1(Yi−Y(1))∼Gamma(n−1,1)∑i=1n(Yi−Y(1))∼Gamma(n−1,1)\sum_{i=1}^{n}(Y_i - Y_{(1)}) \sim \text{Gamma}(n-1, 1) ことに注意してください。Y(1)=min1≤i≤nYiY(1)=min1≤i≤nYiY_{(1)} = \min\limits_{1 \leq i \leq n}Y_i X∼Exp(β)X∼Exp(β)X \sim \text{Exp}(\beta)、この手段そのfX(x)=1βe−x/β⋅1{x>0}fX(x)=1βe−x/β⋅1{x>0}f_{X}(x) = \dfrac{1}{\beta}e^{-x/\beta} \cdot \mathbf{1}_{\{x > 0\}}。 Y _ {（1）} \ sim \ text {Exponential}（1 / n）であることが簡単にわかりますY(1)∼Exponential(1/n)Y(1)∼Exponential(1/n)Y_{(1)} \sim \text{Exponential}(1/n)。さらに、パラメータ化f_ {Y}（y）= \ dfrac {の下に \ sum_ {i = 1} ^ {n} …

18 self-study distributions exponential order-statistics jacobian

5

ベイジアン統計はメタ分析を時代遅れにしますか？

メタ分析が時代遅れになった場合、ベイジアン統計が最初の研究から最後まで結果的に適用されるのではないかと思っています。たとえば、異なる時点で行われた20の研究を想定しましょう。最初の研究の推定または分布は、情報価値のない事前分布で行われました。2番目の研究では、事後分布を事前分布として使用します。新しい事後分布は、3番目の研究の前などとして使用されます。最後に、以前に行われたすべての推定値またはデータを含む推定値があります。メタ分析を行うのは理にかなっていますか？興味深いことに、この分析の次数を変更すると、最後の事後分布の推定値も変更されると思います。

18 bayesian meta-analysis

3

ベータ分布密度関数に-1があるのはなぜですか？

ベータ分布は2つのパラメーター化（またはここ）で表示されます F （X ）α X α（1 - X ）βf(x)∝xα(1−x)β(1) f(x) \propto x^{\alpha} (1-x)^{\beta} \tag{1} または、より一般的に使用されると思われるもの F （X ）α X α - 1（1 - X ）β - 1f(x)∝xα−1(1−x)β−1(2) f(x) \propto x^{\alpha-1} (1-x)^{\beta-1} \tag{2} しかし、なぜ2番目の式に「− 1−1-1」があるのですか？最初の定式化は直観的に二項分布に直接対応するように思われます g （k ）∝ p k（1 − p ）n − kg(k)∝pk(1−p)n−k(3) g(k) \propto p^k (1-p)^{n-k} \tag{3} …

18 distributions references beta-distribution history beta-binomial

6

最小二乗推定量の分散における項の直感的な説明

がフルランクの場合、逆数が存在し、最小二乗推定値を取得します。およびX T X β = （X T X ）- 1 X Y ヴァー（β）= σ 2（X T X ）- 1XXXXTXXTXX^TXβ^=(XTX)−1XYβ^=(XTX)−1XY\hat\beta = (X^TX)^{-1}XYVar(β^)=σ2(XTX)−1Var⁡(β^)=σ2(XTX)−1\operatorname{Var}(\hat\beta) = \sigma^2(X^TX)^{-1} 分散式でをどのように直感的に説明できますか？派生のテクニックは私にとって明らかです。(XTX)−1(XTX)−1(X^TX)^{-1}

18 regression variance least-squares

5

統計学者がランダム行列を定義したのはなぜですか？

私は10年前に数学を勉強したので、数学と統計のバックグラウンドを持っていますが、この質問は私を殺します。この質問は私にとってはまだ少し哲学的です。統計学者がランダム行列を扱うために、あらゆる種類の手法を開発したのはなぜですか？つまり、ランダムなベクトルは問題を解決しなかったのですか？そうでない場合、ランダム行列の異なる列の平均は何ですか？Anderson（2003、Wiley）は、ランダムベクトルを1列のみのランダムマトリックスの特殊なケースと見なしています。ランダム行列を持つことのポイントがわかりません（そして、それは私が無知だからだと確信しています）。しかし、私と一緒に耐えます。20個のランダム変数を持つモデルがあるとします。結合確率関数を計算したい場合、なぜそれらをベクトルではなく行列として描く必要があるのですか？私は何が欠けていますか？ ps：タグ付けが不十分な質問は申し訳ありませんが、ランダム行列のタグはなく、まだ作成できません！編集：タイトルのマトリックスをマトリックスに変更

18 distributions mathematical-statistics random-variable random-matrix

1

一般的なオーバーサンプリング、および特にSMOTEアルゴリズムに関する意見[非公開]

閉じた。この質問は意見に基づいています。現在、回答を受け付けていません。この質問を改善したいですか？この投稿を編集して事実と引用で答えられるように質問を更新してください。閉まっている 2年前にました。一般的な分類、特にSMOTEアルゴリズムのオーバーサンプリングについてのあなたの意見は何ですか？クラスデータの不均衡と不均衡なエラーコストを調整するために、単にコスト/ペナルティを適用しないのはなぜですか？私の目的では、将来の一連の実験ユニットに対する予測の精度が究極の尺度です。参考のために、SMOTEの論文： http

18 machine-learning classification oversampling

4

ベイズの定理は期待を満たしますか？

2つのランダム変数および、BAAABBB E(A∣B)=E(B∣A)E(A)E(B)?E(A∣B)=E(B∣A)E(A)E(B)?E(A\mid B)=E(B\mid A)\frac{E(A)}{E(B)}?

18 bayesian mathematical-statistics

5

直観（幾何学的またはその他）

分散の基本的なアイデンティティを考えてみましょう： Var(X)===E[(X−E[X])2]...E[X2]−(E[X])2Var(X)=E[(X−E[X])2]=...=E[X2]−(E[X])2 \begin{eqnarray} Var(X) &=& E[(X - E[X])^2]\\ &=& ...\\ &=& E[X^2] - (E[X])^2 \end{eqnarray} これは、中心モーメントを非中心モーメントに定義する単純な代数的操作です。他のコンテキストでを簡単に操作できます。また、最初に平均を計算し、次に分散を計算するために、2回のパスではなく、データの1回のパスで分散を計算できます。Var(X)Var(X)Var(X) しかし、それはどういう意味ですか？平均についての広がりを0についての広がりに関連付ける直接的な幾何学的直観はありませんは1次元の集合であるため、平均の周りの広がりを、原点の広がりと正方形の平方との差としてどのように見ますか平均？XXX このアイデンティティへの洞察を与える良い線形代数解釈または物理的解釈または他のものはありますか？

18 variance descriptive-statistics intuition

4

分散は標準偏差よりも基本的な概念ですか？

で、このpsychometricsのウェブサイト私はそれを読んで [A] ta深いレベルの分散は、標準偏差よりも基本的な概念です。このサイトでは、分散が標準偏差よりも基本的である理由を実際に詳しく説明していませんが、このサイトで似たようなことを読んだことを思い出しました。たとえば、このコメントで @ kjetil-b-halvorsenは「標準偏差は解釈、報告に適しています。理論を発展させるには分散が優れている」と書いています。これらの主張は関連しているように感じますが、実際には理解していません。サンプル分散の平方根は母標準偏差の不偏推定量ではないことを理解していますが、確かにそれ以上のものがあるはずです。「基本」という用語は、このサイトでは曖昧すぎるかもしれません。その場合、おそらく、統計理論を開発する観点から、分散が標準偏差よりも重要であるかどうかを質問するという私の質問を実用化することができます。なぜ/なぜないのか？

18 variance standard-deviation