統計とビッグデータ

2

意思決定ツリーのデータ構造とアルゴリズムを発明したのは誰かを追跡しようとしています。決定木の学習に関するウィキペディアのエントリには、「ID3とCARTはほぼ同時に（1970年から1980年までに）独立して発明された」という主張があります。ID3は後で提示されました。 Quinlan、JR1986。決定木の誘導。マッハ。学ぶ。1、1（1986年3月）、81-106 そのため、私はその主張が真実であるかどうかわかりません。 Googleの書籍を使用して、1959年の統計統計決定シリーズと1958年のワーキングペーパーのコレクションへの参照を見つけました。コンテキストは明確ではなく、アルゴリズムを提示していないようです。ただし、データ構造を定義せず、よく知られているように扱います。 Google Scholarを使用して1853年にさかのぼる引用を見つけましたが、これらは解析エラーであり、その日からの実際の引用ではありませんでした。

24 cart history

2

負の二項分布の連続一般化

負の二項分布は非負の整数で定義され、確率質量関数f(k;r,p)=(k+r−1k)pk(1−p)r.f(k;r,p)=(k+r−1k)pk(1−p)r.f(k;r,p)={\binom {k+r-1}{k}}p^{k}(1-p)^{r}.同じ式（k∈N0k∈N0k\in \mathbb N_0をx \ in \ mathbb R _ {\ ge 0}で置き換える）で定義された非負の実数上の連続分布を考慮することは意味がありx∈R≥0x∈R≥0x\in\mathbb R_{\ge 0}ますか？二項係数は（k + 1）\ cdot \ ldots \ cdot（k + r-1）の積として書き換えることができます(k+1)⋅…⋅(k+r−1)(k+1)⋅…⋅(k+r−1)(k+1)\cdot\ldots\cdot(k+r-1)。これは任意の実数kに対して明確に定義されていますkkk。したがって、PDF f(x;r,p)∝∏i=1r−1(x+i)⋅px(1−p)r.f(x;r,p)∝∏i=1r−1(x+i)⋅px(1−p)r.f(x;r,p)\propto\prod_{i=1}^{r-1}(x+i)\cdot p^{x}(1-p)^{r}. より一般的には、二項係数をガンマ関数で置き換えて、rの非整数値を許可できますrrr。 f(x;r,p)∝Γ(x+r)Γ(x+1)Γ(r)⋅px(1−p)r.f(x;r,p)∝Γ(x+r)Γ(x+1)Γ(r)⋅px(1−p)r.f(x;r,p)\propto\frac{\Gamma(x+r)}{\Gamma(x+1)\Gamma(r)}\cdot p^{x}(1-p)^{r}. 有効な配布ですか？名前はありますか？用途はありますか？多分化合物か混合物か？平均と分散（およびPDFの比例定数）の閉じた式はありますか？（現在、NB混合モデル（固定r=2r=2r=2）を使用してEMで近似する論文を研究しています。ただし、データは、正規化後の整数、つまり整数ではありません。可能性と非常に合理的な結果を得るので、すべてがうまく機能しているようです。私はそれが非常に不可解であることがわかりました。この質問はNB GLM に関するものではないことに注意してください。

24 distributions negative-binomial count-data continuous-data bioinformatics

1

変分オートエンコーダーとは何ですか？また、どの学習タスクに使用されますか？

ごとに、このと、この答えは、オートエンコーダは、次元削減のためのニューラルネットワークを使用する技術であるように見えます。さらに、変分オートエンコーダー（「従来の」オートエンコーダーとの主な違い/利点）、およびこれらのアルゴリズムが使用される主な学習タスクも知りたいと思います。

24 machine-learning bayesian deep-learning autoencoders variational-bayes

3

情報価値のない先行理論の歴史

私はベイズ統計学コース（経済学修士課程）で情報価値のない事前の短い理論エッセイを書いており、この理論の発展におけるステップを理解しようとしています。これまでに、私のタイムラインは、ラプラスの無関心の原則（1812）、非不変の事前分布（ジェフリーズ（1946））、ベルナルドの参照事前（1979）の3つの主要なステップで構成されています。私の文献レビューから、無関心の原理（ラプラス）は以前の情報の欠如を表すために使用される最初のツールであったが、ジェフリーズが彼の方法を導入した40代まで不変性の欠落した要件がその放棄につながったことを理解しました不変性の望ましい特性。70年代の不適切な事前の不注意な使用に起因する周辺化のパラドックスの発生により、ベルナルドはこの問題に対処するために彼の参照事前理論を練り上げました。文献を読んで、すべての著者は異なる貢献を引用します：Jaynesの最大エントロピー、BoxおよびTiaoのデータ変換された尤度、Zellner、... あなたの意見では、私が欠けている重要なステップは何ですか？編集：誰かが必要な場合は、（メイン）参照を追加します： 1）フォーマルルールによる事前選択、Kass、Wasserman 2）非情報的事前分布のカタログ、Yang、Berger 3）情報量の少ないベイジアンの事前解釈と構造とアプリケーションの問題

24 bayesian references prior history

1

半コーシー分布の特性は何ですか？

現在、状態空間モデルのマルコフ連鎖モンテカルロ（MCMC）アルゴリズムを開発する必要がある問題に取り組んでいます。この問題を解決するために、次の確率でが与えられました：p（）= 2I（ > 0）/（1+）。はの標準偏差です。τ τ τ 2 τ Xττ\tauττ\tauττ\tauτ2τ2\tau^2ττ\tauバツバツx だから今、私はそれが半分コーシー分布であることを知っています、なぜなら私は例を見てからそれを認識し、そして私がそう言われたからです。しかし、なぜそれが「半コーチ」分布であり、どの特性がそれに伴うのかを完全には理解していません。プロパティの観点から、私は何が欲しいのかよくわかりません。私はこのタイプの計量経済学理論にかなり慣れていない。そのため、状態空間モデルのコンテキストでの分布と使用方法を理解することがより重要です。モデル自体は次のようになります。 ytバツt + 1at + 1p （σ2）p （τ）= xt+ et= xt+ at + 1〜N （0 、τ2）∝ 1 / σ2= 2 I（τ> 0 ）π（1 + τ2）yt=バツt+etバツt+1=バツt+at+1at+1〜 N（0、τ2）p（σ2）∝1/σ2p（τ）=2私（τ>0）π（1+τ2）\begin{align} y_t &= x_t + e_t \\ x_{t+1} &= x_t + a_{t+1} \\[10pt] a_{t+1} …

24 distributions bayesian prior state-space-models cauchy

3

Adam Optimizerがそのハイパーパラメーターの値に対して堅牢であると考えられる理由は何ですか？

私はディープラーニング用のAdamオプティマイザーについて読んでいて、Bengio、Goodfellow、Courvilleの新しい本Deep Learningで次の文章を見つけました。 Adamは通常、ハイパーパラメーターの選択に対してかなり堅牢であると見なされていますが、学習率を推奨されるデフォルトから変更する必要がある場合があります。ディープラーニングシステムの統計的パフォーマンスにおいて（少なくとも私の経験では）ハイパーパラメーター検索が非常に重要になる可能性があるため、これが事実であれば大したことです。したがって、私の質問は、なぜそのような重要なパラメーターに対してアダムがロバストなのですか？特別および？β1β1\beta_1β2β2\beta_2 私はAdamの論文を読みましたが、なぜそれらのパラメーターで機能するのか、なぜ堅牢なのかについては説明していません。彼らは他の場所でそれを正当化しますか？私は紙を読んでも、ために、彼らは非常に小さくしようとしたハイパーパラメータの数、ということらしいわずか2とするためにβ 2、それが唯一の2x3のハイパーパラメータで動作している場合にのみ3.どのようにこれは徹底的に実証研究することができ？β1β1\beta_1β2β2\beta_2

24 neural-networks deep-learning optimization hyperparameter adam

3

算術平均が幾何平均に非常に近い場合、データについて何を結論付けることができますか？

幾何平均と算術平均について、互いに非常に近いもの、たとえば〜0.1％に重要なものはありますか？そのようなデータセットについてどのような推測をすることができますか？私はデータセットの分析に取り組んできましたが、皮肉なことに、値は非常に近いことがわかりました。正確ではないが、近い。また、算術平均幾何平均不等式の簡単な健全性チェックとデータ収集のレビューにより、値をどのように考え出したかという点で、データセットの整合性について怪しいものはないことが明らかになりました。

24 descriptive-statistics mean geometric-mean

7

統計の技術的ではないが詳細な記事に対する推奨事項

この質問のインスピレーションは、故Leo-Breimanの有名な記事Statistical Modeling：The Two Cultures（available open access）から来ています。著者は、データを分析するための2つの異なるアプローチとして見ているものを比較し、古典的な統計と機械学習の重要なアイデアに触れています。ただし、この記事は幅広い読者に理解できます-おそらく、博士レベルで統計を追求したか、入門コースのみを受講したかどうかに関係なく、データを扱う人なら誰でも理解できます。また、記事は刺激的です。つまり、議論を容易に生み出します（同じ号で発行された一連の活発な解説によって証明されています）。これらの品質を備えた記事をもっと見つけたいです。つまり、次の記事：統計/データ分析の基本概念に触れる研究フォーカスと正式な統計トレーニングのばらつきの観点から幅広い聴衆が理解できる洞察であれ論争であれ、議論を刺激する

24 references

3

夜明け以降、すべての実験に複数の仮説修正が適用されないのはなぜですか？

私たちは、そうでない場合は、偽発見率を制御するために、単一のデータセットに基づいて実験にBenjamini Hochbergのような複数の仮説検証のための修正を適用しなければならないことを知っているすべての肯定的な結果が得られた実験が偽である可能性があります。しかし、データがどこから来たかに関係なく、この同じ原理を時間の初めからすべての実験に適用しないのはなぜですか？結局のところ、「重要」と見なされる公開された科学的結果の半分以上は、現在、偽りで再現不可能であることが知られており、これが100％になりにくい理由はありません。科学者はポジティブな結果のみを公開する傾向があるため、ネガティブな結果の数がわからないため、公開したものが偽陽性のみであるかどうかはわかりません。一方、複数の仮説検定修正の背後にある数学が同じデータセットからの結果にのみ適用されるべきであり、経時的に取得されたすべての実験データからの結果に適用されるべきではないということはありません。科学全体が、誤った仮説や弱い仮説に基づいた1つの大きな漁業遠征になったようです。これまでに実行されたすべての実験で複数の仮説検定の修正を適用せずに、独立した結果のみを公開した場合、どのように偽発見率を制御できますか？このような修正を適用せずに、誤検出率を制御することは可能ですか？

24 hypothesis-testing multiple-comparisons bonferroni false-discovery-rate

1

MCMCサンプルからの限界尤度の計算

これは、定期的な質問（参照で、この記事、この記事とこの記事を）が、私は別のスピンを持っています。一般的なMCMCサンプラーからのサンプルがたくさんあるとします。各サンプルについて、対数尤度および前の対数の値を知っています。役立つ場合は、データポイントごとの対数尤度の値も知っています（この情報は、WAICやPSIS-LOOなどの特定の方法で役立ちます）。θθ\thetalogf(x|θ)log⁡f(x|θ)\log f(\textbf{x} | \theta)logf(θ)log⁡f(θ)\log f(\theta)logf(xi|θ)log⁡f(xi|θ)\log f(x_i | \theta) 私が持っているサンプルと、場合によっては他のいくつかの関数評価を使用して（ただし、アドホック MCMC を再実行せずに）限界尤度の（粗）推定値を取得したい。まず、テーブルをクリアしましょう。私たちは皆、高調波推定器が史上最悪の推定器であることを知っています。次へ移りましょう。事前形式と事後条件を閉じた形式でギブスサンプリングを行う場合は、Chibの方法を使用できます。しかし、これらのケース以外で一般化する方法がわかりません。サンプリング手順を変更する必要がある方法もあります（後回しなど）が、ここでは興味がありません。私が考えているアプローチは、基礎となる分布をパラメトリック（またはノンパラメトリック）形状で近似し、正規化定数を1次元最適化問題（つまり、誤差を最小にする間及びのサンプルで評価）。最も単純な場合、後部がほぼ多変量正規であると仮定すると、を多変量正規として近似し、ラプラス近似に似たものを得ることができます（いくつかの追加の関数評価を使用して、モード）。ただし、として使用できますg(θ)g(θ)g(\theta)ZZZZZZZg(θ)Zg(θ)Z g(\theta)f(x|θ)f(θ)f(x|θ)f(θ)f(\textbf{x}|\theta) f(\theta)g(θ)g(θ)g(\theta)g(θ)g(θ)g(\theta)多変量分布の変分混合など、より柔軟なファミリ。ttt 私は、このメソッドは場合にのみ機能することを認めるへの合理的な近似である、それはに非常に賢明だろう理由のいずれかの理由や訓話しますか？お勧めの読書はありますか？Zg(θ)Zg(θ)Z g(\theta)f(x|θ)f(θ)f(x|θ)f(θ)f(\textbf{x}|\theta) f(\theta) 完全なノンパラメトリックアプローチでは、ガウスプロセス（GP）などのノンパラメトリックファミリを使用して、（またはそのような他の非線形変換など）を近似し平方根として）、およびベイジアン求積法で潜在的なターゲットを暗黙的に統合します（こちらとこちらをご覧ください）。これは興味深い代替アプローチのように見えますが、精神的には類似しています（また、私の場合、GPは扱いにくいことに注意してください）。logf(x|θ)+logf(θ)log⁡f(x|θ)+log⁡f(θ)\log f(\textbf{x}|\theta) + \log f(\theta)

24 machine-learning bayesian sampling mcmc likelihood

4

分散分析対多重線形回帰？ANOVAが実験研究でよく使用されるのはなぜですか？

分散分析対多重線形回帰？これらの方法はどちらも同じ統計モデルを使用しているように見えることを理解しています。しかし、どのような状況でどの方法を使用する必要がありますか？これらの方法を比較した場合の利点と欠点は何ですか？ ANOVAが実験研究で非常に一般的に使用されているのはなぜですか？回帰研究はほとんど見つかりません

24 anova multiple-regression least-squares

2

iidデータの逆説（少なくとも私にとって）

統計に関する私の集計（および乏しい）知識が許す限り、がiidのランダム変数である場合、用語が示すように、それらは独立しており、同一に分布しています。バツ1、X2、。。。、Xnバツ1、バツ2、。。。、バツnX_1, X_2,..., X_n ここでの私の懸念は、iidサンプルの以前のプロパティです。これは、 p （Xn| バツ私1、X私2、。。。、X私k）= p （Xn）、p（バツn|バツ私1、バツ私2、。。。、バツ私k）=p（バツn）、p(X_{n}|X_{i_1},X_{i_2},...,X_{i_k}) = p(X_{n}), 個別ののst。 1 ≤ I 、J < N私j私ji_j1 ≤ Ij< n1≤私j<n1 \leq i_j < n ただし、同一の分布の独立したサンプルの集合が分布構造に関する情報を提供し、上記の場合の結果としてに関する情報を提供することを知っているので、実際には、バツnバツnX_np （Xn| バツ私1、X私2、。。。、X私k）= p （Xn）。p（バツn|バツ私1、バツ私2、。。。、バツ私k）=p（バツn）。p(X_{n}|X_{i_1},X_{i_2},...,X_{i_k}) = p(X_{n}). 私は間違いの犠牲者であることは知っていますが、その理由はわかりません。これで私を助けてください。

24 sampling conditional-probability independence

3

ロジスティック回帰の評価とHosmer-Lemeshow適合度の解釈

誰もが知っているように、ロジスティック回帰モデルを評価するには2つの方法があり、それらは非常に異なることをテストしています予測力：独立変数に基づいて従属変数を予測できる程度を測定する統計を取得します。よく知られたPseudo R ^ 2はMcFadden（1974）とCox and Snell（1989）です。適合度の統計このテストは、モデルをより複雑にすることでさらに改善できるかどうかを判断します。これは、実際には非線形性または相互作用があるかどうかをテストすることです。私のモデルに両方のテストを実装しましたが、すでに2次および相互作用が追加されています。 >summary(spec_q2) Call: glm(formula = result ~ Top + Right + Left + Bottom + I(Top^2) + I(Left^2) + I(Bottom^2) + Top:Right + Top:Bottom + Right:Left, family = binomial()) Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 0.955431 8.838584 …

24 r logistic goodness-of-fit regression-strategies model-evaluation

2

テキスト分類のための単語の袋：TFIDFの代わりに単語の頻度を使用しないのはなぜですか？

テキスト分類の一般的なアプローチは、「単語の袋」から分類器をトレーニングすることです。ユーザーは分類するテキストを取得し、各オブジェクト内の単語の頻度をカウントします。その後、結果のマトリックスを管理可能なサイズに維持するために何らかのトリミングを行います。多くの場合、ユーザーはTFIDFを使用して特徴ベクトルを構築します。言い換えれば、上記のテキストの頻度は、コーパス内の単語の頻度によって低くされています。TFIDFが、たとえば、人間のアナリストに表示するために、特定のドキュメントの「最も顕著な」単語を選択するのに役立つのはなぜでしょう。しかし、標準の教師付きML手法を使用したテキストの分類の場合、コーパス内のドキュメントの頻度によるダウンウェイトが必要なのはなぜですか？学習者自身が各単語/単語の組み合わせに割り当てる重要性を決定しませんか？もしあれば、IDFがどのような価値を追加するかについてのあなたの考えに感謝します。

24 machine-learning classification text-mining

2

ポアソン分布を使用したプロセスのモデリングからネガティブ二項分布を使用するように切り替えますか？

\newcommand{\P}{\mathbb{P}}設定された期間複数回発生する可能性があるランダムプロセスがあります。このプロセスの既存のモデルからのデータフィードがあり、期間発生する多数のイベントの確率を提供します。この既存のモデルは古く、推定エラーのためにフィードデータでライブチェックを実行する必要があります。データフィードを生成する古いモデル（残りの発生するイベントの確率を提供している）は、ほぼポアソン分布です。TTT0≤t<T0≤t<T0 \leq t < Tnnnttt そのため、異常/エラーをチェックするために、残り時間とし、残り時間発生するイベントの総数とします。古いモデルは、推定値意味します。したがって、という仮定では、次のようになります。古いモデル（observations）の出力からイベントレートを導出するには、状態空間アプローチを使用して、次のように状態関係をモデル化します tttXtXtX_ttttP(Xt≤c)P(Xt≤c)\P(X_t \leq c)Xt∼Poisson(λt)Xt∼Poisson⁡(λt)X_t\sim \operatorname{Poisson}(\lambda_{t})P(Xt≤c)=e−λ∑k=0cλktk!.P(Xt≤c)=e−λ∑k=0cλtkk!. \P(X_t \leq c) = e^{-\lambda}\sum_{k=0}^c\frac{\lambda_t^k}{k!}\,. λtλt\lambda_tytyty_{t}yt=λt+εt(εt∼N(0,Ht)).yt=λt+εt(εt∼N(0,Ht)). y_t = \lambda_t + \varepsilon_t\quad (\varepsilon_t \sim N(0, H_t))\,. 進化に状態空間[一定速度減衰]モデルを使用して古いモデルから観測値をフィルター処理し、フィルター処理された状態を取得し、推定イベント頻度の異常/エラーにフラグを立てます。フィードのデータであれば。 E （λ T | Y T）E （λ T | YのT）< Y Tλtλt\lambda_tE(λt|Yt)E(λt|Yt)E(\lambda_t|Y_t)E(λt|Yt)<ytE(λt|Yt)<ytE(\lambda_t|Y_t) < y_t このアプローチは、全期間にわたって推定イベントカウントのエラーを検出するのに非常にうまく機能しますが、別の期間0 \ leq t <\ sigma where \ …

24 negative-binomial kalman-filter poisson-process state-space-models