統計とビッグデータ

4

オートエンコーダではなく、バリエーションオートエンコーダを使用する必要があるのはいつですか？

変分オートエンコーダーと通常の（決定論的）オートエンコーダーの基本構造とそれらの背後にある数学を理解していますが、あるタイプのオートエンコーダーを他のタイプよりもいつ、なぜ好むのでしょうか？私が考えることができるのは、変分オートエンコーダーの潜在変数の事前分布だけで、潜在変数をサンプリングしてから新しいイメージを構築できることです。決定論的オートエンコーダに対する変分オートエンコーダの確率論はどのような利点がありますか？

19 deep-learning autoencoders variational-bayes

2

事後分布をすでに知っているのに、なぜ事後分布からサンプリングする必要があるのですか？

私の理解では、ベイズのアプローチを使用してパラメータ値を推定するときは次のとおりです。事後分布は、事前分布と尤度分布の組み合わせです。事後分布からサンプルを生成することでこれをシミュレートします（たとえば、Metropolis-Hastingアルゴリズムを使用して値を生成し、それらが事後分布に属する確率の特定のしきい値を超える場合は受け入れます）。このサンプルを生成したら、それを使用して事後分布とその平均などを近似します。しかし、私は何かを誤解しているに違いないと感じています。事後分布があり、そこからサンプリングし、そのサンプルを事後分布の近似値として使用しているように聞こえます。しかし、なぜ事後分布があるのかというと、なぜそこからサンプリングして近似する必要があるのでしょうか？

19 bayesian inference simulation mcmc posterior

6

畳み込み層：パディングするかしないか

AlexNetアーキテクチャは、図に示すようにゼロパディングを使用します。ただし、このパディングが導入された理由については、論文には説明がありません。 Standford CS 231nコースでは、空間サイズを保持するためにパディングを使用することを教えています。パディングが必要なのはそれだけなのでしょうか？つまり、空間サイズを保持する必要がない場合は、パディングを削除するだけでいいですか？より深いレベルに進むと、空間サイズが非常に速く減少することを知っています。ただし、プーリング層を削除することでトレードオフできます。ゼロパディングの背後にある理論的根拠を誰かに教えていただければ幸いです。ありがとう！

19 conv-neural-network convolution

4

クラスター分析を説明しようとするとき、プロセスが変数が相関しているかどうかに関連していると誤解するのは一般的です。混乱を乗り越える方法の1つは、次のようなプロットです。これにより、クラスターがあるかどうかの問題と、変数が関連しているかどうかの問題の違いが明確に表示されます。ただし、これは連続データの区別のみを示しています。カテゴリデータを持つアナログを考えるのに問題があります。 ID property.A property.B 1 yes yes 2 yes yes 3 yes yes 4 yes yes 5 no no 6 no no 7 no no 8 no no 2つの明確なクラスターがあることがわかります。プロパティAとBの両方を持つ人と、持たない人です。ただし、変数を見ると（たとえば、カイ2乗検定で）、それらは明らかに関連しています： tab # B # A yes no # yes 4 0 # no 0 4 chisq.test(tab) # X-squared = 4.5, …

19 clustering categorical-data independence

4

階層的クラスタリングの欠点を理解する方法は？

誰かが階層的クラスタリングの長所と短所を説明できますか？階層的クラスタリングには、Kの意味と同じ欠点がありますか？階層的クラスタリングのKを超える利点は何ですか？階層的クラスタリングに対してKを使用する場合、およびその逆の場合はいつですか？この投稿への回答では、kの欠点が非常によく説明されています。 K-meansの欠点を理解する方法

19 clustering k-means unsupervised-learning hierarchical-clustering

2

歪度がゼロで過剰な尖度がゼロの非正規分布？

主に理論的な質問。最初の4モーメントが正規分布と等しい非正規分布の例はありますか？それらは理論的に存在するのでしょうか？

19 normal-distribution skewness moments theory kurtosis

2

スチューデントのt検定はWald検定ですか？

スチューデントのt検定はWald検定ですか？ Wasserman's All of StatisticsからWaldテストの説明を読みました。 Wald検定にはt検定が含まれているように思えます。あれは正しいですか？そうでない場合、t検定がWald検定ではないのはなぜですか？

19 hypothesis-testing t-test

3

k-meansクラスターパーティションの最も重要な特徴の推定

データセットのどの特徴/変数がk-meansクラスターソリューション内で最も重要/支配的であるかを判断する方法はありますか？

19 machine-learning clustering k-means importance

1

事後比較テストまたは計画比較テストに直接ジャンプするのではなく、ANOVAを使用するのはなぜですか？

グループ間ANOVAの状況を見ると、実際にそのようなANOVAテストを実際に実行し、2番目に事後（Bonferroni、Shidákなど）または計画比較テストを実行すると何が得られますか？ANOVAの手順を完全にスキップしてみませんか？このような状況で、グループ間ANOVAの利点の1つは、TukeyのHSDを事後テストとして使用できることです。後者では、関連する標準誤差を計算するために、ANOVAテーブルのグループ内平均平方が必要です。ただし、対応のないt検定に対するBonferroniとŠidákの調整には、ANOVA入力は必要ありません。グループ内の分散分析の状況についても同じ質問を提起したいと思います。そのような場合、テューキーのHSDテストは、この質問をさらに緊急にする関連する考慮事項ではありません。

19 hypothesis-testing anova multiple-comparisons post-hoc

2

時系列における可逆プロセスの直観とは何ですか？

時系列に関する本を読んでいると、次の部分で頭をかき始めました。誰かが私のために直感を説明できますか？私はこのテキストからそれを得ることができませんでした。プロセスを可逆的にする必要があるのはなぜですか？ここでの全体像は何ですか？助けてくれてありがとう。私はこのことを初めて知っているので、これを説明するときに学生レベルの用語を使用してください:)

19 time-series arma

1

2Dヒストグラムの適合度

星のパラメーターを表す2つのデータセットがあります。観測されたデータとモデル化されたデータです。これらのセットを使用して、2色図（TCD）と呼ばれるものを作成します。サンプルは次のとおりです。 Aは観測されたデータであり、Bはモデルから抽出されたデータです（黒い線は気にせず、ドットはデータを表します）Aダイアグラムは1つしかありませんが、必要な数の異なるBダイアグラムを作成できます。Aに最適なものを保持するため。したがって、私が必要とするのは、ダイアグラムB（モデル）からダイアグラムA（観察）への適合度をチェックする信頼できる方法です。今私がしていることは、両方の軸をビニングすることで各ダイアグラムの2Dヒストグラムまたはグリッド（私はそれを呼んでいますが、より適切な名前かもしれません）を作成します（それぞれ100ビン）その後、グリッドの各セルを通過しますそして、その特定のセルのAとBの間のカウントの絶対差を見つけます。すべてのセルを処理した後、各セルの値を合計するため、AとBの間の適合度（）を表す単一の正のパラメーターになります。ゼロに最も近いほど、適合度が高くなります。基本的に、これはそのパラメータがどのように見えるかです：gfgfgf gf=∑ij|aij−bij|gf=∑ij|aij−bij|gf = \sum_{ij} |a_{ij}-b_{ij}|; ここで、はその特定のセル（決定）のダイアグラムAの星の数であり、はBの数です。aijaija_{ij}ijijijbijbijb_{ij} これは、各セルのカウントの差が、作成したグリッドでどのように見えるかです絶対値を使用していないことに注意してくださいしかし、この画像では私が行う計算する際にそれらを使用し）パラメータを：(aij−bij)(aij−bij)(a_{ij}-b{ij})(aij−bij)(aij−bij)(a_{ij}-b{ij})gfgfgf 問題は、これが適切な推定量ではないかもしれないとアドバイスされたことです。主に、パラメータが低いためにこの適合が他の適合よりも優れていると言う以外は、私は本当に何も言えません。重要：（これを提示してくれた@PeterEllisに感謝） 1- Bのポイントは、Aのポイントと1対1で関連付けられていません。これは、最適なフィットを検索する際に留意すべき重要なことです。AとBのポイントの数は必ずしも同じではなく、適合度テストもこの不一致を考慮して最小化しようとします。 2-すべてのBデータセット（モデル出力）のポイント数は、Aに合わせようとしていますが、固定されていません。私はいくつかのケースで使用されるカイ二乗検定を見てきました： ∑i(Oi−Ei)2/Ei∑i(Oi−Ei)2/Ei\sum_i (O_i-E_i)^2/E_i ; ここで、は観測頻度（モデル）、は予想頻度（観測）です。OiOiO_iEiEiE_i しかし、問題は次のとおりですがゼロの場合はどうすればよいですか？上の画像でわかるように、その範囲でこれらのダイアグラムのグリッドを作成すると、がゼロのセルがたくさんあります。EiEiE_iEiEiE_i また、ヒストグラムが関係するこのような場合に対数尤度ポアソン検定を適用することを推奨する人もいます。これが正しい場合、誰かがこの特定のケースにそのテストを使用する方法を教えてくれれば本当に感謝しています（統計の私の知識はかなり貧弱なので、できるだけ簡単にしてください:)

19 goodness-of-fit histogram

2

仮説検定と時系列の重要性

2つの母集団を調べる際の通常の有意性の検定は、可能であればt検定とペアt検定です。これは、分布が正常であることを前提としています。時系列の有意性検定を生成する同様の単純化された仮定はありますか？具体的には、2種類のかなり小さなマウスの集団が別々に処理されており、週に1回体重を測定しています。両方のグラフはスムーズに増加する関数を表示し、1つのグラフが他のグラフの上に確実に表示されます。この文脈で「明確さ」をどのように定量化するのでしょうか？帰無仮説は、2つの母集団の重みが時間の経過とともに「同じように振る舞う」ということです。少数のパラメーターのみでかなり一般的な（正規分布が一般的であるように）単純なモデルの観点から、これをどのように定式化できますか？それを行ったら、どのように有意性またはp値に類似した何かを測定できますか？マウスをペアリングして、可能な限り多くの特性を一致させ、各ペアが2つの母集団のそれぞれから1つの代表を持っている場合はどうでしょうか？時系列についての、よく書かれたわかりやすい本や記事へのポインターを歓迎します。私は無知から始めます。ご協力いただきありがとうございます。デビッド・エプスタイン

19 time-series hypothesis-testing statistical-significance

2

バックプロパゲーションアルゴリズム

多層パーセプトロン（MLP）で使用される逆伝播アルゴリズムについて少し混乱しました。エラーはコスト関数によって調整されます。バックプロパゲーションでは、隠れ層の重みを調整しようとしています。私が理解できる出力エラー、つまりe = d - y[添え字なし]。質問は次のとおりです。隠れ層のエラーはどのようにして得られますか？どのように計算しますか？バックプロパゲートする場合、重みを更新するために、適応フィルターのコスト関数として使用する必要がありますか、または（C / C ++で）プログラミングの意味でポインターを使用する必要がありますか？

19 machine-learning neural-networks backpropagation

5

「転移学習」と「ドメイン適応」の違いは何ですか？

「転移学習」と「ドメイン適応」の間に違いはありますか？コンテキストについては知りませんが、私の理解では、いくつかのデータセット1があり、その上でトレーニングを行い、その後、最初から再トレーニングせずにモデルを適応させたい別のデータセット2があります。「ドメイン適応」は、この問題の解決に役立ちます。畳み込みニューラルネットワークの分野によると：「転移学習」とは、「微調整」を意味します[1] この場合[2]は教師なしですが、「ドメイン適応」は常に教師なしにする必要がありますか？

19 deep-learning terminology conv-neural-network transfer-learning domain-adaptation

3

ニューラルネットワークは関数または確率密度関数を学習しますか？

統計的推論とニューラルネットワークは初めてなので、質問は少し奇妙に聞こえるかもしれません。ニューラルネットワークを使用した分類問題で、入力xの空間を出力yの空間にマッピングする関数を学習したいと言います。f∗f∗f^*xxxyyy f∗(x;θ)=yf∗(x;θ)=yf^*(x; \theta) = y 非線形関数をモデル化するために、または確率密度関数をモデル化するために、パラメーター（θθ\theta）をフィッティングしますか？私は質問をより良い方法で書く方法を本当に知りません。私は両方のことを数回読みました（確率密度関数、またはそのような関数）ので、私の混乱。

19 machine-learning neural-networks