統計とビッグデータ

4

ニューラルネットワークでの回帰に興味があります。隠れノードがゼロのニューラルネットワーク+スキップレイヤー接続は線形モデルです。同じニューラルネットについてですが、隠れノードはありますか？スキップ層接続の役割は何でしょうか？直観的には、スキップ層接続を含めると、最終モデルは線形モデルといくつかの非線形部分の合計になります。ニューラルネットにスキップレイヤー接続を追加することには、利点や欠点はありますか？

26 regression machine-learning neural-networks deep-learning

5

変量効果と固定効果の数学的な違いは何ですか？

ランダム効果と固定効果の解釈に関して、インターネット上で多くのことを発見しました。ただし、以下をピン留めするソースを取得できませんでした。変量効果と固定効果の数学的な違いは何ですか？つまり、モデルの数学的定式化とパラメーターの推定方法を意味します。

26 mathematical-statistics mixed-model random-effects-model fixed-effects-model

3

ガンマ分布と正規分布の関係

最近、平均が0の正規確率変数の2乗のpdfを導出する必要があることがわかりました。何らかの理由で、事前に分散を正規化しないことを選択しました。これを正しく行った場合、このpdfは次のようになります。 N2(x;σ2)=1σ2π−−√x−−√e−x2σ2N2(x;σ2)=1σ2πxe−x2σ2 N^2(x; \sigma^2) = \frac{1}{\sigma \sqrt{2 \pi} \sqrt{x}} e^{\frac{-x}{2\sigma^2}} これは、実際にはガンマ分布のパラメータ化にすぎないことに気付きました。 N2(x;σ2)=Gamma(x;12,2σ2)N2(x;σ2)=Gamma⁡(x;12,2σ2) N^2(x; \sigma^2) = \operatorname{Gamma}(x; \frac{1}{2}, 2 \sigma^2) そして、2つのガンマ（同じスケールパラメーター）の合計が別のガンマに等しいという事実から、そのガンマは 2乗正規確率変数の合計に等しいということになります。kkk N2Σ(x;k,σ2)=Gamma(x;k2,2σ2)NΣ2(x;k,σ2)=Gamma⁡(x;k2,2σ2) N^2_\Sigma(x; k, \sigma^2) = \operatorname{Gamma}(x; \frac{k}{2}, 2 \sigma^2) これは私には少し驚きでした。私が知っていたにもかかわらず乗の和の分布-分布の標準的な通常のRV車を-私は、ガンマは基本的に通常の合計を可能にだけ一般化したことに気づかなかった、ガンマの特殊なケースでした任意の分散のランダム変数。これは、指数分布が2つの正規分布の2乗の和に等しいなど、これまでに出会ったことのない他の特性化にもつながります。χ2χ2\chi^2 これはすべて私にとってやや不思議です。上記で説明したように、正規分布はガンマ分布の導出の基本ですか？私がチェックしたほとんどのリソースは、2つの分布が本質的にこのように関連していること、またはその点についてもガンマの導出方法を説明していません。これにより、複雑な方法で単純に強調した下位レベルの真実がいくつかあると思いますか？

26 normal-distribution gamma-distribution

5

一連のコイン投げで頭と尾のパターンを打つのにかかった時間

TEDでのPeter Donnellyの講演に触発され、特定のパターンが一連のコイントスに現れるまでにかかる時間について議論し、Rで次のスクリプトを作成しました。これらのパターンのいずれかにヒットするまでに平均で要する時間（つまり、コインを投げる回数）を計算します。 coin <- c('h','t') hit <- function(seq) { miss <- TRUE fail <- 3 trp <- sample(coin,3,replace=T) while (miss) { if (all(seq == trp)) { miss <- FALSE } else { trp <- c(trp[2],trp[3],sample(coin,1,T)) fail <- fail + 1 } } return(fail) } n <- 5000 trials <- data.frame("hth"=rep(NA,n),"htt"=rep(NA,n)) …

26 r probability stochastic-processes

4

ARIMAモデルをあてはめる前に時系列をログ変換するタイミング

以前は予測プロを使用して単変量時系列を予測していましたが、ワークフローをRに切り替えています.Rの予測パッケージには多くの便利な機能が含まれていますが、自動化を実行する前に行わないデータ変換が1つあります.arima（）。いくつかのケースでは、予測プロは予測を行う前に変換データを記録することを決定しますが、その理由はまだわかりません。私の質問は次のとおりです：ARIMAメソッドを試す前に、時系列をいつログ変換する必要がありますか？ /編集：回答を読んだ後、次のようなものを使用します。xは私の時系列です。 library(lmtest) if ((gqtest(x~1)$p.value < 0.10) { x<-log(x) } これは理にかなっていますか？

26 r time-series data-transformation forecasting arima

2

変分オートエンコーダーでのKLD損失と再構成損失の重み付け方法

VAEで見たほぼすべてのコード例で、損失関数は次のように定義されています（これはtensorflowコードですが、theano、torchなどでも同様です。これはconvnetでも見られますが、あまり関係ありません）、単に合計が引き継がれる軸に影響します）： # latent space loss. KL divergence between latent space distribution and unit gaussian, for each batch. # first half of eq 10. in https://arxiv.org/abs/1312.6114 kl_loss = -0.5 * tf.reduce_sum(1 + log_sigma_sq - tf.square(mu) - tf.exp(log_sigma_sq), axis=1) # reconstruction error, using pixel-wise L2 loss, for each batch rec_loss = …

26 machine-learning deep-learning tensorflow autoencoders variational-bayes

4

不均衡なデータセットに対するxgboostのscale_pos_weightの適切な使用法は何ですか？

非常に不均衡なデータセットがあります。チューニングのアドバイスに従って使用しようとしていますが、scale_pos_weightどのようにチューニングする必要があるかはわかりません。私はそれを見ることRegLossObj.GetGradientができます： if (info.labels[i] == 1.0f) w *= param_.scale_pos_weight そのため、陽性サンプルの勾配はより影響力があります。ただし、xgboostの論文によると、勾配統計は常に特定のツリーの特定のノードのインスタンス内でローカルに使用されます。ノードのコンテキスト内で、候補分割の損失削減を評価する葉ノードのコンテキスト内で、そのノードに与えられる重みを最適化するしたがって、何が良いかを前もって知る方法はありません。scale_pos_weight正と負のインスタンスの比率が1：100になるノードと、比率が1：2のノードでは、数値が大きく異なります。ヒントはありますか？

26 unbalanced-classes xgboost

1

古い本の統計表は意図的に間違っていますか？

昔（コンピューター時代以前の）本では、盗作を思いとどまらせるために、付録に示されている理論的な分位数の最後の桁が不正確だったことを覚えていました（別の本に表があれば最後の数字があなたの数字と同じ場合は、その著者はあなたのテーブルを盗用しているに違いありません）。私はこの物語のソース、またはその言及へのリンクを見つけようとしていますが、何時間も検索した後、私は見つけることができませんでした。

25 references history tables

1

分類と回帰を組み合わせたアルゴリズムはありますか？

分類と回帰を同時に行うことができるアルゴリズムがあるかどうか疑問に思っています。たとえば、アルゴリズムに分類子を学習させたいと同時に、各ラベル内で連続ターゲットも学習させます。したがって、トレーニングの例ごとに、カテゴリラベルと連続値があります。最初に分類器をトレーニングし、次に各ラベル内のリグレッサーをトレーニングできますが、両方を実行できるアルゴリズムがあれば素晴らしいと思います。

25 regression machine-learning classification predictive-models finite-mixture-model

5

過剰適合モデルは必ずしも役に立たないでしょうか？

モデルのトレーニングデータの精度は100％、テストデータの精度は70％と仮定します。このモデルについて次の議論は真実ですか？これが過剰適合モデルであることは明らかです。オーバーフィッティングを減らすことで、テストの精度を高めることができます。しかし、このモデルはテストデータに対して許容可能な精度を持っているため、依然として有用なモデルである可能性があります。

25 model accuracy overfitting

2

ベイジアン手法が過剰適合しないのは本当ですか？

ベイジアン手法が過剰適合しないのは本当ですか？（この主張をするいくつかの論文やチュートリアルを見ました）たとえば、ガウス過程をMNIST（手書き数字分類）に適用し、単一のサンプルのみを表示する場合、その単一のサンプルとは異なる入力であっても、差は小さいものの前の分布に戻りますか？

25 bayesian nonparametric gaussian-process overfitting misspecification

5

畳み込みニューラルネットワークとディープラーニングの違いは何ですか？

プロジェクトでディープラーニングを使用したい。いくつかの論文を読んで、質問がありました。畳み込みニューラルネットワークとディープラーニングに違いはありますか？これらは同じものですか、それとも大きな違いがありますか？

25 machine-learning neural-networks deep-learning terminology conv-neural-network

3

「ハードルモデル」は本当に1つのモデルですか？または、2つの別個の順次モデルだけですか？

y通常の予測子からカウントデータを予測するハードルモデルを考えますx。 set.seed(1839) # simulate poisson with many zeros x <- rnorm(100) e <- rnorm(100) y <- rpois(100, exp(-1.5 + x + e)) # how many zeroes? table(y == 0) FALSE TRUE 31 69 この場合、69個のゼロと31個の正のカウントを持つカウントデータがあります。私の質問はハードルモデルに関するものであるため、これはデータ生成手順の定義によりポアソンプロセスであるということは今のところ気にしないでください。これらの過剰なゼロをハードルモデルで処理したいとします。それらについての私の読書から、ハードルモデルはそれ自体が実際のモデルではないように思われました。彼らはただ2つの異なる分析を連続して行っているだけです。最初に、値が正であるかゼロであるかを予測するロジスティック回帰。第二に、ゼロ以外のケースのみを含むゼロ切り捨てポアソン回帰。この2番目のステップは、（a）完全に適切なデータを破棄し、（b）データの多くがゼロであるため電力の問題につながる可能性があり、（c）基本的にそれ自体が「モデル」ではないため、間違っていると感じました、ただし2つの異なるモデルを順番に実行するだけです。そこで、ロジスティックとゼロ打ち切りポアソン回帰を別々に実行するのではなく、「ハードルモデル」を試しました。彼らは私に同じ答えを与えました（簡潔にするために出力を省略しています）： > # hurdle output > summary(pscl::hurdle(y ~ x)) Count model coefficients (truncated poisson with …

25 r count-data zero-inflation

2

分位（逆CDF）関数の理解を手伝ってください

分位数関数について読んでいますが、はっきりしていません。以下に示す説明よりも直感的な説明を提供できますか？ cdfは単調増加関数であるため、逆関数になります。これを示しましょう。場合の累積分布関数であるは、の値であるように、。これは分位数と呼ばれます。値は分布の中央値で、確率質量の半分が左側に、半分が右側にあります。値およびは、下位および上位の四分位数です。F - 1 F X F - 1（α ）X α P （X ≤ X α）= α α F F - 1（0.5 ）F - 1（0.25 ）F - 1（0.75 ）FFFF−1F−1F^{−1}FFFバツXXF− 1（α ）F−1(α)F^{−1}(\alpha)バツαxαx_\alphaP（X≤ Xα）= αP(X≤xα)=αP(X \le x_\alpha) = \alphaαα\alphaFFFF− 1（0.5 ）F−1(0.5)F^{−1}(0.5)F− 1（0.25 ）F−1(0.25)F^{−1}(0.25)F− 1（0.75 ）F−1(0.75)F^{−1}(0.75)

25 distributions cdf inverse-cdf quantile-function

2

対数正規分布のモーメントの推定量のバイアス

私は、対数正規分布をサンプリングすることにあるいくつかの数値実験をやっているX∼LN(μ,σ)X∼LN(μ,σ)X\sim\mathcal{LN}(\mu, \sigma)、およびモーメントを推定しようとしてE[Xn]E[Xn]\mathbb{E}[X^n] 2つの方法で： X nのサンプル平均を見るXnXnX^n 推定μμ\mu及びσ2σ2\sigma^2のサンプル手段を用いてlog(X),log2(X)log⁡(X),log2⁡(X)\log(X), \log^2(X)、次いで対数正規分布のために、我々は持っているという事実を利用してE[Xn]=exp(nμ+(nσ)2/2)E[Xn]=exp⁡(nμ+(nσ)2/2)\mathbb{E}[X^n]=\exp(n \mu + (n \sigma)^2/2)。質問は次のとおりです。私は実験的に見つける、第2の方法が実行はるかに優れた、最初の1、私は固定のサンプル数を維持し、向上させるときμ,σ2μ,σ2\mu, \sigma^2この事実のためにいくつかの簡単な説明があり、いくつかの要因によってT.？ Y軸の値である間、私は、x軸がTである図形を装着していE[X2]E[X2]\mathbb{E}[X^2]の真の値を比較するE[X2]=exp(2μ+2σ2)E[X2]=exp⁡(2μ+2σ2)\mathbb{E}[X^2] = \exp(2 \mu + 2 \sigma^2)（オレンジ行）、推定値に。方法1-青い点、方法2-緑の点。y軸は対数スケールです編集：以下は、1つのTの結果を出力する最小のMathematicaコードです。 ClearAll[n,numIterations,sigma,mu,totalTime,data,rmomentFromMuSigma,rmomentSample,rmomentSample] (* Define variables *) n=2; numIterations = 10^4; sigma = 0.5; mu=0.1; totalTime = 200; (* Create log normal data*) data=RandomVariate[LogNormalDistribution[mu*totalTime,sigma*Sqrt[totalTime]],numIterations]; (* the moment by theory:*) …

25 estimation bias lognormal moments