統計とビッグデータ

4

中央値と平均値がほぼ等しい場合、対称分布が存在することを意味しますが、この特定のケースでは確信がありません。平均値と中央値は非常に近い（差額は0.487m / gallのみ）ため、対称分布があると言えますが、箱ひげ図を見ると、わずかに正に歪んでいるように見えます（中央値はQ3よりもQ1に近いことが確認されています）値によって）。（このソフトウェアについて特別なアドバイスがあれば、Minitabを使用しています。）

23 distributions mean skewness median qq-plot

2

Wilksの1938年の証明が、誤って指定されたモデルに対して機能しないのはなぜですか？

有名な1938年の論文（「複合仮説をテストするための尤度比の大標本分布」、Annals of Mathematical Statistics、9：60-62）で、サミュエルウィルクスは（対数尤度比）の漸近分布を導きました）ネストされた仮説の場合、より大きな仮説が正しく指定されているという仮定の下で。極限分布はχ 2（カイ二乗）とH - M個の自由度Hが大きい仮説とのパラメータの数であり、Mが2×LLR2×LLR2 \times LLRχ2χ2\chi^2h−mh−mh-mhhhmmmネストされた仮説の自由パラメーターの数です。ただし、仮説が誤って指定されている場合（つまり、大きな仮説がサンプリングされたデータの真の分布ではない場合）、この結果が保持されないことはよく知られています。誰でもその理由を説明できますか？ウィルクスの証明は、わずかな修正を加えても機能するはずです。最尤推定（MLE）の漸近正規性に依存しますが、これは誤って指定されたモデルでも保持されます。唯一の違いは、制限多変量正規分布の共分散行列です。正しく指定されたモデルでは、共分散行列を逆フィッシャー情報行列で近似できますが、仕様が間違っていれば、共分散行列のサンドイッチ推定（J − 1 K J − 1）。モデルが正しく指定されると、後者はフィッシャー情報行列の逆行列になります（J = KJ−1J−1J^{-1}J−1KJ−1J−1KJ−1J^{-1} K J^{-1}J=KJ=KJ = K）。AFAICT、Wilksの証明は、MLEの多変量正規の可逆漸近共分散行列（Wilks論文の）がある限り、共分散行列の推定値がどこから来るかを気にしません。 c−1c−1c^{-1}

23 hypothesis-testing model-selection likelihood-ratio asymptotics misspecification

2

ハードマージンSVMの損失関数とは何ですか？

人々はソフトマージンSVMはヒンジ損失関数を使用すると言います：。ただし、ソフトマージンSVMが最小化しようとする実際の目的関数は、 \ frac {1} {2} \ | w \ | ^ 2 + C \ sum_i \ max（0,1-y_i（w ^ \ intercal x_i + b）です。）一部の著者は、\ | w \ | ^ 2項正則化および\ max（0,1-y_i（w ^ \ intercal x_i + b））項損失関数を呼び出します。max(0,1−yi(w⊺xi+b))max(0,1−yi(w⊺xi+b))\max(0,1-y_i(w^\intercal x_i+b))12∥w∥2+C∑imax(0,1−yi(w⊺xi+b))12‖w‖2+C∑imax(0,1−yi(w⊺xi+b)) \frac{1}{2}\|w\|^2+C\sum_i\max(0,1-y_i(w^\intercal x_i+b)) ∥w∥2‖w‖2\|w\|^2max(0,1−yi(w⊺xi+b))max(0,1−yi(w⊺xi+b))\max(0,1-y_i(w^\intercal x_i+b)) ただし、ハードマージンSVMの場合、目的関数全体はちょうど 12∥w∥212‖w‖2 \frac{1}{2}\|w\|^2 。これは、ハードマージンSVMが損失関数なしで正則化のみを最小化することを意味しますか？それは非常に奇妙に聞こえます。まあ、あれば12∥w∥212‖w‖2\frac{1}{2}\|w\|^2、この場合の損失関数である、我々は二次損失関数を呼び出すことができますか？もしそうなら、なぜハードマージンSVMの損失関数はソフトマージンSVMで正則化され、二次損失からヒンジ損失に変化するのですか？

23 svm loss-functions

2

自己相関時間の定義（有効なサンプルサイズの場合）

文献には、弱定常時系列の自己相関時間に関する2つの定義があります。 τa= 1 + 2 ∑k = 1∞ρk対τb= 1 + 2 ∑k = 1∞| ρk|τa=1+2∑k=1∞ρkversusτb=1+2∑k=1∞|ρk| \tau_a = 1+2\sum_{k=1}^\infty \rho_k \quad \text{versus} \quad \tau_b = 1+2\sum_{k=1}^\infty \left|\rho_k\right| ここで、はラグでの自己相関です。 kρk= Cov [ Xt、Xt + h]ヴァー[ Xt]ρk=Cov[Xt,Xt+h]Var[Xt]\rho_k = \frac{\text{Cov}[X_t,X_{t+h}]}{\text{Var}[X_t]}kkk 自己相関時間の1つの用途は、「有効なサンプルサイズ」を見つけることです。時系列の観測値があり、その自己相関時間がわかっている場合、τnnnττ\tau neff= nτneff=nτ n_\text{eff} = \frac{n}{\tau} 平均を求めるために、相関するサンプルの代わりに独立したサンプル。データからを推定することは簡単ではありませんが、その方法はいくつかあります（Thompson 2010を参照）。τnnnττ\tau 絶対値なしの定義は、文献ではより一般的です。しかし、可能性を認めています。Rと「coda」パッケージの使用：τ A < 1τaτa\tau_aτa< 1τa<1\tau_a<1 require(coda) …

23 r time-series correlation

3

最大エントロピー分布の統計的解釈

最大エントロピーの原理を使用して、さまざまな設定でいくつかの分布を使用することを正当化しました。ただし、最大エントロピーの情報理論的な解釈とは対照的に、統計を定式化することはまだできていません。言い換えると、エントロピーを最大化すると、分布の統計的特性について何が示唆されるのでしょうか？誰かに出くわしたり、最大の統計的解釈を自分自身で発見したりしました。情報には訴えず、確率論的な概念にのみ訴えるエントロピー分布？そのような解釈の例として（必ずしも真とは限らない）：「RVのドメイン上の任意の長さLの間隔（単純化のために1-d連続と仮定）では、この間隔に含まれる最大確率は最小化されます。最大エントロピー分布による。」したがって、「情報量」やその他のより哲学的なアイデアについての話はなく、確率的な意味合いだけがあります。

23 distributions entropy intuition information-theory maximum-entropy

2

「統計」とはどういう意味ですか（統計の文脈で）。

Googleで "fisher" "fiducial" ...私は確かに多くのヒットを得ますが、私が従ったものはすべて私の理解を完全に超えています。これらすべてのヒットには共通点が1つあるように見えます。それらはすべて、染められた統計学者、理論、実践、歴史、および統計の知識に徹底的に浸されている人々のために書かれています。（したがって、これらの説明のどれも、フィッシャーが「基準」によって意味することを、専門用語の海に頼ったり、いくつかの古典的または他の数学的統計文献に負けずに説明したり、説明することさえしません。）まあ、私は主題で見つけたもののために利益を得ることができる選択された聴衆に属していません、そしてこれはおそらくフィッシャーが「基準」によって意味するものを理解しようとする私の試みのすべてが壁に衝突した理由を説明しています不可解な意味不明な言葉。プロの統計学者ではない人に、フィッシャーが「基準」とはどういう意味かを説明しようとする試みを知っている人はいますか？ PSフィッシャーは、「基準」が意味するものを特定することになると、少し動いているターゲットであることがわかりますが、この用語は意味の「一定の核」を持たなければならないことを理解しています。する）分野内で一般的に理解されている用語として。

23 bayesian inference terminology fiducial ronald-fisher

6

トレーニングよりも高いテスト精度。解釈する方法は？

多くの機能（1000を超える）を備えた最大150のサンプル（トレーニングとテストに分割）を含むデータセットを持っています。データに対して適切に機能する分類子と特徴選択方法を比較する必要があります。そのため、3つの分類方法（J48、NB、SVM）と2つの機能選択方法（CFS、WrapperSubset）を異なる検索方法（Greedy、BestFirst）で使用しています。比較しながら、トレーニングの精度（5倍クロスフォールディング）とテストの精度を調べています。 J48およびCFS-BestFirstの結果の1つを次に示します。 {「accuracyTraining」：95.83、「accuracyTest」：98.21} 多くの結果はこのようなものであり、SVMにはテストの精度がトレーニングよりもはるかに高いことを示す多くの結果があります（トレーニング：60％、テスト：98％）これらの結果をどのように有意義に解釈できますか？それが低ければ、私はそれが過剰適合であると言うでしょう。すべての結果を見ることで、この場合のバイアスと分散について何か言いたいことがありますか？この分類を意味のあるものにするために何ができますか？たとえば、トレーニングセットとテストセットを再選択するか、すべてのデータで相互検証を使用するだけですか？ 73のトレーニングインスタンスと58のテストインスタンスがあります。一部の回答には、投稿時にこの情報がありませんでした。

23 classification feature-selection

4

検証セットでテストするのではなく、10倍のクロス検証を使用するのはなぜですか？

私は感情の分類と関連するトピックに関する多くの研究論文を読みました。それらのほとんどは、分類器のトレーニングとテストに10倍の交差検証を使用しています。つまり、個別のテスト/検証は行われません。何故ですか？このアプローチの長所/短所は何ですか、特に研究を行う人にとってはどうですか？

23 classification cross-validation

1

離散データを使用したコルモゴロフ-スミルノフ：Rでのdgof :: ks.testの適切な使用とは？

初心者の質問： 2つの個別のデータセットが同じ分布に由来するかどうかをテストします。コルモゴロフ・スミルノフのテストが提案されました。 Conover（Practical Nonparametric Statistics、3d）は、コルモゴロフ-スミルノフ検定をこの目的に使用できると言っているようですが、その動作は離散分布で「保守的」であり、ここで何を意味するのかわかりません。別の質問に対する DavidRのコメントは、「... KS統計に基づいてレベルα検定を作成することはできますが、シミュレーションなどによって重要な値を取得する他の方法を見つける必要があります。」 dgof Rパッケージ（article、cran）のks.test（）のバージョンは、statsパッケージのks.test（）のデフォルトバージョンにはない機能を追加します。とりわけ、dgof :: ks.testには次のパラメーターが含まれています。 simulate.p.value：離散適合度検定のみのために、モンテカルロシミュレーションによってp値を計算するかどうかを示す論理値。 Simulate.p.value = Tの目的は、DavidRが提案することを達成することですか？たとえそうであっても、2サンプルテストにdgof :: ks.testを本当に使用できるかどうかはわかりません。連続分布に対して2サンプルのテストのみを提供しているように見えます。 yが数値の場合、xとyが同じ連続分布から引き出されたという帰無仮説の2標本検定が実行されます。または、yは連続（累積）分布関数（またはそのような関数）を指定する文字列、または離散分布を与えるecdf関数（またはクラスstepfunのオブジェクト）にすることができます。これらの場合、1サンプルテストは、xを生成した分布関数が分布y ...であるというヌルから実行されます。（背景の詳細：厳密に言えば、基礎となる分布は連続的ですが、データは少数のポイントに非常に近い傾向があります。各ポイントはシミュレーションの結果であり、-1から10までの実数の平均です。 1.シミュレーションの終わりまでに、これらの数値はほぼ常に.9または-.9に非常に近いため、平均値はいくつかの値に集中し、それらを離散として扱います。シミュレーションは複雑で、データが既知の分布に従うと考える理由。）助言？

23 r goodness-of-fit discrete-data kolmogorov-smirnov

2

多変量回帰のランダムフォレスト

入力フィーチャと出力のマルチ出力回帰問題があります。出力には、複雑な非線形相関構造があります。dバツdバツd_xdydyd_y ランダムフォレストを使用して回帰を行いたいです。私が知る限り、回帰用のランダムフォレストは単一の出力でのみ機能するため、各出力に1つずつ、ランダムフォレストをトレーニングする必要があります。これは、それらの相関を無視します。dydyd_y 出力相関を考慮したランダムフォレストの拡張機能はありますか？多タスク学習のガウス過程回帰のようなものかもしれません。

23 regression multivariate-analysis random-forest

4

PCAの欠損値の代入

prcomp()RでPCA（主成分分析）を実行するためにこの関数を使用しました。ただし、その関数にはバグがあり、na.actionパラメーターが機能しません。私はstackoverflowの助けを求めました。そこで2人のユーザーが、NA値を処理する2つの異なる方法を提供しました。ただし、両方のソリューションの問題は、NA値がある場合、その行が削除され、PCA分析で考慮されないことです。私の実際のデータセットは100 x 100のマトリックスであり、単一のNA値が含まれているという理由だけで行全体を失いたくありません。次の例はprcomp()、NA値が含まれているため、関数が行5の主成分を返さないことを示しています。 d <- data.frame(V1 = sample(1:100, 10), V2 = sample(1:100, 10), V3 = sample(1:100, 10)) result <- prcomp(d, center = TRUE, scale = TRUE, na.action = na.omit) result$x # $ d$V1[5] <- NA # $ result <- prcomp(~V1+V2, data=d, center = TRUE, scale = TRUE, na.action = …

23 r pca missing-data data-imputation

3

AICおよびBIC番号の解釈

AIC（赤池情報量基準）とBIC（ベイズ情報量基準）の推定値を解釈する方法の例を探しています。 BIC間の負の差は、一方のモデルが他方のモデルの事後オッズとして解釈できますか？これを言葉にするにはどうすればよいですか？たとえば、BIC = -2は、他のモデルよりも優れたモデルのオッズが約ことを意味する場合があります。e2=7.4e2=7.4e^2= 7.4 基本的なアドバイスはこの新人によって高く評価されています。

23 interpretation aic bic

1

Rの自然な3次スプラインにノットを設定する

多くの相関する特徴を持つデータがあり、LDAを実行する前に、滑らかな基底関数で特徴を減らすことから始めたいと思います。関数でsplinesパッケージ内の自然な3次スプラインを使用しようとしていnsます。ノットを割り当てるにはどうすればよいですか？基本的なRコードは次のとおりです。 library(splines) lda.pred <- lda(y ~ ns(x, knots=5)) しかし、私はどのようにノットを選択するのか分からないns。

23 r splines

4

統計計算用のC ++ライブラリ

C / C ++に移植したい特定のMCMCアルゴリズムがあります。高価な計算の多くは既にCythonを介してCで行われていますが、Python / R / Matlab / whateverのラッパーを書くことができるように、サンプラー全体をコンパイル済み言語で記述したいと思います。いろいろと調べた後、私はC ++に傾いています。私が知っている関連ライブラリは、Armadillo（http://arma.sourceforge.net/）とScythe（http://scythe.wustl.edu/）です。どちらも、R / Matlabのいくつかの側面をエミュレートして、学習曲線を容易にすることを試みていますが、これはとても気に入っています。サイスは、私がやりたいと思うことで少し良くなります。特に、RNGには多くのディストリビューションが含まれており、Armadilloには均一/標準しかありませんが、これは不便です。Scytheは2007年に最後のリリースを見たが、Armadilloはかなり活発に開発されているようだ。だから、私が疑問に思っているのは、誰かがこれらのライブラリの経験を持っているか、または私がほぼ間違いなく見逃している他の人ですか？しかし、コンパイルされた言語ではそれほどではありません（完全に無知ではありませんが、正確に堪能ではありません...）。

23 mcmc software c++ computing

2

ブースティングはどのように機能しますか？

ブースティングを理解する最も簡単な方法は何ですか？なぜ非常に弱い分類器を「無限に」（完全）にブーストしないのですか？

23 machine-learning boosting