統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

2
エントロピーは何を教えてくれますか?
私はエントロピーについて読んでいて、それが連続的な場合の意味を概念化するのに苦労しています。wikiページには次のように記載されています。 イベントの確率分布は、すべてのイベントの情報量と相まって、この分布によって生成される情報の平均量またはエントロピーを期待値とするランダム変数を形成します。 したがって、連続的な確率分布に関連付けられたエントロピーを計算すると、実際に何がわかりますか?彼らはコインの反転についての例を挙げているので、離散的なケースですが、連続的なケースのような例を介して説明する直感的な方法があれば、それは素晴らしいことです! 役立つ場合、連続ランダム変数のエントロピーの定義はXXX次のとおりです。 ここで、 P (X )は、確率分布関数です。H(X)=−∫P(x)logbP(x)dxH(X)=−∫P(x)logb⁡P(x)dxH(X)=-\int P(x)\log_b P(x)dxP(x)P(x)P(x) 以下の場合を検討し、試してみて、これをより具体化するために、そして、によるとウィキペディア、エントロピーがありますX∼Gamma(α,β)X∼Gamma(α,β)X\sim \text{Gamma}(\alpha,\beta) H(X)=E[−ln(P(X))]=E[−αln(β)+ln(Γ(α))+ln(Γ(α))−(α−1)ln(X)+βX]=α−ln(β)+ln(Γ(α))+(1−α)(ddαln(Γ(α)))H(X)=E[−ln⁡(P(X))]=E[−αln⁡(β)+ln⁡(Γ(α))+ln⁡(Γ(α))−(α−1)ln⁡(X)+βX]=α−ln⁡(β)+ln⁡(Γ(α))+(1−α)(ddαln⁡(Γ(α)))\begin{align} H(X)&=\mathbb{E}[-\ln(P(X))]\\ &=\mathbb{E}[-\alpha\ln(\beta)+\ln(\Gamma(\alpha))+\ln(\Gamma(\alpha))-(\alpha-1)\ln(X)+\beta X]\\ &=\alpha-\ln(\beta)+\ln(\Gamma(\alpha))+(1-\alpha)\left(\frac{d}{d\alpha}\ln(\Gamma(\alpha))\right) \end{align} それで、連続分布(ガンマ分布)のエントロピーを計算したので、αとβが与えられた式評価すると、その量は実際に何を教えてくれますか? H(X)H(X)H(X)αα\alphaββ\beta
32 entropy 

4
次数を下げるのではなく、多項式回帰で正則化を使用するのはなぜですか?
たとえば、回帰を行う場合、選択する2つのハイパーパラメーターは、多くの場合、関数の容量(たとえば、多項式の最大指数)と正則化の量です。私が混乱しているのは、なぜ低容量の機能を選択し、正規化を無視しないのですか?そのように、それは過剰適合しません。正則化とともに高容量機能を持っている場合、それは低容量機能と正則化を持たないことと同じではありませんか?

2
ロジスティック回帰:ベルヌーイ対二項応答変数
次の二項応答と、予測子としてとを使用してロジスティック回帰を実行します。 X1X1X_1X2X2X_2 次の形式でベルヌーイ応答と同じデータを提示できます。 これら2つのデータセットのロジスティック回帰出力はほとんど同じです。逸脱残差とAICは異なります。(ヌル偏差と残留偏差の差は、両方の場合で同じです-0.228。) 以下は、Rからの回帰出力です。データセットはbinom.dataおよびbern.dataと呼ばれます。 これが二項出力です。 Call: glm(formula = cbind(Successes, Trials - Successes) ~ X1 + X2, family = binomial, data = binom.data) Deviance Residuals: [1] 0 0 0 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -2.9649 21.6072 -0.137 0.891 X1Yes -0.1897 2.5290 -0.075 0.940 X2 0.3596 1.9094 0.188 …

5
「heteroskedastic」または「heteroscedastic」の2つのスペルがあるのはなぜですか?
「heteroskedastic」と「heteroscedastic」、および「homoscedastic」と「homoskedastic」の両方のスペルがよく見られます。「c」と「k」の変形の間に意味の違いはないようで、単に単語のギリシャ語の語源に関する正書法の違いです。 2つの異なるスペルの起源は何ですか? ある使用法が他の使用法よりも一般的であり、それらは地域や研究分野間のばらつきを反映しているか、それとも著者の(または実際に編集上の)選好以上のものを反映しているのでしょうか? 余談ですが、他の言語はギリシャ語のルーツを英語にラテン化するための異なるポリシーを持っています。したがって、第二言語として英語を使用している著者が、母国語に対応する英語の綴りを好むかもしれませんが、私は驚かないでしょう。おそらく本当のテストは、ギリシャの統計学者が英語で書くときにそれを呼ぶものです!

5
モデル選択のAICガイドライン
私の理解では、AICよりもpar約をより重視するということなので、私は通常BICを使用します。ただし、私は今、より包括的なアプローチを使用することを決定し、AICも使用したいと考えています。Raftery(1995)がBICの違いに関する優れたガイドラインを提示したことを知っています:0-2は弱い、2-4は1つのモデルが優れているという肯定的な証拠などです。 私は教科書を調べましたが、AICでは奇妙に見えます(差が大きいほど弱く、AICの差が小さいほど1つのモデルが優れているように見えます)。これは、私が教えられたことを知っていることに反します。私の理解では、AICを低くしたいということです。 RafteryのガイドラインがAICにも適用されるかどうか、またはあるモデルと別のモデルの「証拠の強さ」に関するガイドラインをどこで引用できるかを知っていますか? そして、はい、カットオフは素晴らしいものではありません(私はそれらをいらいらさせます)が、それらは異なる種類の証拠を比較するときに役立ちます。

3
共分散行列の反転が確率変数間の部分相関をもたらすのはなぜですか?
ランダム変数間の偏相関は、共分散行列を反転し、そのような結果の精度行列から適切なセルを取得することで見つけることができると聞きました(この事実は http://en.wikipedia.org/wiki/Partial_correlationにいますが、証拠はありません) 。 これはなぜですか?

1
Rでanova()関数を使用して2つのモデルを比較する
次のドキュメントからanova(): オブジェクトのシーケンスが与えられると、「anova」は指定された順序でモデルを互いにテストします... モデルを互いにテストすることはどういう意味ですか?そして、なぜ順序が重要なのですか? GenABELチュートリアルの例を次に示します。 > modelAdd = lm(qt~as.numeric(snp1)) > modelDom = lm(qt~I(as.numeric(snp1)>=2)) > modelRec = lm(qt~I(as.numeric(snp1)>=3)) anova(modelAdd, modelGen, test="Chisq") Analysis of Variance Table Model 1: qt ~ as.numeric(snp1) Model 2: qt ~ snp1 Res.Df RSS Df Sum of Sq Pr(>Chi) 1 2372 2320 2 2371 2320 1 0.0489 0.82 anova(modelDom, …
32 r  anova 

1
時間的ネットワークでのリンク異常検出
リンク異常検出を使用してトレンドのトピックを予測するこの論文に出会いましたが、非常に興味深いことがわかりました。この論文は、「リンク異常検出によるソーシャルストリームの新興トピックの発見」です。 別のデータセットに複製したいのですが、それらの使用方法を知るための方法に十分な知識がありません。6か月の間にノードのネットワークの一連のスナップショットがあるとします。ノードには、次数の長い分布があり、ほとんどはわずかな接続しかありませんが、一部は非常に多くの接続を持ちます。この期間内に新しいノードが表示されます。 バーストの前兆と思われる異常なリンクを検出するために、論文で使用されている逐次割引正規化最尤計算をどのように実装できますか?より適切な他の方法はありますか? 理論的にも実際的にもお願いします。誰かがこれをPythonまたはRで実装する方法を教えてくれたら、それは非常に役立ちます。 誰でも?私はあなたが賢明な人々が答えのためのいくつかの最初の考えを持っていることを知っています、

5
なぜ政治世論調査のサンプル数がこれほど多いのですか?
ニュースを見ると、大統領選挙などのギャラップの世論調査のサンプルサイズが1,000を大きく上回っていることがわかりました。大学の統計から私が覚えていることは、サンプルサイズ30が「かなり大きい」サンプルだったことです。30を超えるサンプルサイズは、収益の減少により無意味であるように思われました。

3
結合された標準偏差を見つけることは可能ですか?
2つのセットがあるとします。 セットA:アイテム、、n=10n=10n= 10μ=2.4μ=2.4\mu = 2.4σ=0.8σ=0.8\sigma = 0.8 セットB:アイテムの、、n=5n=5n= 5μ=2μ=2\mu = 2σ=1.2σ=1.2\sigma = 1.2 結合平均()は簡単に見つけることができますが、結合標準偏差を見つけるにはどうすればよいですか?μμ\mu



3
カーネルロジスティック回帰とSVM
すべての人に知られているように、SVMはカーネルメソッドを使用して、より高いスペースにデータポイントを投影し、ポイントを線形スペースで区切ることができます。しかし、ロジスティック回帰を使用してカーネル空間でこの境界を選択することもできます。SVMの利点は何ですか?SVMは予測時にこれらのサポートベクトルのみが寄与するスパースモデルを使用するため、SVMの予測が高速化されますか?
32 svm 

1
なぜRはNAをlm()係数として返すのですか?
lm()財務四半期の指標(Q1、Q2、Q3、Q4をデフォルトにする)を含むデータセットにモデルを適合させています。を使用してlm(Y~., data = data)NAQ3の係数としてaを取得し、1つの変数が特異点のために除外されたことを警告します。 Q4列を追加する必要がありますか?
32 r  regression 

3
観測データ(釣り遠征)と一致するように仮説を変更し、タイプIエラーの増加を回避することは可能ですか?
研究者は、仮説を形成し、その仮説を検証するためにデータを収集する前に、既存のデータと研究の観察と調査に時間を費やす必要があることはよく知られています(帰無仮説有意性検定を参照)。多くの基本的な統計の本は、仮説を先験的に形成する必要があり、データ収集後に変更できないことを警告します。そうしないと、方法論が無効になります。 私は1つの理由はなぜ観測データを合わせて仮説を変更する問題があることを理解しては理由による偽データにタイプIエラーを犯すの大きなチャンスであるが、私の質問は:であることだけで行くと、他の根本的な問題がある理由か釣り遠征で? おまけの質問として、潜在的な落とし穴にさらされることなく釣り遠征に行く方法はありますか?たとえば、十分なデータがある場合、データの半分から仮説を生成し、残りの半分を使用してそれらをテストできますか? 更新 私の質問への関心に感謝しますが、答えとコメントは、私が背景情報として確立したと思ったものを主な目的としています。スプリアス結果の可能性が高いこと以外に悪い理由が他にあるかどうか、そしてデータを最初に分割するなど、仮説を事後に変更するがタイプIエラーの増加を避ける方法があるかどうかを知りたいと思っています。 質問の趣旨をうまく反映してタイトルを更新しました。 ありがとう、そして混乱してごめんなさい!

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.