統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

3
ベイズ統計へのゲントラーのアプローチ
私は最近、Bolstadの「ベイジアン統計入門」第2版を読み始めました。私は主に統計的テストをカバーする入門的な統計クラスを持っていて、ほとんど回帰分析のクラスを通り抜けています。この本を理解するために、他にどのような本を使用できますか? 最初の100〜125ページで問題なく完了しました。その後、本は仮説のテストについて語り始めます。これは、私がカバーすることを非常に楽しみにしているものですが、いくつかのことが私を投げています: 計算における確率密度関数の使用。言い換えれば、そのような方程式を評価する方法。 この文全体:「我々はパイのための先行ベータ(1,1)を使用すると仮定すると、Y = 8与えられ、事後密度は、ベータ(9,3)で帰無仮説の事後確率は...。。」私は信じています beta(1,1)は、平均が1で標準偏差が1のPDFを指しますか?事後密度関数としてベータ(9,3)にどのように変化するかわかりません。 事前対事後の概念を理解し、テーブルを使用して手動でそれらを適用する方法を理解しています。piは、想定される人口の割合または確率を表していると思います! これを毎日実行するデータと結び付けて結果を得る方法がわかりません。

2
重みを同じ値に初期化すると、逆伝播が機能しないのはなぜですか?
すべての重みを同じ値(たとえば0.5)に初期化すると、逆伝播が機能しないのに、乱数を指定すると正常に機能するのはなぜですか? 重みが最初は同じであるという事実にもかかわらず、アルゴリズムはエラーを計算してそこから機能するべきではないでしょうか?

2
回帰に平方変数を含めるとどうなりますか?
OLS回帰から始めます ここで、Dはダミー変数で、推定値は低いp値でゼロとは異なります。次に、Ramsey RESETテストを実行し、方程式の誤認があることを発見しました。したがって、xの2乗を含みます Y = β 0 + β 1 X 1 + β 2 X 2 1 + β 3 D + εy=β0+β1x1+β2D+εy=β0+β1x1+β2D+ε y = \beta _0 + \beta_1x_1+\beta_2 D + \varepsilon y=β0+β1x1+β2x21+β3D+εy=β0+β1x1+β2x12+β3D+ε y = \beta _0 + \beta_1x_1+\beta_2x_1^2+\beta_3 D + \varepsilon 二乗項は何を説明しますか?(Yの非線形増加?) これを行うことにより、私のp推定値はゼロから変化せず、p値が高くなります。(一般的に)方程式の2乗項をどのように解釈しますか? 編集:質問を改善します。

3
GLMで傍受用語​​を解釈する方法は?
私はRを使用しており、Binomialリンク付きのGLMでデータを分析しています。 出力テーブルのインターセプトの意味を知りたいです。私のモデルの1つの切片は大きく異なりますが、変数は違いません。これは何を意味するのでしょうか? インターセプトとは何ですか。私は自分自身を混乱させているだけでなく、インターネットを検索したかどうかはわかりません。ただこれだけで、それに気づいてください...またはしないでください。 助けてください、とてもイライラした学生 glm(formula = attacked_excluding_app ~ treatment, family = binomial, data = data) Deviance Residuals: Min 1Q Median 3Q Max -2.3548 0.3593 0.3593 0.3593 0.3593 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 2.708 1.033 2.622 0.00874 ** treatmentshiny_non-shiny 0.000 1.461 0.000 1.00000 (Dispersion parameter for binomial family …


5
なぜ低ランクの近似に悩まされるのですか?
n行m列の行列がある場合、SVDまたは他の方法を使用して、指定された行列の低ランク近似を計算できます。 ただし、低ランクの近似には、n行とm列が引き続きあります。同じ数の機能が残っている場合、低ランクの近似は機械学習と自然言語処理にどのように役立ちますか?

4
統計的直観/データセンス
私は2年生の学部生で数学を学んでおり、数学の能力と統計の能力の違いについて、教授の一人とかなり話していました。彼が提起した重要な違いの1つは「データセンス」であり、これは私が非公式に「常識抑制」と呼ぶ一連の範囲内で動作しながら技術的能力の組み合わせとして説明した。多くの理論。これは私が話していた例であり、Gowersのブログに掲載されました。 英国のいくつかの地域で、警察は交通事故が発生した場所に関する統計を収集し、事故のブラックスポットを特定し、そこにスピードカメラを設置し、さらに統計を収集しました。これらのブラックスポットでの事故の数は、スピードカメラが設置された後に減少する明確な傾向がありました。これは、スピードカメラが交通安全を改善することを最終的に示していますか? 交渉ゲームでランダム化された戦略について議論したのと同じ人は、基本的にこの質問に対する答えをすでに知っていました。極端なケースを選択した場合、実験を再度実行すると極端なケースが少なくなると予想されるため、彼はノーと言いました。言うことはこれ以上ないので、私はこの質問からすぐに進むことにしました。しかし、私は自分が持っていた計画について人々に話しました。それは偽のテレパシー実験を行うことでした。私は彼らに20回のコイン投げの結果を推測させ、テレパシーでそれらにビームを当てようとします。それから、私は3人の最高のパフォーマーと3人の最悪のプレイヤーを選択し、コインをもう一度投げます。パフォーマンスが改善されることが期待され、テレパシーとは何の関係もないことを人々は簡単に見ることができました。 私が尋ねているのは、この「データセンス」について、主題に関する出版物が存在する場合、または他のユーザーがこのスキルを開発するのに役立つとわかった場合の詳細を知る方法です。この質問を明確にする必要がある場合は申し訳ありません。もしそうなら、質問を投稿してください!ありがとう。

5
余弦の非類似度行列を計算するR関数はありますか?[閉まっている]
閉まっている。この質問はトピック外です。現在、回答を受け付けていません。 この質問を改善したいですか? 質問を更新して、相互検証のトピックになるようにします。 去年閉鎖されました。 コサイン距離に基づく行クラスタリングを使用してヒートマップを作成したいと思います。私はRを使用heatmap.2()して図を作成しています。私はそこだと見ることができdist、パラメータは、heatmap.2私はコサイン非類似度行列を生成する機能を見つけることができません。組み込みのdist機能は、コサイン距離をサポートしていない、私はとも呼ばれるパッケージたarulesとdissimilarity()機能をそれだけで、バイナリデータで動作します。

4
ポアソン確率変数の切り捨てられた平均の分布は何ですか?
パラメーターでポアソン分布するランダム変数ある場合、(つまり、平均の整数フロア)?X1,X2,…,XnX1,X2,…,XnX_1,X_2,\ldots,X_nλ1,λ2,…,λnλ1,λ2,…,λn\lambda_1, \lambda_2,\ldots, \lambda_nY=⌊∑ni=1Xin⌋Y=⌊∑i=1nXin⌋Y=\left\lfloor\frac{\sum_{i=1}^n X_i}{n}\right\rfloor ポアソンの合計もポアソンですが、上記の場合と同じであるかどうかを判断するのに十分な統計情報はありません。

2
線形混合効果モデリングの特殊なケースとしてのペアt検定
対応のあるt検定は、一方向反復測定(または被験者内)ANOVAおよび線形混合効果モデルの特殊なケースであり、lme()関数でRのnlmeパッケージで実証できることがわかっています。以下に示すように。 #response data from 10 subjects under two conditions x1<-rnorm(10) x2<-1+rnorm(10) # Now create a dataframe for lme myDat <- data.frame(c(x1,x2), c(rep("x1", 10), rep("x2", 10)), rep(paste("S", seq(1,10), sep=""), 2)) names(myDat) <- c("y", "x", "subj") 次のペアのt検定を実行すると: t.test(x1, x2, paired = TRUE) 私はこの結果を得ました(ランダムジェネレータのために異なる結果が得られます): t = -2.3056, df = 9, p-value = 0.04657 …

2
ロジスティック回帰からの予測確率の信頼区間のプロット
ロジスティック回帰があり、このpredict()関数を使用して、推定に基づいて確率曲線を作成しました。 ## LOGIT MODEL: library(car) mod1 = glm(factor(won) ~ as.numeric(bid), data=mydat, family=binomial(link="logit")) ## PROBABILITY CURVE: all.x <- expand.grid(won=unique(won), bid=unique(bid)) y.hat.new <- predict(mod1, newdata=all.x, type="response") plot(bid<-000:1000,predict(mod1,newdata=data.frame(bid<-c(000:1000)),type="response"), lwd=5, col="blue", type="l") これはすばらしいことですが、確率の信頼区間をプロットすることに興味があります。試しましplot.ci()たが、運がありませんでした。できればcarパッケージまたはベースRを使用して、これを実現するいくつかの方法を教えてください。

1
Rでqqline()によって生成された行の使用は何ですか?
qqnorm()R関数は、通常のQQプロットを生成し、qqline()第一及び第三の四分位数を通る線を付加します。この線の起源は何ですか?正常性を確認することは役に立ちますか?これは古典的な線ではありません(対角線おそらく線形スケーリング後)。y= xy=xy=x 以下に例を示します。最初私は理論的な分布関数と経験分布関数を比較: 今は、ラインとQQプロットプロットYが= μ + σ X。このグラフは、前のグラフの(非線形)スケーリングにほぼ対応しています。 ただし、R qqlineを使用したqqプロット は次のとおりです。この最後のグラフは、最初のグラフのように出発を示していません。N(μ^、σ^2)N(μ^,σ^2){\cal N}(\hat\mu,\hat\sigma^2)y= μ^+ σ^バツy=μ^+σ^xy=\hat\mu + \hat\sigma x

3
非線形相関を検出するためのMICアルゴリズムは直感的に説明できますか?
最近では、2つの記事を読みました。1つ目は相関の履歴に関するもので、2つ目は最大情報係数(MIC)と呼ばれる新しい方法に関するものです。変数間の非線形相関を推定するMICメソッドを理解することに関して、あなたの助けが必要です。 さらに、Rでの使用方法については、著者のWebサイト(ダウンロード)で確認できます。 これがこの方法を議論し理解するための良いプラットフォームになることを願っています。この方法の背後にある直感と、著者が述べたようにどのように拡張できるかを議論することへの私の関心。 " ... MIC(X、Y)からMIC(X、Y | Z)への拡張が必要です。MICの安定した推定値を得るために必要なデータの量、外れ値に対する影響の程度、3 -またはそれは欠場する高次元の関係、そしてより多くのMICは大きな前進ですが、取るために、より多くのステップがあります。」

3
ダミーコーディングとANCOVAで重回帰を使用する場合
私は最近、ANCOVAを使用して2つのカテゴリ変数と1つの連続変数を操作する実験を分析しました。しかし、レビューアーは、ダミー変数としてコード化されたカテゴリー変数を使用した重回帰が、カテゴリー変数と連続変数の両方を使用した実験により適したテストであることを示唆しました。 ANCOVAとダミー変数を使用した重回帰を使用するのが適切な場合と、2つのテストから選択する際に考慮すべき要因は何ですか? ありがとうございました。

2
ANOVAの変数の順序は重要ではありませんか?
多因子ANOVAで変数が指定される順序は違いを生じるが、多重線形回帰を行う場合、順序は重要ではないことを理解するのは正しいですか? そのため、測定された失血 yや2つのカテゴリ変数などの結果を想定します アデノイド切除術の方法 a、 扁桃摘出方法 b。 モデルy~a+bはモデルとは異なりますy~b+a(または、Rでの私の実装は示すようです)。 ここでの用語は、ANOVAは階層モデルであるということを理解するのは正しいですか?最初の要因に残差の分散を割り当てる前に、最初の要因にできる限り多くの分散を割り当てるためですか? 上記の例では、扁桃摘出術を行う前にアデノイド切除術を最初に行うので、階層は理にかなっていますが、固有の順序のない2つの変数があるとどうなりますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.