統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

5
分布の違いの重要性の評価
2つのデータグループがあります。それぞれが複数の変数の異なる分布を持つ。これら2つのグループの分布が統計的に有意な方法で異なるかどうかを判断しようとしています。データは生の形式であり、それぞれに頻度カウントがある個別のカテゴリを扱いやすいようにビニングされています。 これらの2つのグループが大幅に異なるかどうかを判断するには、どのテスト/手順/方法を使用する必要があり、SASまたはR(またはオレンジ)でそれを行うにはどうすればよいですか?

3
決定係数(
r 2の概念を完全に把握したいr2r2r^2変数間の変動量を表すます。すべてのウェブの説明は少し機械的で鈍いです。単に機械的に数字を使用するのではなく、コンセプトを「取得」したい。 例:学習時間とテストスコア rrr = .8 r2r2r^2 = .64 それで、これはどういう意味ですか? テストスコアの変動の64%は時間単位で説明できますか? どうすれば二乗するだけでそれを知ることができますか?

5
正弦波の予測でニューラルネットワークを改善するにはどうすればよいですか?
ここでは、見て: あなたは場所を正確にトレーニングデータの終了を確認することができます。トレーニングデータから行くまで1。−1−1-1111 Kerasと、tanhアクティベーションを使用した1-100-100-2の高密度ネットワークを使用しました。pとqの2つの値pとqから結果を計算します。このように、1より小さい値のみを使用して、任意のサイズの数値を実現できます。 私はまだこの分野の初心者であるため、簡単に説明してください。

1
相関二項確率変数の生成
線形変換アプローチに従って相関ランダム二項変数を生成できるかどうか疑問に思っていましたか? 以下では、Rで簡単なものを試してみました。しかし、私はこれを行うための原則的な方法があるかどうか疑問に思っていましたか? X1 = rbinom(1e4, 6, .5) ; X2 = rbinom(1e4, 6, .5) ; X3 = rbinom(1e4, 6, .5) ; a = .5 Y1 = X1 + (a*X2) ; Y2 = X2 + (a*X3) ## Y1 and Y2 are supposed to be correlated cor(Y1, Y2)

3
二乗平均平方根誤差(RMSE)と標準偏差の解釈方法
予測値を提供するモデルがあるとしましょう。これらの値のRMSEを計算します。そして、実際の値の標準偏差。 これらの2つの値(分散)を比較するのは意味がありますか?私が思うに、RMSEと標準偏差が類似/同じであれば、私のモデルの誤差/分散は実際に起こっていることと同じです。しかし、これらの値を比較しても意味がない場合、この結論は間違っている可能性があります。私の考えが本当なら、それはモデルがそれが分散を引き起こしているものを帰することができないので、それができる限り良いことを意味しますか?最後の部分はおそらく間違っているか、少なくとも答えるにはさらに情報が必要だと思います。

3
k分割交差検定を使用する場合、テストセットが必要ですか?
私はk-fold検証について読んでいますが、それがどのように機能するかを確実に理解したいと思います。 ホールドアウト方法では、データが3つのセットに分割され、テストセットは最後にのみモデルのパフォーマンスを評価するために使用され、検証セットはハイパーパラメーターの調整などに使用されることを知っています。 k-foldメソッドでは、最後のテストセットを保持し、残りのデータのみをトレーニングとハイパーパラメーターチューニングに使用します。つまり、残りのデータをk分割し、トレーニング後の平均精度を使用します。各フォールドで(またはハイパーパラメーターを調整するために選択したパフォーマンスメトリック)?または、個別のテストセットをまったく使用せず、データセット全体をk分割するだけです(これが当てはまる場合は、k折りの平均精度を最終的な精度と見なすだけです)。

4
画像のエントロピー
画像のエントロピーを計算するための最も情報/物理学的に正しい方法は何ですか?私は今、計算効率を気にしません-理論的に可能な限り正確にしたいです。 グレースケール画像から始めましょう。直感的なアプローチの1つは、画像をピクセルのバッグと見なし、を計算することです。 ここで、はグレーレベルの数、はグレーレベル関連する確率です。K p k kH=−∑kpklog2(pk)H=−∑kpklog2(pk) H = - \sum_k p_k log_2(p_k) KKKpkpkp_kkkk この定義には2つの問題があります。 1つのバンド(グレースケール)で機能しますが、統計的に正しい方法で複数のバンドに拡張する方法を教えてください。たとえば、2つのバンドの場合、を使用してを基にしてPMFを基にしますか?多くの( >> 2)バンドがある場合、、これは間違っているようです。(X1,X2)(X1,X2)(X_1,X_2)P(X1=x1,X2=x2)P(X1=x1,X2=x2)P(X_1=x_1,X_2=x_2)BBBP(X1=x1,...,XB=xB)∼1/NB→HMAXP(X1=x1,...,XB=xB)∼1/NB→HMAXP(X_1=x_1, ..., X_B=x_B) \sim 1/N^B \rightarrow H_{MAX} 空間情報は考慮されません。たとえば、以下の画像(John Loomisの管理者)は同じ持っていますが、明らかに同じ情報を伝えていません。HHH 誰もが説明やアドバイスをしたい、または主題に関するまともな参考資料を参照したいですか?私は主に、2番目の問題(空間情報)の理論的に正しいアプローチに興味があります。

2
医療関係者の信頼できる間隔を要約する方法
スタンおよびフロントエンドパッケージを使用するrstanarmかbrms、以前のような混合モデルで行ったように、ベイジアン方式でデータを簡単に分析できますlme。Kruschke-Gelman-Wagenmakers-etcの本や記事のほとんどを私の机に置いていますが、これらは、ベイジアンの怒りのSkyllaとメディカルレビュアーのCharybdisの間で引き裂かれた、医療聴衆のために結果を要約する方法を教えてくれません( 「拡散的なものではなく、重要なものが必要です」)。 例:胃の頻度(1 /分)は3つのグループで測定されます。健康なコントロールが基準です。参加者ごとにいくつかの測定値がありますので、頻繁に使用する次の混合モデルを使用しましたlme。 summary(lme(freq_min~ group, random = ~1|study_id, data = mo)) わずかに編集された結果: Fixed effects: freq_min ~ group Value Std.Error DF t-value p-value (Intercept) 2.712 0.0804 70 33.7 0.0000 groupno_symptoms 0.353 0.1180 27 3.0 0.0058 groupwith_symptoms 0.195 0.1174 27 1.7 0.1086 簡単にするために、2 * stdエラーを95%CIとして使用します。 頻繁な文脈では、私はこれを次のように要約したでしょう。 対照群では、推定頻度は2.7 /分でした(ここにCIを追加することもできますが、絶対CIと差分CIによって生じる混乱のために、これを避けることがあります)。 no_symptomsグループでは、頻度は0.4 /分、CI(0.11〜0.59)/分、p = …


2
逆変換方法はどのように機能しますか?
反転法はどのように機能しますか?密度 over ランダムサンプルとし、したがって cdfで。次に、反転法により、の分布をとして取得します。 f (x ; θ )= 1X1,X2,...,XnX1,X2,。。。、バツnX_1,X_2,...,X_n 0&lt;X&lt;1FX(X)=X1/θ(0、1)XF - 1 X(U)=Uθf(x;θ)=1θx(1−θ)θf(バツ;θ)=1θバツ(1−θ)θf(x;\theta)={1\over \theta} x^{(1-\theta)\over \theta} 0&lt;x&lt;10&lt;バツ&lt;10<x<1FX(x)=x1/θFバツ(バツ)=バツ1/θF_X(x)=x^{1/\theta}(0,1)(0、1)(0,1)XバツXF−1X(u)=uθFバツ−1(あなたは)=あなたはθF_X^{-1}(u)=u^\theta それで、はの分布がありますか?これは反転方法の仕組みですか? Xuθあなたはθu^\thetaXバツX u&lt;-runif(n) x&lt;-u^(theta)

2
リッジ回帰の仮定とそれらをテストする方法は何ですか?
多重回帰のための標準的なモデル検討、全ての保留正常、等分散性及びエラーのuncorrelatednessので。ε 〜N(0 、σ 2 I N)Y= Xβ+ εY=Xβ+εY=X\beta+\varepsilonε 〜N(0 、σ2私n)ε∼N(0,σ2In)\varepsilon \sim \mathcal N(0, \sigma^2I_n) の対角のすべての要素に同じ少量を追加することにより、リッジ回帰を実行するとします。バツXX βr i d g e= [ X′バツ+ k I]− 1バツ′Yβridge=[X′X+kI]−1X′Y\beta_\mathrm{ridge}=[X'X+kI]^{-1}X'Y はバイアス推定器ですが、リッジ係数の平均二乗誤差がOLSによって得られる値よりも小さい値がいくつかあります。実際には、は相互検証によって取得されます。β R I D G E β Kkkkβr i d g eβridge\beta_\mathrm{ridge}ββ\betakkk ここに私の質問があります:リッジモデルの基礎となる仮定は何ですか?具体的には、 リッジ回帰では、通常の最小二乗(OLS)の仮定はすべて有効ですか? 質問1が「はい」の場合、偏った推定量して、等分散性と自己相関の欠如をどのようにテストしますか?ββ\beta リッジ回帰の下で他のOLS仮定(同相性と自己相関の欠如)をテストする作業はありますか?

1
ミクロ平均またはマクロ平均の評価尺度に基づいて決定する必要がありますか?
同じデータセットを使用して、異なるバイナリ分類アルゴリズムで10倍のクロス検証を実行し、マイクロおよびマクロの平均結果の両方を受け取りました。これはマルチラベル分類の問題であることに注意してください。 私の場合、真のネガと真のポジティブは等しく重み付けされています。つまり、真の陰性を正しく予測することは、真の陽性を正しく予測することと同様に重要です。 ミクロ平均測定値は、マクロ平均測定値よりも低くなっています。ニューラルネットワークとサポートベクターマシンの結果は次のとおりです。 また、同じデータセットに対して別のアルゴリズムを使用してパーセンテージ分割テストを実行しました。結果は次のとおりです。 パーセンテージ分割テストとマクロ平均結果を比較したいのですが、それは公平ですか?真の陽性と真の陰性が等しく重み付けされているため、マクロ平均の結果に偏りがあるとは思わないが、それでもリンゴとオレンジを比較するのと同じだろうか? 更新 コメントに基づいて、ミクロ平均とマクロ平均の計算方法を示します。 予測する144のラベル(フィーチャまたは属性と同じ)があります。精度、リコール、およびF-Measureは、ラベルごとに計算されます。 --------------------------------------------------- LABEL1 | LABEL2 | LABEL3 | LABEL4 | .. | LABEL144 --------------------------------------------------- ? | ? | ? | ? | .. | ? --------------------------------------------------- 真の陽性(tp)、真の陰性(tn)、偽陽性(fp)、および偽陰性(fn)に基づいて計算されるバイナリ評価尺度B(tp、tn、fp、fn)を検討します。特定のメジャーのマクロおよびミクロ平均は、次のように計算できます。 これらの式を使用して、次のようにミクロおよびマクロの平均を計算できます。 そのため、マイクロアベレージ測定では、すべてのtp、fp、fn(各ラベル)が追加され、その後、新しいバイナリ評価が行われます。マクロ平均メジャーは、すべてのメジャー(Precision、Recall、またはF-Measure)を追加し、ラベルの数で除算します。これは、平均に似ています。 さて、問題はどちらを使用するかです。

1
GLMの準ポアソンが負の二項分布の特殊なケースとして扱われないのはなぜですか?
私は、一般化線形モデルを、過剰分散の場合とそうでない場合のあるカウントデータのセットに適合させようとしています。ここで適用される2つの正準分布は、ポアソンおよび負の二項(Negbin)、EVおよび分散ですμμ\mu VRP= μVarP=μVar_P = \mu VRNB= μ + μ2θVarNB=μ+μ2θVar_{NB} = \mu + \frac{\mu^2}{\theta} これは、それぞれglm(..,family=poisson)とを使用してRに適合させることができますglm.nb(...)。quasipoisson私の理解では同じEVと分散を持つ調整されたポアソンである家族もあります VRQ P= φ μVarQP=ϕμVar_{QP} = \phi\mu、 すなわち、ポアソンとネビンの間のどこかに落ちます。準ポアソンファミリの主な問題は、それに対応する尤度がないことであり、したがって、非常に有用な統計的検定と適合度測定(AIC、LRなど)の多くが利用できません。 QPとNegbinの分散を比較すると、置くことでそれらを等化できることに気付くかもしれません。このロジックを続けると、準ポアソン分布をNegbinの特殊なケースとして表現することができます。ϕ = 1 + μθϕ=1+μθ\phi = 1 + \frac{\mu}{\theta} Q P(μ 、ϕ )= NB(μ 、θ = μϕ − 1)QP(μ、ϕ)=NB(μ、θ=μϕ−1)QP\,(\mu,\phi) = NB\,(\mu,\theta = \frac{\mu}{\phi-1})、 すなわち、線形に依存する持つNegbin です。上記の式に従ってランダムな数列を生成し、それを当てはめることにより、このアイデアを検証しようとしました:μθθ\thetaμμ\muglm #fix parameters phi = …

1
通常、相関係数は大文字の記述されますが、そうでない場合もあります。r 2とR 2の間に本当に違いがあるのだろうか?缶R相関係数よりも、他の平均何か?RRRr2r2r^2R2R2R^2rrr

4
ユークリッドベースのクラスタリングアルゴリズムで混合データが問題になるのはなぜですか?
ほとんどの古典的なクラスタリングおよび次元削減アルゴリズム(階層的クラスタリング、主成分分析、k-means、自己組織化マップ...)は数値データ専用に設計されており、それらの入力データはユークリッド空間の点と見なされます。 これはもちろん問題です。多くの現実世界の質問には混合データが含まれているためです。たとえば、バスを勉強する場合、高さと長さ、モーターサイズは数字になりますが、色(カテゴリ変数:青/ red / green ...)および容量クラス(順序変数:小/中/大容量)。具体的には、これらのさまざまなタイプの変数を同時に調べたい場合があります。 たとえば、階層型クラスタリングまたは多次元スケーリングにプラグインするGowerの非類似性、または距離行列を入力として使用する他の方法を使用して、従来のクラスタリングアルゴリズムを混合データに拡張する方法がいくつかあります。または、たとえばこのメソッド、混合データへのSOMの拡張。 私の質問は、なぜ混合変数にユークリッド距離を使用できないのですか?またはなぜそうするのが悪いのですか?カテゴリ変数をダミーエンコードし、すべての変数を観測間の距離で同様の重みを持つように正規化し、これらの行列で通常のアルゴリズムを実行できないのはなぜですか? それは本当に簡単であり、一度も行われたことがないので、それは非常に間違っていると思いますが、誰がその理由を教えてもらえますか?および/またはいくつかのrefを教えてください?ありがとう

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.