統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

3
Kullback-Leibler発散と比較したWassersteinメトリックの利点は何ですか?
Wasserstein計量とKullback-Leibler発散の実際の違いは何ですか?Wassersteinメトリックは、Earth Mover's Distanceとも呼ばれます。 ウィキペディアから: Wasserstein(またはVaserstein)メトリックは、所定のメトリック空間Mの確率分布間で定義される距離関数です。 そして Kullback–Leiblerの発散は、1つの確率分布が2番目の予想確率分布からどのように発散するかの尺度です。 機械学習の実装でKLが使用されているのを見てきましたが、最近、Wassersteinメトリックに出会いました。どちらを使用するかについての良いガイドラインはありますか? (Wassersteinまたはで新しいタグを作成するには評判が不十分Earth mover's distanceです。)

2
分位点回帰はどのように「機能」しますか?
クォンタイル回帰の直感的でアクセス可能な説明を得たいと思っています。 結果単純なデータセットと、予測子ます。YYYX1,X2X1,X2X_1, X_2 たとえば、.25、.5、.75で変位値回帰を実行し、。β0,.25,β1,.25...β2,.75β0,.25,β1,.25...β2,.75\beta_{0,.25},\beta_{1,.25}...\beta_{2,.75} されている値は、単に注文した値を、与えられた分位の近くに/にある例に基づいて線形回帰を実行しますか?ββ\betayyy または、すべてのサンプルは、分位点からの距離が増加するにつれて重みが降順になり、推定値に寄与しますか?ββ\beta それともまったく違うものですか?わかりやすい説明はまだ見つけていません。

1
lmeで複数の(個別の)ランダム効果を指定する[非公開]
閉まっている。この質問はトピック外です。現在、回答を受け付けていません。 この質問を改善したいですか? 質問を更新して、相互検証のトピックになるようにします。 6か月前に閉鎖されました。 私はRパッケージnlmeおよびlme4で作業し、複数のランダム効果を持つモデルを指定しようとしました。分散の異種構造を指定できるのはnlmeのみであることがわかりました。したがって、温度(Y)が時間(時間)に依存し、インターセプトが日付と年によって異なり、分散も年によって異なるモデルを取得しました。 fit1 <- lme(Y ~ time, random=~1|year/date, data=X, weights=varIdent(form=~1|year)) ただし、別のランダムな用語(日付によって異なる時間)を追加する必要がある場合、次のようにモデルを指定します。 fit2 <- lme(Y ~ time, random=list(~1|year, ~time-1|date, ~1|date), data=X, weights=varIdent(form=~1|year)) ランダム効果は互いに入れ子になります。年の日付。そして、日付と年の日付。 私も試しました one <- rep(1, length(Y)) fit3 <- lme(Y ~ time, random=list(one=pdBlocked(list(pdSymm(~1|year/date), pdSymm(~time-1|year)))), data=X, weights=varIdent(form=~1|year)) ただし、エラーが発生します。 Error in pdConstruct.pdBlocked(object, form = form, nam = nam, data …

3
カテゴリー変数を使用したロジット回帰の相互作用項の解釈
私は、回答者が4つのグループのいずれかにランダムに割り当てられた調査実験のデータを持っています。 > summary(df$Group) Control Treatment1 Treatment2 Treatment3 59 63 62 66 3つの治療グループは適用される刺激がわずかに異なりますが、私が気にする主な違いはコントロールと治療グループの間です。そこで、ダミー変数を定義しましたControl: > summary(df$Control) TRUE FALSE 59 191 調査では、回答者は(特に)次の2つのうちどちらを優先するかを選択するように求められました。 > summary(df$Prefer) A B NA's 152 93 5 次に、治療グループによって決定されたいくつかの刺激を受けた後(対照グループの場合は刺激なし)、回答者は同じ2つのことから選択するように求められました。 > summary(df$Choice) A B 149 101 3つの治療グループのうちの1つに属していることが、この最後の質問で回答者が行った選択に影響を与えたかどうかを知りたいです。私の仮説は、治療を受けた回答者が治療するよりAも選択する可能性が高いということですB。 カテゴリデータを使用していることを考えると、ロジット回帰を使用することにしました(それが間違っていると思われる場合はお気軽にご連絡ください)。回答者はランダムに割り当てられたため、他の変数(人口統計など)を必ずしも制御する必要はないという印象を受けているため、この質問ではそれらを省略しました。私の最初のモデルは単純に次のものでした: > x0 <- glm(Product ~ Control + Prefer, data=df, family=binomial(link="logit")) > summary(x0) Call: glm(formula …

5
因果分析の概要
因果分析を紹介する良い本は何ですか?私は、因果分析の原理を説明し、これらの原理を適用するために異なる統計的方法をどのように使用できるかを示す紹介を考えています。

3
マルチラベルデータの精度の尺度は何ですか?
KnownLabel MatrixおよびPredictedLabelマトリックスが提供されているシナリオを考えます。KnownLabelマトリックスに対するPredictedLabelマトリックスの良さを測定したいと思います。 ただし、ここでの課題は、KnownLabel Matrixに含まれる行の数が1のみであり、他の少数の行に1が多いことです(これらのインスタンスには複数のラベルが付けられます)。KnownLabel Matrixの例を以下に示します。 A =[1 0 0 0 0 1 0 0 0 1 1 0 0 0 1 1 0 1 1 1] 上記のマトリックスでは、データインスタンス1と2は単一のラベルデータ、データインスタンス3と4は2つのラベルデータ、データインスタンス5は3つのラベルデータです。 これで、アルゴリズムを使用したデータインスタンスのPredictedLabel Matrixができました。 KnownLabelマトリックスに対するPredictedLabelマトリックスの良さを測定するために使用できるさまざまな測定値を知りたいです。 私は、それらの間のフロベヌスのノルムの違いを尺度の一つと考えることができます。しかし、精度などの指標を探してい(= Correctly_predicted_instancetotal_instance)(=Correctly_predicted_instancetotal_instance)(= \frac{\text{Correctly_predicted_instance}}{\text{total_instance}}) ここで、複数のデータインスタンスに対してをどのように定義できますか?C O R 、R 、E 、C 、T 、LのY _ P R E D I C T E …

5
各クラスターのポイント数が等しいクラスタリング手順?
にいくつかのポイントがあり、ポイントをクラスター化して次のようにします。X={x1,...,xn}X={x1,...,xn}X=\{x_1,...,x_n\}RpRpR^p 各クラスターには、等しい数のの要素が含まれます。(クラスターの数が分割すると仮定します。)XXXnnn 各クラスターは、平均のクラスターのように、ある意味で「空間的に凝集」しています。kkk これらのいずれかを満たす多くのクラスタリング手順を考えるのは簡単ですが、誰もが両方を一度に取得する方法を知っていますか?


2
観測値が重複している場合、サンプルの分散が変化するのはなぜですか?
分散は広がりの尺度と言われています。ですから、数値は等しく3,5分散し3,3,5,5ているため、の分散はの分散に等しいと考えていました。しかし、これはそうではなく、isの分散は3,5is 2の分散3,3,5,5です1 1/3。 分散は広がりの尺度であると説明されているので、これは私を困惑させます。 だから、その文脈では、広がりの測定はどういう意味ですか?
25 variance 


2
10倍の交差検証とleave-one-outの交差検証
ネストされた相互検証を行っています。leave-one-out交差検証はバイアスされる可能性があることを読みました(理由を覚えていない)。 leave-one-outクロス検証の実行時間を長くすることとは別に、10倍のクロス検証またはleave-one-outクロス検証を使用する方が良いでしょうか?


1
経験的ベイズはどのように有効ですか?
だから私はちょうど素晴らしい本入門の経験的ベイズを読み終えました。この本は素晴らしいと思いましたが、データからの事前作成は間違っていると感じました。分析計画を立て、データを収集し、分析計画で以前に決定した仮説をテストするように訓練されました。すでに収集したデータを分析すると、選択後の推論が行われ、「重要」と呼ばれるものをより厳しくする必要があります。こちらを参照してください。機械学習には、テストとトレーニングセットを設定する前に予測子を選択することを意味する「チェリーピッキング」と呼ばれる類似したものがあると思います(統計学習の概要)。 私が以前に学んだことを考えると、経験的なベイズは弱い基盤に基づいているように思えます。データが受動的に生成された設定でのみ使用されますか?もしそうなら、これは正当かもしれませんが、厳密な実験計画を行うときにそれを使用するのは正しくないようですが、ブラッド・エフロンは一般に非常にNHST分野である生物統計学のために経験的ベイズを使用することを知っています。 私の質問は: 経験的ベイズはどのように有効ですか? どのような状況で使用されますか? どのような状況で経験的ベイズアプローチの使用を避ける必要がありますか?その理由は? 人々は生物統計学以外の分野でそれを使用していますか?もしそうなら、どのような状況でそれを使用していますか?

2
混合モデルは予測モデルとして有用ですか?
予測モデリングに関する混合モデルの利点について少し混乱しています。予測モデルは通常、以前は未知の観測値を予測するためのものであるため、混合モデルが有用な唯一の方法は、母集団レベルの予測を提供できることです(つまり、ランダム効果を追加することはありません)。ただし、これまでの私の経験では、混合モデルに基づく人口レベルの予測は、固定効果のみの標準回帰モデルに基づく予測よりも著しく悪いという問題があります。 では、予測問題に関して混合モデルのポイントは何ですか? 編集。問題は次のとおりです。混合モデル(固定効果とランダム効果の両方)と、固定効果のみの標準線形モデルを適合させました。クロスバリデーションを行うと、予測精度の次の階層が得られます:1)固定効果とランダム効果を使用して予測するときの混合モデル(ただし、これはもちろん、既知のレベルのランダム効果変数を持つ観測に対してのみ機能するため、この予測アプローチはそうではありません実際の予測アプリケーションに適している!); 2)標準線形モデル; 3)母集団レベルの予測を使用する場合の混合モデル(ランダム効果がスローされるため)。したがって、標準線形モデルと混合モデルの唯一の違いは、推定方法が異なるため、係数の値が多少異なることです(つまり、両方のモデルに同じ効果/予測子がありますが、関連する係数が異なります)。 混合モデルを使用して人口レベルの予測を生成することは、標準の線形モデルと比較して劣った戦略であるように見えるので、私の混乱は結局のところ、なぜ予測モデルとして混合モデルを使用するのでしょうか?

2
分位点回帰:損失関数
分位点回帰を理解しようとしていますが、私が苦しむ1つのことは、損失関数の選択です。 ρτ(u)=u(τ−1{u&lt;0})ρτ(u)=u(τ−1{u&lt;0})\rho_\tau(u) = u(\tau-1_{\{u<0\}}) 私はの期待の最小ことを知っているに等しいτ % -quantileが、この機能をオフに開始するための直感的な理由は何ですか?この関数の最小化と変位値の関係はわかりません。誰かが私にそれを説明できますか?ρτ(y−u)ρτ(y−u)\rho_\tau(y-u)τ%τ%\tau\%

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.