タグ付けされた質問 「association-measure」

変数間の関連性の測定、相関よりも一般的な概念

3
例:バイナリ結果にglmnetを使用したLASSO回帰
私は興味のある結果が二分されglmnetているLASSO回帰の使用に手を出し始めています。以下に小さな模擬データフレームを作成しました。 age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 


1
巨大なスパース分割表を視覚化する方法は?
私には2つの変数があります:薬物名(DN)と対応する有害事象(AE)は、多対多の関係にあります。33,556の薬名と9,516の有害事象があります。サンプルサイズは約580万回の観測です。 DNとAEの関連/関係を研究し、理解したい。写真を見たほうが良いので、このセットをRで視覚化する方法を考えています。どうすればいいのかわかりません...

2
バイナリデータの類似性係数:ラッセルとラオよりもジャカードを選択する理由
統計科学百科事典 Iは、与えられたことを理解し(変数)属性、我々は任意の二つのオブジェクトのための分割表を形成することができ;二値(0 =なし1 =本バイナリ)は、I及びJのサンプルを:ppp j 1 0 ------- 1 | a | b | i ------- 0 | c | d | ------- a = number of variables on which both objects i and j are 1 b = number of variables where object i is 1 and j is …


1
変数とPCAコンポーネント(バイプロット/ローディングプロット上)との適切な関連付けの尺度は何ですか?
私はFactoMineR、測定値のデータセットを潜在変数に減らすために使用しています。 上記の変数のマップは私が解釈するのは明らかであるが、それは、変数マップを見て、変数と部品1の間の関連付けに来るとき、私は混乱しています、ddpとcov非常に近いマップ内のコンポーネントにある、とddpAbs少し遠いです離れて。しかし、これは相関関係が示すものではありません: $Dim.1 $Dim.1$quanti correlation p.value jittAbs 0.9388158 1.166116e-11 rpvi 0.9388158 1.166116e-11 sd 0.9359214 1.912641e-11 ddpAbs 0.9327135 3.224252e-11 rapAbs 0.9327135 3.224252e-11 ppq5 0.9319101 3.660014e-11 ppq5Abs 0.9247266 1.066303e-10 cov 0.9150209 3.865897e-10 npvi 0.8853941 9.005243e-09 ddp 0.8554260 1.002460e-07 rap 0.8554260 1.002460e-07 jitt 0.8181207 1.042053e-06 cov5_x 0.6596751 4.533596e-04 ps13_20 -0.4593369 2.394361e-02 ps5_12 -0.5237125 …

2
多くのセルの周波数が5未満の場合のカイ2乗検定の適用性
ピアのサポート(独立変数)と仕事の満足度(従属変数)の関連を見つけるために、カイ2乗検定を適用したいと思います。ピアのサポートは、サポートの範囲に応じて4つのグループに分類されます。1=非常に少ない、2 =ある程度、3 =非常に大きい、4 =非常に大きい。仕事の満足度は2つのカテゴリに分類されます。0=満足していない、1 =満足しています。 SPSSの出力では、37.5パーセントのセル周波数が5未満であることが示されています。私のサンプルサイズは101であり、独立変数のカテゴリをより小さな数に減らしたくありません。この状況で、この関連付けをテストするために適用できる他のテストはありますか?

2
序数と連続確率変数の間の関連の強さのノンパラメトリック測定
私はそれを受け取ったのでここに問題を投げています。 2つの確率変数があります。1つは連続(Y)で、もう1つは離散で序数(X)として処理されます。クエリと共に受け取ったプロットの下に置きます。 データを送ってくれた人は、 XとYの関連性の強さを測定したいと考えています。データを生成したプロセスについての仮定が前に詰め込まれていないアイデアを探しています。これは、関係の強さをテストするための非パラメトリックな方法を見つけることではなく(ブートストラップなど)、それを測定する非パラメトリックな方法を見つけることに注意してください。 一方、データポイントが多いため、効率は問題になりません。

1
属性が名目である場合、個人にとって最適な距離関数は何ですか?
名義(順序付けされていないカテゴリ)属性の場合に使用する個人間の距離関数がわかりません。私はいくつかの教科書を読んでいて、それらはSimple Matching関数を提案していますが、一部の本は、名義をバイナリ属性に変更してJaccard係数を使用するべきだと提案しています。ただし、名義属性の値が2でない場合はどうなりますか?その属性に3つまたは4つの値がある場合はどうなりますか? 名義属性にはどの距離関数を使用すればよいですか?

3
カテゴリ変数の人気のある、または一般的な組み合わせを見つけるために使用できる統計的方法は何ですか?
多剤使用の研究をしています。私は400人の麻薬常用者のデータセットを持っています。10種類以上の薬物が存在するため、可能な組み合わせは大きくなります。私はそれらが消費する薬物の大部分をバイナリ変数に再コード化しました(つまり、薬物中毒者がヘロインを乱用した場合、ヘロインは1で、それ以外は0です)。2つまたは3つの薬物の人気のある、または一般的な組み合わせを見つけたいのですが。使用できる統計的方法はありますか?

2
二分変数と連続変数の間の相関
私は二分変数と連続変数の間の相関関係を見つけようとしています。 これに関する私の最初の作業から、私は独立したt検定を使用する必要があることを発見しました。その前提条件は、変数の分布が正規でなければならないことです。 正規性をテストするためにKolmogorov-Smirnov検定を実行したところ、連続変数が非正規であり、歪んでいることがわかりました(約4,000データポイント)。 変数の範囲全体に対してコルモゴロフ・スミルノフ検定を行いました。それらをグループに分割してテストを実行する必要がありますか?つまり、私がrisk level(0=危険ではない、1=危険)とコレステロール値を持っている場合、次のことを行う必要があります: それらを次のように2つのグループに分けます。 Risk level =0 (Cholestrol level) -> Apply KS Risk level =1 (Cholestrol level) -> Apply KS それらを一緒に取り、テストを適用しますか?(データセット全体でのみ実行しました。) その後、それでも正常でない場合はどうすればよいですか? 編集: 上記のシナリオは、私が自分の問題に提供しようとした説明にすぎません。1000を超える変数と約4000のサンプルを含むデータセットがあります。それらは本質的に連続的またはカテゴリー的です。私の仕事は、これらの変数に基づいて二分変数を予測することです(たぶんロジスティック回帰モデルを考え出す)。そのため、最初の調査には、二分変数と連続変数の相関関係を見つけることが含まれると考えました。 私は変数の分布がどのようになっているかを確認しようとしていたため、t検定を試みました。ここで私は問題として正常性を見つけました。コルモゴロフ-スミルノフ検定では、これらの変数のほとんどで有意値0.00が得られました。 ここで正常性を仮定する必要がありますか?これらの変数の歪度と尖度は、ほとんどすべての場合にデータが歪んでいる(> 0)ことも示しています。 以下の注記に従って、ポイントとバイセリアルの相関をさらに調査します。しかし、変数の分布についてはまだわかりません。

13
「BにAが与えられる可能性が高い」場合、「AにBが与えられる可能性が高い」
私は背後にあるより明確な直感を得ようとしています:「あAAがBBBより可能にするなら、BBBはあAAより可能にする」すなわち ましょn (S)n(S)n(S)する空間の大きさ示すあAA及びBBB、その後、あるを 主張:P(B | A )> P(B )P(B|A)>P(B)P(B|A)>P(B) so n (A B )/ n (A )> n (B )/ n (S)n(AB)/n(A)>n(B)/n(S)n(AB)/n(A) > n(B)/n(S) so n (A B )/ n (B )> n (A )/ n (S)n(AB)/n(B)>n(A)/n(S)n(AB)/n(B) > n(A)/n(S) これはP(A | B )> P(A )P(A|B)>P(A)P(A|B)>P(A) 私は数学を理解していますが、なぜこれが直感的に理解できるのですか?

3
行列乗算を使用してバイナリデータのJaccardまたはその他の関連係数を計算する
行列の乗算を使用してJaccard係数を計算する可能な方法があるかどうかを知りたいです。 私はこのコードを使用しました jaccard_sim <- function(x) { # initialize similarity matrix m <- matrix(NA, nrow=ncol(x),ncol=ncol(x),dimnames=list(colnames(x),colnames(x))) jaccard <- as.data.frame(m) for(i in 1:ncol(x)) { for(j in i:ncol(x)) { jaccard[i,j]= length(which(x[,i] & x[,j])) / length(which(x[,i] | x[,j])) jaccard[j,i]=jaccard[i,j] } } これはRで実装しても問題ありません。ダイスの類似性を1つ作成しましたが、谷本/ Jaccardで行き詰まりました。誰でも手伝ってくれる?

2
混合モデルのパラメトリック、セミパラメトリック、ノンパラメトリックブートストラップ
以下の移植片は、この記事から引用したものです。私はブートストラップの初心者であり、R bootパッケージを使用した線形混合モデルのパラメトリック、セミパラメトリック、ノンパラメトリックのブートストラップブートストラップを実装しようとしています。 Rコード これが私のRコードです: library(SASmixed) library(lme4) library(boot) fm1Cult <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=Cultivation) fixef(fm1Cult) boot.fn <- function(data, indices){ data <- data[indices, ] mod <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=data) fixef(mod) } set.seed(12345) Out <- boot(data=Cultivation, statistic=boot.fn, R=99) Out ご質問 …
9 r  mixed-model  bootstrap  central-limit-theorem  stable-distribution  time-series  hypothesis-testing  markov-process  r  correlation  categorical-data  association-measure  meta-analysis  r  anova  confidence-interval  lm  r  bayesian  multilevel-analysis  logit  regression  logistic  least-squares  eda  regression  notation  distributions  random-variable  expected-value  distributions  markov-process  hidden-markov-model  r  variance  group-differences  microarray  r  descriptive-statistics  machine-learning  references  r  regression  r  categorical-data  random-forest  data-transformation  data-visualization  interactive-visualization  binomial  beta-distribution  time-series  forecasting  logistic  arima  beta-regression  r  time-series  seasonality  large-data  unevenly-spaced-time-series  correlation  statistical-significance  normalization  population  group-differences  demography 

2
バイナリ変数間のこの相関/関連測定の名前は何ですか?
とりわけ、2つのバイナリ確率変数と間の関連付け(または偶発性または相関)のいくつかの測定値があります。XXXYYY ピアソンのファイ係数 クラメルのV 以下の数は、統計的に興味深い場合、既知の測定値とどのように関係し、どのような名前で(おそらく)議論されているのでしょうか。κκ\kappa κ=1−2N|X△Y|κ=1−2N|X△Y|\kappa = 1 - \frac{2}{N}|X \triangle Y| プロパティまたはプロパティを持ち、両方を持たないサンプルの数(排他的OR、対称差)、サンプルの総数。ファイ係数と同様に、は完全な一致または不一致を示し、は関係がないことを示します|X△Y||X△Y||X \triangle Y|XXXYYYNNNκ=±1κ=±1\kappa = ± 1κ=0κ=0\kappa = 0
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.