タグ付けされた質問 「continuous-data」

ランダム変数可能な値のセットが無数である場合、連続と呼ばれ、それは、任意の特定の値をとる可能性がゼロである(すべての実数のための)。確率変数は、累積確率分布関数が連続関数である場合に限り、連続変数です。 XP(X=x)=0x

6
順序付けされていないカテゴリ変数との相関
多くの観測と多くの変数を含むデータフレームがあります。それらの一部はカテゴリカル(順不同)であり、その他は数値です。 これらの変数間の関連を探しています。私は数値変数の相関(スピアマンの相関)を計算できましたが、 順序付けされていないカテゴリ変数間の相関を測定する方法がわかりません。 順序付けられていないカテゴリ変数と数値変数の相関を測定する方法がわかりません。 誰もこれがどのように行われるか知っていますか?ある場合、これらのメソッドを実装するR関数はありますか?

7
連続予測変数を分割することの利点は何ですか?
モデルで使用する前に、連続予測変数を取得してそれを分割(たとえば、五分位数に分割)することの価値は何かと思っています。 変数をビニングすると情報が失われるように思えます。 これは、非線形効果をモデル化できるからですか? 変数を連続的に保ち、それが実際に直線関係ではなかった場合、データに最適な何らかの曲線を考え出す必要がありますか?


3
例:バイナリ結果にglmnetを使用したLASSO回帰
私は興味のある結果が二分されglmnetているLASSO回帰の使用に手を出し始めています。以下に小さな模擬データフレームを作成しました。 age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 


8
カテゴリデータを連続として扱うのは理にかなっていますか?
離散データと連続データに関するこの質問に答える際、カテゴリデータを連続データとして扱うことはほとんど意味がないと断言しました。 一見すると自明のように思えますが、直観はしばしば統計の貧弱なガイドであり、少なくとも私の場合はそうです。だから今私は疑問に思う:それは本当ですか?または、カテゴリデータから連続体への変換が実際に役立つ分析が確立されていますか?データが序数である場合、違いが生じますか?

5
離散変数と連続変数の両方を使用したデータセットのクラスタリング
10個の次元を持つデータセットXがあり、そのうち4個は離散値です。実際、これらの4つの離散変数は序数です。つまり、値が大きいほど意味が高い/良いことを意味します。 これらの離散変数のうち2つは、これらの変数のそれぞれについて、たとえば11から12の距離が5から6の距離と同じではないという意味でカテゴリです。必ずしも線形ではありません(実際、実際には定義されていません)。 私の質問は: 離散変数と連続変数の両方を含むこのデータセットに、一般的なクラスタリングアルゴリズム(たとえば、K-Means、次にGaussian Mixture(GMM))を適用することをお勧めしますか? そうでない場合: 離散変数を削除して、連続変数のみに焦点を合わせる必要がありますか? 連続データをより良く離散化し、離散データにクラスタリングアルゴリズムを使用する必要がありますか?

4
連続機能とカテゴリ機能の両方を使用した予測
予測モデリング手法の中には、連続予測変数を処理するように設計されているものもあれば、カテゴリ変数または離散変数を処理する方が優れているものもあります。もちろん、1つの型を別の型に変換する手法(離散化、ダミー変数など)があります。ただし、単純にフィーチャのタイプを変換せずに、両方のタイプの入力を同時に処理するように設計された予測モデリング手法はありますか?そうである場合、これらのモデリング手法は、より自然に適合するデータに対してよりうまく機能する傾向がありますか? 私が知っている最も近いものは、通常、決定木がうまく離散データを処理し、それらが必要とせず、連続的なデータを扱うことになりますアップフロント離散化を。ただし、これは私が探していたものとはまったく異なります。効果的に連続フィーチャ上の分割は、動的な離散化の一種にすぎません。 参考のために、関連する重複しない質問を次に示します。 連続変数を予測するとき、決定木分割はどのように実装する必要がありますか? カテゴリー予測因子と連続予測因子が混在している場合、重回帰を使用できますか? カテゴリデータを連続として扱うのは理にかなっていますか? 連続およびカテゴリー変数データ分析

2
負の二項分布の連続一般化
負の二項分布は非負の整数で定義され、確率質量関数f(k;r,p)=(k+r−1k)pk(1−p)r.f(k;r,p)=(k+r−1k)pk(1−p)r.f(k;r,p)={\binom {k+r-1}{k}}p^{k}(1-p)^{r}.同じ式(k∈N0k∈N0k\in \mathbb N_0をx \ in \ mathbb R _ {\ ge 0}で置き換える)で定義された非負の実数上の連続分布を考慮することは意味がありx∈R≥0x∈R≥0x\in\mathbb R_{\ge 0}ますか?二項係数は(k + 1)\ cdot \ ldots \ cdot(k + r-1)の積として書き換えることができます(k+1)⋅…⋅(k+r−1)(k+1)⋅…⋅(k+r−1)(k+1)\cdot\ldots\cdot(k+r-1)。これは任意の実数kに対して明確に定義されていますkkk。したがって、PDF f(x;r,p)∝∏i=1r−1(x+i)⋅px(1−p)r.f(x;r,p)∝∏i=1r−1(x+i)⋅px(1−p)r.f(x;r,p)\propto\prod_{i=1}^{r-1}(x+i)\cdot p^{x}(1-p)^{r}. より一般的には、二項係数をガンマ関数で置き換えて、rの非整数値を許可できますrrr。 f(x;r,p)∝Γ(x+r)Γ(x+1)Γ(r)⋅px(1−p)r.f(x;r,p)∝Γ(x+r)Γ(x+1)Γ(r)⋅px(1−p)r.f(x;r,p)\propto\frac{\Gamma(x+r)}{\Gamma(x+1)\Gamma(r)}\cdot p^{x}(1-p)^{r}. 有効な配布ですか?名前はありますか?用途はありますか?多分化合物か混合物か?平均と分散(およびPDFの比例定数)の閉じた式はありますか? (現在、NB混合モデル(固定r=2r=2r=2)を使用してEMで近似する論文を研究しています。ただし、データは、正規化後の整数、つまり整数ではありません。可能性と非常に合理的な結果を得るので、すべてがうまく機能しているようです。私はそれが非常に不可解であることがわかりました。この質問はNB GLM に関するものではないことに注意してください。

2
いつ連続的な独立変数/機能を離散化/ビン化すべきか、そうすべきではないのか?
いつ独立変数/機能を離散化/ビン化する必要がありますか? 質問に答える私の試み: 一般に、ビニングは情報を失うため、ビン化するべきではありません。 ビニングは、実際にはモデルの自由度を高めているため、ビニング後に過剰適合を引き起こす可能性があります。「高バイアス」モデルがある場合、ビニングは悪くないかもしれませんが、「高分散」モデルがある場合、ビニングを避ける必要があります。 使用しているモデルによって異なります。それが線形モードであり、データに多くの「外れ値」がある場合、ビニング確率が優れています。ツリーモデルがある場合、外れ値とビニングはあまりにも大きな違いを生みます。 私は正しいですか?そして他に何? この質問は何度も聞かれるべきだと思ったが、これらの投稿だけでは履歴書で見つけることができない 連続変数をビン化する必要がありますか? 連続予測変数を分割することの利点は何ですか?

2
2つの確率変数の合計としての一様確率変数
GrimmetおよびStirzakerから取得: そうでないことを示すU = X + Y Uは均一[0,1]上に分散され、XおよびYは独立しており、同一分布。あなたはないはず XとYが連続変数であることを前提としています。U=X+YU=X+YUUXXYY 場合の矛盾で十分によって簡単証明XXX、Yは、YYそれが常に可能見つけることと主張することによって別個に仮定され、Uuu及びU 'u′u'その結果、P (U ≤ U + U ')≥ P (U ≤ U )P(U≤u+u′)≥P(U≤u)P(U\leq u+u') \geq P(U\leq u)一方、P (X + Y ≤ U )= P (X + Y ≤ U + U ')P(X+ Y≤ U )= P(X+ Y≤ U + U′)P(X+Y \leq u) …

1
計画された実験でANOVAとANCOVAを選択する方法は?
私は次の実験を行っています: DV:スライスの消費(継続的またはカテゴリー化可能) IV:健全なメッセージ、不健全なメッセージ、メッセージなし(コントロール)(ランダムに割り当てられた3つのグループ-カテゴリ)これは、スライスの健全性について操作されたメッセージです。 次のIVは、個人差変数と見なすことができます。 衝動性(これはカテゴリ別の場合があります。つまり、高対低、または連続であり、スケールで測定されます) 甘い好み(これは、質問ごとに選択する3つのオプションであるアンケートによっても測定されます) BMI-それに応じて参加者の体重を測定します(これはカテゴリカルまたは継続的と見なすこともできます)。 グループは3つのグループの1つにランダムに割り当てられるため、ある種のANOVAを行っており、おそらくIVがDVに最も影響するだけでなく、研究によって示されるようにIVいくつかの組み合わせの間に関係があること。 しかし、IVをすべてカテゴリに分類するのか、継続的または混合にするのが最善かを知る必要があるため、これについて完全に確信はありません。 または、ANCOVAは可能性または回帰でさえありますが、それらがグループに割り当てられ、調査への回答に基づいて分類されていることについてはわかりません。 これが理にかなっていて、私の質問について誰かから聞いてくれることを楽しみにしています。


2
連続データからカテゴリカルへの移行は常に間違っていますか?
データの設定方法について読んだとき、私がよく遭遇することの1つは、いくつかの連続したデータをカテゴリデータに変換することは良い考えではないということです。しきい値が十分に決定されていない場合、間違った結論を下す可能性が非常に高いからです。 しかし、私は現在いくつかのデータ(前立腺がん患者のPSA値)を持っていますが、一般的なコンセンサスは、あなたが4歳未満の場合、おそらくそれを持っていない、あなたが上にいる場合は危険にさらされ、 10と20を超えると、おそらくそれがあります。そんな感じ。その場合、連続PSA値を0〜4、4〜10、および> 10のグループに分類することは依然として間違っていますか?または、いわばしきい値が「十分に決定」されているので、実際には大丈夫ですか。

1
順序変数と連続変数の間の相関を正しく評価する方法は?
以下の間の相関関係を推定したいと思います。 順序変数:被験者は、6種類の果物に対する好みを1〜5のスケール(非常に不快なものから非常においしいものまで)で評価するよう求められます。平均して、被験者はスケールの3ポイントのみを使用します。 連続変数:同じ被験者にこれらの果物をすばやく特定するように依頼します。これにより、6つの果物の平均精度が得られます。 Spearman rhoはこれらのデータを分析するための最良の方法であるか、および/または私が検討できる他の良い方法はありますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.