統計とビッグデータ continuous-data

2

豊富さがサイズに関連しているかどうかを調べています。サイズは（もちろん）連続していますが、存在量は次のようなスケールで記録されます。 A = 0-10 B = 11-25 C = 26-50 D = 51-100 E = 101-250 F = 251-500 G = 501-1000 H = 1001-2500 I = 2501-5000 J = 5001-10,000 etc... AからQ ... 17レベル。考えられるアプローチの1つは、各文字に番号を割り当てることであると考えていました：最小、最大、または中央値（つまり、A = 5、B = 18、C = 38、D = 75.5 ...）。潜在的な落とし穴は何ですか-したがって、このデータをカテゴリカルとして扱う方が良いでしょうか？私はいくつかの考えを提供するこの質問を読みました-しかし、このデータセットの重要な点の1つは、カテゴリーが均一ではないことです-したがって、カテゴリーとして扱うことは、AとBの違いは、 BとC ...（対数を使用して修正できます-Anonymouseに感謝）最終的に、他の環境要因を考慮した上で、サイズを存在量の予測因子として使用できるかどうかを確認したいと思います。予測も範囲になります。サイズXと係数A、B、Cが与えられた場合、存在量Yは最小値と最大値の間になると予測します（1つ以上のスケールポイントにまたがる可能性があると思います：最小Dより大きく、最小Max F …

9 categorical-data variance model continuous-data

3

変量効果はカテゴリ変数にのみ適用できますか？

この質問は愚かに聞こえるかもしれませんが... ランダムな効果はカテゴリ変数（個人ID、人口IDなど）にのみ適用できることは正しいです。たとえば、はカテゴリ変数です。xixix_i yiyiy_i〜βxiβxi\beta_{x_i} βxiβxi\beta_{x_i}〜Norm(μ,δ2)Norm(μ,δ2)Norm(\mu, \delta^2) しかし、原則から、ランダム効果は連続変数（高さ、質量など）に適用できませんと言います。ziziz_i yiyiy_i〜α+β⋅ziα+β⋅zi\alpha + \beta \cdot z_{i} それでは、制約できない係数が1つしかないからです。論理的に聞こえるかもしれませんが、なぜそれが統計文献に記載されていないのでしょうか。ありがとう！ββ\beta EDIT：しかし、どのような場合、私制約よう〜？それはランダム効果ですか？しかし、これはに課した制約とは異なります -ここでは変数を制約しますが、前の例では係数を制約しました！それは私にとって大きな混乱のように見えます...とにかく、は既知の値であるため、この制約を置くことはあまり意味がありません。ziziz_iziziz_iNorm(μ,δ2)Norm(μ,δ2)Norm(\mu, \delta^2)βxiβxi\beta_{x_i}ziziz_i

9 mixed-model categorical-data continuous-data random-effects-model

2

継続的およびカテゴリー変数データ分析

私には3つの変数があります。距離（連続、可変範囲、負の無限大から正の無限大） isLand（離散カテゴリ/ブール、可変範囲1または0）居住者（離散カテゴリカル、可変範囲0〜7）次の統計的な質問に回答したいと思います。カテゴリー変数と連続変数の両方がある分布を比較する方法。たとえば、距離と居住者のデータ分布がisLandの値に応じて変化するかどうかを確認します。 3つの変数のうち2つが与えられた場合、いくつかの方程式を使用して3番目の変数を予測できますか？ 3つ以上の変数を使用して独立性を判断するにはどうすればよいですか？

9 categorical-data continuous-data

4

CDFを指定したPDFの計算

PDFが連続確率変数のCDFの1次導関数であり、離散確率変数の差であることを知っています。しかし、これがなぜなのか、なぜ離散と連続の2つの異なるケースがあるのか知りたいのですが。

8 mathematical-statistics pdf discrete-data continuous-data cdf

2

連続変数とカテゴリ変数が混在するデータのクラスタリング

人間の行動のいくつかの側面を表すデータがあります。私はそれを（監視なしで）ある種の行動プロファイルにクラスター化したいと考えています。現在、私の変数の一部はカテゴリカル（2つ以上のカテゴリを持つ）であり、一部は連続的です（ほとんどはパーセンテージです）。いくつかの変数はさらに複雑で、1つのカテゴリーにはさらに連続的であり、もう1つのカテゴリーにはそのような追加データはありません。私の質問は、このデータを分類する方法についてです。それを扱う（一般的な？）アプローチは何ですか？コードや何かは必要ありませんが、この課題への対処方法をさらに理解するのに役立つ参照や指示が必要です。そのRような分析を容易にする関数を知っていれば、それはすばらしいことですが、それは必須ではありません。ありがとう。

8 r clustering categorical-data continuous-data

3

連続確率変数のため、なぜ

私の教科書はこれを「メモ」という見出しの付いたサイドボックスに入れ、その理由を説明していません。この声明がなぜ当てはまるのか教えてください。 P(a<Z<b)=P(a≤Z<b)=P(a<Z≤b)=P(a≤Z≤b)P(a<Z<b)=P(a≤Z<b)=P(a<Z≤b)=P(a≤Z≤b)P(a < Z < b) = P(a \leq Z < b) = P(a < Z \leq b) = P(a \leq Z \leq b)

8 probability mathematical-statistics continuous-data

3

継続的な結果のための感度と特異性の類似体

結果を二分することなく継続的な結果（たとえば、血圧）を予測する際の継続的な診断テストの感度と特異度（または類似の測定）を計算するにはどうすればよいですか？何か案は？研究者は混合効果モデリング（以下のリンクを参照）を使用してこれを行ったようですが、私は彼らがこの手法を使用することに慣れていません：http : //www.ncbi.nlm.nih.gov/pmc/articles/PMC3026390/ ちなみに、私はRに最も慣れているので、R関数を伴うことを提案する実装には理想的です（ただし、そうでなくても問題ありません）。提案を事前にありがとう！

8 classification mixed-model predictive-models roc continuous-data

1

継続的な臨床変数と遺伝子発現データの相関

各ケースとコントロールの〜25の遺伝子発現（〜400変数/遺伝子）のデータセットのSVM（線形カーネル）分類分析では、遺伝子発現ベースの分類子が非常に優れたパフォーマンス特性を持っていることがわかりました。ケースとコントロールは、（フィッシャーの正確確率検定またはt検定に従って）多数のカテゴリー的および継続的な臨床/人口統計学的変数について有意差はありませんが、年齢については有意差があります。分類分析の結果が年齢の影響を受けているかどうかを示す方法はありますか？遺伝子発現データを主成分に減らし、年齢に対する成分のスピアマン相関分析を行うことを考えています。これは合理的なアプローチですか？または、SVM分析で得られた年齢とクラスメンバーシップの確率値の相関関係を確認できますか。ありがとう。

8 correlation classification pca continuous-data

1

出力の離散化によって回帰モデルを分類モデルに削減すると、モデルが改善されるのはなぜですか？

回帰問題では、出力がビン/カテゴリ/クラスターに離散化され、ラベルとして使用される場合、モデルは分類モデルに縮小されます。私の質問は、この削減を行うことの背後にある理論的または応用的な動機は何ですか？テキストから位置を予測する私の特定の実験では、回帰ではなく分類として問題をモデル化すると、改善が見られます。私の特定のケースでは、出力は2dですが、これについてのより一般的な説明を探しています。更新：入力がBoWテキストで、出力が座標であると想定します（ジオタグ付きTwitterデータの場合など）。回帰では、二乗誤差損失を使用して、与えられたテキストの緯度/経度を予測します。トレーニングの緯度/経度のポイントをクラスター化し、各クラスターをクラスと仮定すると、分類モデルのクロスエントロピー損失を最適化することでクラスを予測できます。評価：回帰の場合、予測された場所と金の場所の間の平均距離。分類のために、予測されたクラスターの中央のトレーニングポイントとゴールドの場所の間の平均距離。

7 regression classification categorical-data continuous-data

3

整数データ：カテゴリーまたは連続？

整数予測子データをカテゴリカル（したがってエンコードが必要）または連続として扱う必要があるかどうか疑問に思っています。たとえば、特定の予測子の範囲Xがすべて1〜230の整数である場合、それを連続変数として扱うことができますか、それをエンコードして、230（またはおそらく229）の新しいダミー変数を取得する必要がありますか？分析の最終目標は、回帰または分類を実行することです。

7 regression classification categorical-data continuous-data

タグ付けされた質問 「continuous-data」

タグ付けされた質問「continuous-data」