タグ付けされた質問 「continuous-data」

ランダム変数可能な値のセットが無数である場合、連続と呼ばれ、それは、任意の特定の値をとる可能性がゼロである(すべての実数のための)。確率変数は、累積確率分布関数が連続関数である場合に限り、連続変数です。 XP(X=x)=0x

3
多変量モードの計算効率の高い推定
ショートバージョン:連続分布からサンプリングされた多次元データセットのモードを推定する最も計算効率の良い方法は何ですか? 長いバージョン:モードを推定する必要があるデータセットがあります。モードは平均値または中央値と一致しません。サンプルを以下に示します。これは2Dの例ですが、NDソリューションの方が適しています。 現在、私の方法は モードの望ましい解像度に等しいグリッドでカーネル密度推定を計算します 計算された最大の点を探す 明らかに、これは多くの妥当ではないポイントでKDEを計算します。これは、高次元のデータポイントが多数ある場合、またはモードで良好な解像度が期待できる場合は特に悪いことです。 別の方法として、シミュレーテッドアニーリング、遺伝的アルゴリズムなどを使用して、KDEのグローバルピークを見つけることができます。 問題は、この計算を実行するよりスマートな方法があるかどうかです。

3
が連続変数の場合、
連続変数ことは知っています。P[ X= x ] = 0P[X=x]=0P[X=x]=0 しかし、場合、可能なxの数が無限にあることを視覚化することはできません。また、なぜそれらの確率が無限に小さくなるのですか?P[ X= x ] = 0P[X=x]=0P[X=x]=0バツxx

3
連続変数の条件付き確率
その確率変数を仮定うんうんUパラメータ0と10と連続し均一な分布に従う(すなわち、うん〜U(0 、10 )うん〜うん(0、10)U \sim \rm{U}(0,10)) ここで、AをうんうんU = 5のイベント、BをうんうんUが555または6のいずれかであるイベントとすることにします。私の理解によると、両方のイベントの発生確率はゼロです。 我々は計算に考慮すれば、今、P(A | B )P(A|B)P(A|B)、我々は条件付きの法則を使用することはできません P(A | B) = P(A∩B)P(B)P(A|B)=P(A∩B)P(B)P\left( {A|B} \right) = \frac{{P\left( {A \cap B} \right)}}{{P\left( B \right)}}は、P(B)P(B)P(B)がゼロに等しいためです。しかし、私の直感ではと言われますP(A|B)=1/2P(A|B)=1/2P(A|B) = 1/2。

5
非常に多数のデータポイントで値の代入を実行する方法は?
非常に大きなデータセットがあり、約5%のランダムな値が欠落しています。これらの変数は互いに相関しています。次のRデータセットの例は、ダミーの相関データを使用した単なるおもちゃの例です。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 


2
非二項名目変数と順序変数または数値変数の相関係数
私は問題の答えを見つけるためにこのサイトのすべてのページをすでに読んでいますが、誰も私から正しいものではないようです... まず、私が扱っているデータの種類について説明します... 300人のユーザーごとに1つずつ、複数の都市名を持つ配列ベクトルがあるとします。また、別の配列ベクトルを使用して、各ユーザーの調査に対するスコアの応答または各ユーザーの継続的な値を取得しています。 これらの2つの変数の相関関係を計算する相関係数が存在するかどうかを知りたいので、名義変数と数値変数 私はインターネットで検索しましたが、いくつかのページでは、偶発係数またはCramerのVまたはLambda係数またはEtaを使用するように提案されています。この測定値のそれぞれについて、名目変数と区間変数または数値変数があるようなデータに適用できると言ってください。問題は、検索して検索し、それらのすべてを理解しようとすることですが、Cramer's Vを除いて、二項公称変数がある場合にそれらを使用するのが合理的である例が書かれている、または見られていることもあります。データのタイプ。他の多くのページでは、代わりに回帰を適用するのが正しいと言っていますが、そうですが、この種類のデータにピアソン/スピアマンのような係数があるかどうかを知りたいだけです。 また、都市はソートできないため、Spearman Correlation coeffを使用するのはそれほど適切ではないと思います。 私はCramer'sVとEtaの関数も自分で作成しました(私はMatlabを使用しています)が、Etaについては係数が統計的に有意であるかどうかを確認するためにp値について話しません... matlabWorksサイトには、eta ^ 2を計算するように指示する素晴らしいツールボックスもありますが、必要な入力の種類は理解できません。 ここに私のようなテストをした人はいますか?私が使用しているデータの種類を理解するためにさらに詳細が必要な場合は、私に尋ねてください。私はあなたをよりよく説明しようとします。

1
連続分布からのデータの最適な離散化の決定
あなたは、データセットがあると濃度と連続分布からP (Y )上に支持され、[ 0 、1 ]知られていないが、n個のカーネル密度ので、(例えば) 推定値はかなり大きく、P(Y )、かなり正確です。特定のアプリケーションのために私は、新しいデータセット生成するカテゴリの有限数に観測されたデータを変換する必要がZ 1を、。。。、Z nY1,...,YnY1,...,YnY_{1}, ..., Y_{n}p(y)p(y)p(y)[0,1][0,1][0,1]nnnp^(y)p^(y)\hat{p}(y)Z1,...,ZnZ1,...,ZnZ_{1}, ..., Z_{n}暗黙の質量関数ます。g(z)g(z)g(z) 簡単な例は次のようになりときにY I ≤ 1 / 2及びZは、iが = 1ときY I > 1 / 2。この場合、誘導される質量関数はZi=0Zi=0Z_{i} = 0Yi≤1/2Yi≤1/2Y_{i} \leq 1/2Zi=1Zi=1Z_{i} = 1Yi>1/2Yi>1/2Y_{i} > 1/2 g^(0)=∫1/20p^(y)dy, g^(1)=∫11/2p^(y)dyg^(0)=∫01/2p^(y)dy, g^(1)=∫1/21p^(y)dy \hat{g}(0) = \int_{0}^{1/2} \hat{p}(y) dy, \ \ \ \hat{g}(1) = \int_{1/2}^{1} \hat{p}(y)dy …

2
連続データにポアソン回帰を使用していますか?
ポアソン分布を使用して、連続データと離散データを分析できますか? 応答変数が連続であるいくつかのデータセットがありますが、正規分布ではなくポアソン分布に似ています。ただし、ポアソン分布は離散分布であり、通常は数値またはカウントに関係しています。

5
連続確率変数が固定小数点をとる確率
私は、連続確率変数の確率密度関数は次のように定義された入門統計クラスにいる。私は理解しているの積分∫ F (X )D 、X = 0P{X∈B}=∫Bf(x)dxP{X∈B}=∫Bf(x)dxP\left\{X\in B\right\}=\int_B f\left(x\right)dx∫aaf(x)dx=0∫aaf(x)dx=0\int\limits_a^af(x)dx=0しかし、これは連続確率変数の直感では修正できません。Xとは、列車が到着する時刻tからの分数に等しい確率変数です。電車が今からちょうど5分後に到着する確率を計算するにはどうすればよいですか?この確率をゼロにするにはどうすればよいですか?それは不可能ですか?列車が今からちょうど5分後に到着した場合、確率0の場合にどうなるでしょうか。 ありがとう。


5
どうしてもビニングを避けなければならないのですか?
だから私はなぜビニングが常に避けられるべきかについてのいくつかの投稿を読んだ。その主張の人気のあるリファレンスはこのリンクです。 主な逃避は、ビニングポイント(またはカットポイント)がかなり恣意的であることと、その結果として生じる情報の損失であり、そのスプラインが優先されることです。 ただし、私は現在、Spotify APIを使用しています。SpotifyAPIには、いくつかの機能に対する継続的な信頼度の測定値が多数あります。 1つの機能「instrumentalness」を参照すると、参照は次のように述べています。 トラックにボーカルが含まれていないかどうかを予測します。「Ooh」と「aah」のサウンドは、この文脈ではインストゥルメンタルとして扱われます。ラップや話し言葉のトラックは明らかに「ボーカル」です。インストルメンタル値が1.0に近いほど、トラックにボーカルコンテンツが含まれていない可能性が高くなります。0.5を超える値は、インストゥルメンタルトラックを表すことを目的としていますが、値が1.0に近づくほど信頼性が高くなります。 データの非常に左に歪んだ分布を考えると(サンプルの約90%がかろうじて0を超えているため、この機能を2つのカテゴリ機能に変換するのが賢明であることがわかりました。 "(0.5未満の値を持つすべてのサンプル)。 これは間違っていますか?そして、私の(継続的な)データのほぼすべてが単一の値を中心に展開している場合、代替手段は何でしょうか?スプラインについて私が理解していることから、それらは分類の問題(私がやっていること)でも機能しません。

1
ロジスティック回帰のトレーニングに「部分的なクレジット」(継続的な結果)を与えることは、これまでに良い考えですか。
私はロジスティック回帰を訓練して、どのランナーが過酷な耐久レースを終了する可能性が最も高いかを予測しています。 非常に少数のランナーがこのレースを完了しているので、私は深刻なクラスの不均衡と成功の小さなサンプル(多分数十)を持っています。私はほとんどそれを作った何十人ものランナーからいくつかの良い「シグナル」を得ることができるように感じています。(私のトレーニングデータには、完了だけでなく、完了しなかったデータが実際にどれだけ作成したかも含まれています。)したがって、「部分的なクレジット」を含めるのはひどい考えなのかどうか疑問に思っています。部分的なクレジット、ランプ、ロジスティックカーブの2つの関数を考え出しました。これらにはさまざまなパラメーターを指定できます。 回帰との唯一の違いは、バイナリの結果ではなく、修正された継続的な結果を予測するためにトレーニングデータを使用することです。テストセット(バイナリレスポンスを使用)での予測を比較すると、かなり結論が出ませんでした-ロジスティックの部分的なクレジットはR-2乗、AUC、P / Rをわずかに改善するように見えましたが、これは、小さなサンプル。 予測が完了に向かって偏っていることに気にしない-私が気にするのは、終了する可能性のある選手を正しくランク付けすること、またはおそらく終了する相対的な可能性を推定することです。 ロジスティック回帰は、予測子とオッズ比の対数の間の線形関係を想定していることを理解しています。明らかに、結果をいじり始めると、この比には実際の解釈がありません。これは理論的な観点からは賢明ではないと私は確信していますが、追加の信号を取得して過剰適合を防ぐのに役立つ可能性があります。(私は成功とほぼ同じ数の予測子を持っているので、完全に完了した関係のチェックとして部分的に完了した関係を使用すると役立つ場合があります)。 このアプローチは責任ある実践で使用されたことがありますか? いずれにせよ、このタイプの分析により適した他のタイプのモデル(おそらく、時間ではなく距離にわたって適用されるハザード率を明示的にモデル化するもの)がありますか?

3
連続変数からハザード比を解釈する方法—違いの単位?
連続変数のハザード比を示す記事を読んでいますが、指定された値を解釈する方法がわかりません。 ハザード比についての私の現在の理解は、数値はある条件が与えられた場合の[イベント]の相対的な可能性を表すということです。例:喫煙(バイナリイベント)が行われた場合の肺癌による死亡のハザード比が2の場合、喫煙者は監視期間内に非喫煙者の2倍の確率で死亡しました。 ウィキペディアを見ると、連続変数の解釈は、ハザード比が差異の単位に適用されるというものです。これは、順序変数(たとえば、1日の喫煙本数)には意味がありますが、この概念を連続変数(たとえば、1日のニコチングラム数)に適用する方法がわかりません。

2
二分変数と連続変数の間の相関
私は二分変数と連続変数の間の相関関係を見つけようとしています。 これに関する私の最初の作業から、私は独立したt検定を使用する必要があることを発見しました。その前提条件は、変数の分布が正規でなければならないことです。 正規性をテストするためにKolmogorov-Smirnov検定を実行したところ、連続変数が非正規であり、歪んでいることがわかりました(約4,000データポイント)。 変数の範囲全体に対してコルモゴロフ・スミルノフ検定を行いました。それらをグループに分割してテストを実行する必要がありますか?つまり、私がrisk level(0=危険ではない、1=危険)とコレステロール値を持っている場合、次のことを行う必要があります: それらを次のように2つのグループに分けます。 Risk level =0 (Cholestrol level) -> Apply KS Risk level =1 (Cholestrol level) -> Apply KS それらを一緒に取り、テストを適用しますか?(データセット全体でのみ実行しました。) その後、それでも正常でない場合はどうすればよいですか? 編集: 上記のシナリオは、私が自分の問題に提供しようとした説明にすぎません。1000を超える変数と約4000のサンプルを含むデータセットがあります。それらは本質的に連続的またはカテゴリー的です。私の仕事は、これらの変数に基づいて二分変数を予測することです(たぶんロジスティック回帰モデルを考え出す)。そのため、最初の調査には、二分変数と連続変数の相関関係を見つけることが含まれると考えました。 私は変数の分布がどのようになっているかを確認しようとしていたため、t検定を試みました。ここで私は問題として正常性を見つけました。コルモゴロフ-スミルノフ検定では、これらの変数のほとんどで有意値0.00が得られました。 ここで正常性を仮定する必要がありますか?これらの変数の歪度と尖度は、ほとんどすべての場合にデータが歪んでいる(> 0)ことも示しています。 以下の注記に従って、ポイントとバイセリアルの相関をさらに調査します。しかし、変数の分布についてはまだわかりません。

2
因子と連続共変量の間の相互作用をどのようにプロットしますか?
同じグラフに、連続予測子とカテゴリカルモデレーター間の相互作用をプロットしたいと思います。両方がカテゴリカル(因子相互作用)である場合の方法は知っていますが、一方が連続的​​でもう一方がカテゴリカルである場合の方法はわかりません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.