タグ付けされた質問 「discrete-data」

カウント可能なサンプルスペースがある分布から生成されたデータを指します。離散データタグは、名目(例:個人のサンプルにおける人種の分布)または序数(例:社会経済的ステータス)、または一連のイベントカウント(例:テキストのページのエラー数)。ただし、離散データは必ずしも整数である必要はありません。

1
連続分布からのデータの最適な離散化の決定
あなたは、データセットがあると濃度と連続分布からP (Y )上に支持され、[ 0 、1 ]知られていないが、n個のカーネル密度ので、(例えば) 推定値はかなり大きく、P(Y )、かなり正確です。特定のアプリケーションのために私は、新しいデータセット生成するカテゴリの有限数に観測されたデータを変換する必要がZ 1を、。。。、Z nY1,...,YnY1,...,YnY_{1}, ..., Y_{n}p(y)p(y)p(y)[0,1][0,1][0,1]nnnp^(y)p^(y)\hat{p}(y)Z1,...,ZnZ1,...,ZnZ_{1}, ..., Z_{n}暗黙の質量関数ます。g(z)g(z)g(z) 簡単な例は次のようになりときにY I ≤ 1 / 2及びZは、iが = 1ときY I > 1 / 2。この場合、誘導される質量関数はZi=0Zi=0Z_{i} = 0Yi≤1/2Yi≤1/2Y_{i} \leq 1/2Zi=1Zi=1Z_{i} = 1Yi>1/2Yi>1/2Y_{i} > 1/2 g^(0)=∫1/20p^(y)dy, g^(1)=∫11/2p^(y)dyg^(0)=∫01/2p^(y)dy, g^(1)=∫1/21p^(y)dy \hat{g}(0) = \int_{0}^{1/2} \hat{p}(y) dy, \ \ \ \hat{g}(1) = \int_{1/2}^{1} \hat{p}(y)dy …

3
二変量二項分布を可視化する
質問: 3次元空間では2変量2項分布はどのように見えますか? 以下は、パラメーターのさまざまな値について視覚化したい特定の関数です。つまり、、p 1、およびp 2です。nnnp1p1p_{1}p2p2p_{2} f(x1,x2)=n!x1!x2!px11px22,x1+x2=n,p1+p2=1.f(x1,x2)=n!x1!x2!p1x1p2x2,x1+x2=n,p1+p2=1.f(x_{1},x_{2}) = \frac{n!}{x_{1}!x_{2}!}p_{1}^{x_{1}}p_{2}^{x_{2}}, \qquad x_{1}+x_{2}=n, \quad p_{1}+p_{2}=1. 2つの制約があることに注意してください。およびp 1 + p 2 = 1です。さらに、nは正の整数、たとえば5です。x1+x2=nx1+x2=nx_{1}+x_{2}=np1+p2=1p1+p2=1p_{1}+p_{2}=1nnn555 LaTeX(TikZ / PGFPLOTS)を使用して関数をプロットする試みが2回行われました。そうすることで、、p 1 = 0.1とp 2 = 0.9、およびn = 5、p 1 = 0.4とp 2 = 0.6の値について、以下のグラフを取得します。ドメイン値に制約を実装することに成功していません。x 1 + x 2 = nなので、少し困惑しています。n=5n=5n=5p1=0.1p1=0.1p_{1}=0.1p2=0.9p2=0.9p_{2}=0.9n=5n=5n=5p1=0.4p1=0.4p_{1}=0.4p2=0.6p2=0.6p_{2}=0.6x1+x2=nx1+x2=nx_{1}+x_{2}=n 任意の言語(R、MATLABなど)で作成された視覚化は問題ありませんが、私はTikZ / PGFPLOTSを使用してLaTeXで作業しています。 最初の試み 、 p 1 = …


2
並べ替えられたリストの分布
アイテムの順序付きリストがあるとしましょう [a, b, c, ... x, y, z, ...] 上記のリストでサポートされている、いくつかのパラメータalphaによって管理されているディストリビューションのファミリーを探しています。 alpha = 0の場合、最初のアイテムaに確率1を割り当て、残りに確率0を割り当てます。つまり、このリストからサンプルを抽出すると、置換すると常にが得られaます。 アルファが増加するにつれて、〜指数関数的減衰に従って、リストの順序を尊重しながら、リストの残りの部分にますます高い確率を割り当てます。 alpha = 1の場合、リスト内のすべてのアイテムに等しい確率を割り当てるため、リストからのサンプリングはその順序を無視するのと同じです。 これは幾何学的分布とよく似ていますが、いくつかの顕著な違いがあります。 幾何分布分布は、すべての自然数に対して定義されます。上記の私の場合、リストのサイズは固定されています。 alpha = 0の場合、幾何分布は定義されていません。

2
順序付けられたクラスによる分類?
たとえば、人の画像を若い、中年、または古いのいずれかに割り当てる分類子をトレーニングしたいとします。 簡単な方法は、クラスを独立したカテゴリとして扱い、分類子をトレーニングすることです。しかし、どうやらクラス間にいくつかの関係があります。どうすればこれを利用してより良くなることができますか? 私は多分私にできることを考えてい 予測の損失増加と言う、損失を変更)1を若者として古いまたは古いとして若いです。 2)それを回帰問題に変換します。若い、中年、古いは0、1、2と表現されます。

4
urnの確率分布は、平均して置換せずにそこから引き出すと変化しますか?
urnにN個の異なる色のボールが含まれていて、それぞれの色が異なる回数表示される可能性があるとします(10個の赤いボールがある場合、10個の青いボールも必要ありません)。描画する前に骨壷の正確な内容がわかっている場合は、ボールの各色を描画する確率を示す離散確率分布を形成できます。私が平均的に骨壷から交換せずにk個のボールを描いた後に分布がどのように変化するのか私が思っているのは。骨壷から引き出したときに、何が取り出されたかという知識で分布を更新できることを理解していますが、知りたいのは、k個のボールを削除した後の分布の形状がどのようになると予想されるかです。分布は平均的に変化しますか、それとも同じままですか?それが変わらない場合、k回のドローを行った後、新しい分布が平均的にどのように見えると期待できるかについて、いくつかの式を書き留めることができますか?

1
どのように見つけ、と連続変数のための最適な離散化を評価するために、
連続変数とバイナリターゲット変数(0と1)を含むデータセットがあります。 (ロジスティック回帰の)連続変数をターゲット変数に関して離散化する必要があります。また、各区間での観測頻度のバランスをとるように制約されています。Chi Mergeのような機械学習アルゴリズム、決定木を試しました。Chiマージにより、各間隔で非常に不均衡な数の間隔が得られました(3つの観測値を持つ間隔と1000の別の間隔)。決定木は解釈が困難でした。 最適な離散化では、離散化された変数とターゲット変数の間の統計が最大化され、ほぼ同じ量の観測を含む間隔が必要であるという結論に達しました。χ2χ2\chi^2 これを解決するためのアルゴリズムはありますか? これはRでは次のようになります(defはターゲット変数、xは離散化される変数です)。私はTschuprowの計算ので、変換され、ターゲット変数間の「相関性」を評価するために、χ 2統計は間隔の数に伴って増加する傾向にあります。これが正しい方法かどうかはわかりません。TTTχ2χ2\chi^2 TTT chitest <- function(x){ interv <- cut(x, c(0, 1.6,1.9, 2.3, 2.9, max(x)), include.lowest = TRUE) X2 <- chisq.test(df.train$def,as.numeric(interv))$statistic #Tschuprow Tschup <- sqrt((X2)/(nrow(df.train)*sqrt((6-1)*(2-1)))) print(list(Chi2=X2,freq=table(interv),def=sum.def,Tschuprow=Tschup)) }

1
離散データとPCAの代替
私は、昆虫の密接に関連するいくつかの種の形態学的翼の特徴を説明する離散(順序、メリット、および名目)変数のデータセットを持っています。私が期待しているのは、形態学的特徴に基づいて、さまざまな種の類似性を視覚的に示すような分析を行うことです。最初に頭に浮かんだのはPCA(これは私が作成しようとしている視覚化の種類です)ですが、それを調べた後(特に、次のような他の質問:主成分分析を連続の混合を含むデータセットに適用できますか?)とカテゴリ変数?)、PCAは離散データには不適切である可能性があります(PCAはこれらのタイプの研究で文献で使用されていますが、常に連続データを使用しています)。このデータが不適切である理由の統計的背景を無視すると、PCAは私の生物学的質問に関して比較的完璧な結果を私に与えます(興味のあるハイブリッドグループは父方のグループの真ん中にあります)。 私はまた、統計を緩和するために複数のコレスポンデンス分析を試しました(少なくとも私の理解の限りでは)が、PCAで得られるプロットに似ているプロットを取得できないようです。異なるグループ(生物学的に言えば、異なる種)を示すために、色で区切られています。この分析は、個々の観察ではなく、変数(ここでは、私の形態学的特性)が互いにどのように関連しているかを説明することを目的としているようです。また、グループごとに色分けした観測をプロットすると、個人のセット全体を表す単一の値(おそらく平均)しか得られません。私はRで分析を行ったので、プロットについてのアイデアを機能させるのに十分なほどRに精通していないかもしれません。 私のデータでこの種の分析を試すのは正しいですか、それとも私は順調ですか?わからない場合は、私の統計的な専門知識は限られているので、これらの分析の下で行われている方程式はすべて私の頭の中にあります。私はこの分析を完全に記述的に実行しようとしています(これ以上ダウンストリームの数値計算を行う必要はありません)。これが当てはまる場合は、PCAで十分ですが、確実に確認したいと思います。あまりにも多くの統計的仮定に違反しています。

2
サブセットの分布?
整数サブセットに何らかの種類の標準分布があるかどうか疑問に思っています。同様に、これをバイナリ結果の長ベクトルの分布として表すことができます。たとえば、場合、はベクトル対応します。{1,2,...,J}{1,2,...,J}\{1, 2, ..., J\}JJJJ=5J=5J = 5{1,3,5}{1,3,5}\{1, 3, 5\}(1,0,1,0,1)(1,0,1,0,1)(1, 0, 1, 0, 1) 理想的には、私が探しているのは、2つのバイナリベクトルとが同様の方法で質量を分布する、有限次元パラメータによってインデックスが付けられたファミリからの分布。それらが「近い」場合の確率、つまりとは同様の確率を持ちます。実際、私が希望することは、がかなり大きいことがわかっている場合、がから遠く離れたベクトルに比べておそらく大きくなるように、事前に設定することです。νθ(⋅)νθ(⋅)\nu_\theta (\cdot)θθ\thetar1r1r_1r2r2r_2r1=(0,0,1,0,1)r1=(0,0,1,0,1)r_1 = (0, 0, 1, 0, 1)r2=(0,0,1,1,1)r2=(0,0,1,1,1)r_2 = (0, 0, 1, 1, 1)θθ\thetaνθ(r1)νθ(r1)\nu_\theta (r_1)νθ(r2)νθ(r2)\nu_\theta (r_2)r1r1r_1 頭に浮かぶ1つの戦略は、上のメトリックまたは分散液のいくつかの他の尺度を置くことであろうの、次に取る、または類似したもの。明示的な例は、正規分布と同様にになります。それは問題ありませんが、ベイジアン分析に適した標準的なものがあることを願っています。これでは、正規化定数を書き留めることはできません。dθdθd_\theta{0,1}J{0,1}J\{0, 1\}^Jνθ(r)∝exp(−dθ(r,μ))νθ(r)∝exp⁡(−dθ(r,μ))\nu_\theta (r) \propto \exp (-d_\theta (r, \mu))exp{−∥r−μ∥2/(2σ2)}exp⁡{−‖r−μ‖2/(2σ2)}\exp\left\{-\|r - \mu\|^2 / (2 \sigma^2)\right\}

1
離散関数:信頼区間カバレッジ?
離散間隔カバレッジを計算する方法は? 私が行う方法を知っています: 連続モデルがある場合、予測値ごとに95%の信頼区間を定義し、実際の値が信頼区間内にある頻度を確認できます。私の95%の信頼区間が実際の値をカバーしていたのは、88%の時間だけであることがわかります。 私がどうすればいいかわからない: poissonやgamma-poissonなどの離散モデルでこれを行うにはどうすればよいですか?このモデルで私が持っているのは次のとおりです。単一の観測を行います(生成する予定の100,000以上のうち:)。 観察番号:(任意) 予測値:1.5 0の予測確率:.223 1の予測確率:.335 2の予測確率:.251 3の予測確率:.126 4の予測確率:.048 5の予測確率:.014 [および5以上は.019] ...(等) 100の予測確率(またはその他の非現実的な数値):.000 実際の値( "4"などの整数) 上記のポアソン値を指定しましたが、実際のモデルでは、予測値1.5は、観測ごとに0、1、... 100の異なる予測確率を持つ可能性があることに注意してください。 値の離散性に混乱しています。"5"は明らかに95%間隔の外にあります。これは、0.019が5以上で、0.025未満であるためです。しかし、4はたくさんあります-個別に4つありますが、4の数をより適切に共同で評価するにはどうすればよいですか? なぜ気にするのですか? 私が調べているモデルは、集計レベルでは正確であるが、個々の予測が不十分であると批判されています。貧弱な個々の予測が、モデルによって予測された本質的に広い信頼区間よりもはるかに悪いことを知りたいです。経験的なカバレッジが悪化することを期待しています(たとえば、値の88%が95%の信頼区間内にあることがわかるかもしれません)が、少しだけ悪くなることを願っています。

1
十分な統計を完了する
最近、統計的推論の研究を始めました。私はさまざまな問題に取り組んできましたが、これは完全に困惑しています。 ましょうX1,…,XnX1,…,XnX_1,\dots,X_nその確率で割り当てる離散分布からのランダムサンプルである1313\frac{1}{3}値はθ−1, θ, or θ+1θ−1, θ, or θ+1\theta-1,\space\theta,\space\text{or}\space\theta+1、θθ\theta整数です。完全に十分な統計が存在しないことを示します。 何か案は?

3
SVDを実行して欠損値を代入する方法、具体例
SVDを適用する前に欠損値を処理する方法に関する素晴らしいコメントを読みましたが、簡単な例でどのように機能するか知りたいです。 Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 上記のマトリックスを考えると、NAの値を削除すると、User2とUser5しかなくなります。これは、私のUが2×kになることを意味します。しかし、欠損値を予測する場合、Uは5×kである必要があります。これは、特異値とVで乗算できます。 上記のマトリックスで、最初に欠損値のあるユーザーを削除してからSVDを適用して、欠損値を記入する人はいますか?数学記号を使いすぎずに、適用した手順の非常に簡単な説明を提供し、答えを実用的なものにしてください(つまり、数値に別の数値を掛けると答えが得られます)。 次のリンクを読みました。 stats.stackexchange.com/q/33142 stats.stackexchange.com/q/31096 stats.stackexchange.com/q/33103
8 r  missing-data  data-imputation  svd  sampling  matlab  mcmc  importance-sampling  predictive-models  prediction  algorithms  graphical-model  graph-theory  r  regression  regression-coefficients  r-squared  r  regression  modeling  confounding  residuals  fitting  glmm  zero-inflation  overdispersion  optimization  curve-fitting  regression  time-series  order-statistics  bayesian  prior  uninformative-prior  probability  discrete-data  kolmogorov-smirnov  r  data-visualization  histogram  dimensionality-reduction  classification  clustering  accuracy  semi-supervised  labeling  state-space-models  t-test  biostatistics  paired-comparisons  paired-data  bioinformatics  regression  logistic  multiple-regression  mixed-model  random-effects-model  neural-networks  error-propagation  numerical-integration  time-series  missing-data  data-imputation  probability  self-study  combinatorics  survival  cox-model  statistical-significance  wilcoxon-mann-whitney  hypothesis-testing  distributions  normal-distribution  variance  t-distribution  probability  simulation  random-walk  diffusion  hypothesis-testing  z-test  hypothesis-testing  data-transformation  lognormal  r  regression  agreement-statistics  classification  svm  mixed-model  non-independent  observational-study  goodness-of-fit  residuals  confirmatory-factor  neural-networks  deep-learning 


2
離散べき法則分布から正確に変量を生成する
べき法則に従って分布するランダムな整数を正確に生成するための最良の方法は何ですか?()を取得する確率はと等しく、メソッドはうまく機能するはずです。、K = 1 、2 、... PのK = K - γ / ζ (γ )γ > 1kkkk=1,2,…k=1,2,…k=1,2,\ldotspk=k−γ/ζ(γ)pk=k−γ/ζ(γ)p_k = k^{-\gamma} / \zeta(\gamma)γ>1γ>1\gamma > 1 私は2つの素朴なアプローチを見ることができます: 計算はいくつかの大規模までよう次いで、これらの確率に応じて整数を生成する、1に"十分に近い"です。が巨大である必要があるため、が1に近い場合、これは機能しません。K maxのΣのK maxの K = 1、γ k個の最大pkpkp_kkmaxkmaxk_\text{max}∑kmaxk=1∑k=1kmax\sum_{k=1}^{k_\text{max}}γγ\gammakmaxkmaxk_\text{max} 連続するべき乗則の分布(解く方法を知っている簡単な問題)から実数を引き出し、何らかの方法で整数に丸めます。上記の方法で各整数を取得する正確な確率を分析的に計算することが可能です。拒否を使用してこれらをに修正できます(関数を評価できる場合は、これも計算できます)。(これは、ある値よりも大きいに対してよりも高い確率で整数を取得し、それよりも小さいを個別に処理する方法でため、になります。) ζ P K K Kpkpkp_kζζ\zetapkpkp_kkkkkkk 正確でもある(概算ではない)より良い方法はありますか?

2
離散確率変数に基づくテストの保守性
離散検定統計の場合、対応する値の分布は離散的であり、一様分布よりも確率的に大きくなります。したがって、p値に基づく対応する仮説検定(たとえば、p値が0.05未満の場合は拒否)は、タイプIのエラーが発生する確率が0.05未満になるという意味で常に保守的です。mid-pvalueを使用することが推奨されることもあります。しかし、mid-pvalueを使用してもType Iエラーが制御されるという証拠はないと思います。保守性を減らす他の方法はありますか?この分野に精通している人は、これに関するいくつかのヒントや既存の文献を指摘できますか?ppp

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.