タグ付けされた質問 「discrete-data」

カウント可能なサンプルスペースがある分布から生成されたデータを指します。離散データタグは、名目(例:個人のサンプルにおける人種の分布)または序数(例:社会経済的ステータス)、または一連のイベントカウント(例:テキストのページのエラー数)。ただし、離散データは必ずしも整数である必要はありません。


5
離散変数と連続変数の両方を使用したデータセットのクラスタリング
10個の次元を持つデータセットXがあり、そのうち4個は離散値です。実際、これらの4つの離散変数は序数です。つまり、値が大きいほど意味が高い/良いことを意味します。 これらの離散変数のうち2つは、これらの変数のそれぞれについて、たとえば11から12の距離が5から6の距離と同じではないという意味でカテゴリです。必ずしも線形ではありません(実際、実際には定義されていません)。 私の質問は: 離散変数と連続変数の両方を含むこのデータセットに、一般的なクラスタリングアルゴリズム(たとえば、K-Means、次にGaussian Mixture(GMM))を適用することをお勧めしますか? そうでない場合: 離散変数を削除して、連続変数のみに焦点を合わせる必要がありますか? 連続データをより良く離散化し、離散データにクラスタリングアルゴリズムを使用する必要がありますか?

3
コルモゴロフ-スミルノフ検定は離散分布で有効ですか?
サンプルを比較し、それが何らかの離散的な分布として分布しているかどうかを確認しています。しかし、コルモゴロフ-スミルノフが適用されるかどうかは、私は不確かです。ウィキペディアはそうではないことを暗示しているようです。そうでない場合、サンプルの分布をどのようにテストできますか?

4
連続機能とカテゴリ機能の両方を使用した予測
予測モデリング手法の中には、連続予測変数を処理するように設計されているものもあれば、カテゴリ変数または離散変数を処理する方が優れているものもあります。もちろん、1つの型を別の型に変換する手法(離散化、ダミー変数など)があります。ただし、単純にフィーチャのタイプを変換せずに、両方のタイプの入力を同時に処理するように設計された予測モデリング手法はありますか?そうである場合、これらのモデリング手法は、より自然に適合するデータに対してよりうまく機能する傾向がありますか? 私が知っている最も近いものは、通常、決定木がうまく離散データを処理し、それらが必要とせず、連続的なデータを扱うことになりますアップフロント離散化を。ただし、これは私が探していたものとはまったく異なります。効果的に連続フィーチャ上の分割は、動的な離散化の一種にすぎません。 参考のために、関連する重複しない質問を次に示します。 連続変数を予測するとき、決定木分割はどのように実装する必要がありますか? カテゴリー予測因子と連続予測因子が混在している場合、重回帰を使用できますか? カテゴリデータを連続として扱うのは理にかなっていますか? 連続およびカテゴリー変数データ分析

1
離散データを使用したコルモゴロフ-スミルノフ:Rでのdgof :: ks.testの適切な使用とは?
初心者の質問: 2つの個別のデータセットが同じ分布に由来するかどうかをテストします。コルモゴロフ・スミルノフのテストが提案されました。 Conover(Practical Nonparametric Statistics、3d)は、コルモゴロフ-スミルノフ検定をこの目的に使用できると言っているようですが、その動作は離散分布で「保守的」であり、ここで何を意味するのかわかりません。 別の質問に対する DavidRのコメントは、「... KS統計に基づいてレベルα検定を作成することはできますが、シミュレーションなどによって重要な値を取得する他の方法を見つける必要があります。」 dgof Rパッケージ(article、cran)のks.test()のバージョンは、statsパッケージのks.test()のデフォルトバージョンにはない機能を追加します。とりわけ、dgof :: ks.testには次のパラメーターが含まれています。 simulate.p.value:離散適合度検定のみのために、モンテカルロシミュレーションによってp値を計算するかどうかを示す論理値。 Simulate.p.value = Tの目的は、DavidRが提案することを達成することですか? たとえそうであっても、2サンプルテストにdgof :: ks.testを本当に使用できるかどうかはわかりません。連続分布に対して2サンプルのテストのみを提供しているように見えます。 yが数値の場合、xとyが同じ連続分布から引き出されたという帰無仮説の2標本検定が実行されます。 または、yは連続(累積)分布関数(またはそのような関数)を指定する文字列、または離散分布を与えるecdf関数(またはクラスstepfunのオブジェクト)にすることができます。これらの場合、1サンプルテストは、xを生成した分布関数が分布y ...であるというヌルから実行されます。 (背景の詳細​​:厳密に言えば、基礎となる分布は連続的ですが、データは少数のポイントに非常に近い傾向があります。各ポイントはシミュレーションの結果であり、-1から10までの実数の平均です。 1.シミュレーションの終わりまでに、これらの数値はほぼ常に.9または-.9に非常に近いため、平均値はいくつかの値に集中し、それらを離散として扱います。シミュレーションは複雑で、データが既知の分布に従うと考える理由。) 助言?

2
この離散分布には名前がありますか?
この離散分布には名前がありますか?以下のためのi∈1...Ni∈1...Ni \in 1...N f(i)=1N∑Nj=i1jf(i)=1N∑j=iN1jf(i) = \frac{1}{N} \sum_{j = i}^N \frac{1}{j} この分布に出くわしたのは次のとおりです。ユーティリティ機能によってランク付けされたアイテムのリストがあります。リストの先頭にバイアスをかけながら、アイテムの1つをランダムに選択します。そこで、最初に1とNの間のインデックスjを一様に選択します。次に、インデックス1とjの間のアイテムを選択します。このプロセスにより上記の分布が得られると思います。NNNjjjNNNjjj

1
ワンホットエンコーディングを使用するときに列の1つを削除する
私の理解では、機械学習では、データセットに高度に相関する特徴がある場合、同じ情報を効果的にエンコードするため、問題になる可能性があります。 最近、誰かが、カテゴリー変数でワンホットエンコーディングを行うと、相関する機能になるため、そのうちの1つを「参照」として削除する必要があると指摘しました。 たとえば、性別を2つの変数としてエンコードするis_maleとis_female、は完全に負の相関関係にある2つの特徴を生成するため、そのうちの1つを使用し、効果的にベースラインを男性に設定してから、予測アルゴリズムでis_female列が重要かどうかを確認することを提案しました。 それは理にかなっていますが、これが事実である可能性を示唆するオンラインは見つかりませんでしたので、これは間違っているのですか、何か不足していますか? 可能性のある(未回答の)重複:ワンホットエンコードフィーチャの共線性はSVMとLogRegにとって重要ですか?

2
ダミー機能(およびその他の離散/カテゴリ機能)による異常検出
tl; dr discrete異常検出を実行するときにデータを処理する推奨方法は何ですか? categorical異常検出を実行するときにデータを処理する推奨方法は何ですか? この答えは、離散データを使用して結果をフィルタリングすることを示唆しています。 おそらく、カテゴリの値を観測の割合で置き換えますか? イントロ ここに初めて投稿するので、フォーマットや正しい定義の使用のいずれかが技術的に正しくないと思われる場合は、代わりに何を使用すべきかを知りたいと思います。 今後。 私は最近、Andrew NgによるMachine Learningクラスに参加しています 異常検出については、データセット内の特定の特徴/変数に対する正規/ガウス分布パラメーターが何であるかを判断し、それからトレーニング例/観測値の選択されたセットの確率を判断するように教えられました特定のガウス分布、および特徴の確率の積を取得します。xixi{x_i} 方法 問題のアクティビティを説明すると思われる機能/変数を選択します: \ {x_1、x_2、\ dots、x_i \}xixix_i{x1,x2,…,xi}{x1,x2,…,xi}\{x_1, x_2,\dots,x_i\} 各フィーチャのガウスのパラメーターを近似します。 \ mu_j = \ frac {1} {m} \ sum_ {i = 1} ^ m x_j ^ {(i)} μj=1m∑i=1mx(i)jμj=1m∑i=1mxj(i)\mu_j = \frac{1}{m}\sum_{i = 1}^m x_j^{(i)} σ2=1m∑i=1m(x(i)j−μj)2σ2=1m∑i=1m(xj(i)−μj)2\sigma^2 = \frac{1}{m}\sum_{i = 1}^m (x_j^{(i)} …

1
離散時間生存分析に関する基本的な質問
ロジスティック回帰モデルを使用して離散時間生存分析を実行しようとしていますが、プロセスを完全に理解しているかどうかはわかりません。いくつかの基本的な質問に対する支援をいただければ幸いです。 設定は次のとおりです。 5年間の期間内にグループのメンバーシップを見ています。各メンバーには、メンバーがグループに属する月ごとにメンバーシップの月間記録があります。5年の期間中にメンバーシップを開始したすべてのメンバーを検討しています(以前に参加したメンバーとの「左検閲」問題を回避するため)。各レコードは時間によってインデックス付けされ、時間1はメンバーが参加した月です。したがって、2年半滞在しているメンバーには、1から30までの30の月間レコードがあります。各レコードには、メンバーシップの最後の月の値が1、それ以外の場合はゼロのバイナリ変数も与えられます。バイナリ変数の値1は、メンバーがグループを脱退したイベントをマークします。メンバーシップが5年間の分析期間を超えて継続する各メンバーについて、 したがって、ロジスティック回帰モデルは、バイナリイベント変数の値を予測するために構築されます。ここまでは順調ですね。バイナリ予測モデルを評価する一般的な方法の1つは、ホールドアウトサンプルのリフトを測定することです。メンバーシップ終了イベントを予測するために構築したロジスティック回帰モデルでは、イベントに対する非イベントの比率を5対1にしたホールドアウトデータセットのリフトを計算しました。予測値を十位にランク付けしました。最も高い予測値を持つ十分位数には70%が含まれ、4を超えるリフトがあります。結合された最初の2つのdecilesには、ホールドアウトのすべての60%が含まれます。特定の状況では、これはかなり適切な予測モデルと見なされますが、生存分析を実行するのに十分かどうかは疑問です。 してみましょう、個々のハザード関数であるヶ月で、とlet、個々の確率もヶ月を通じて存続。h[j,k]h[j,k]h[j,k]jjjkkkS[j,k]S[j,k]S[j,k]jjjkkk 基本的な質問は次のとおりです。 離散ハザード関数は、各月の非生存(グループを離れる)の条件付き確率ですか?h[j,k]h[j,k]h[j,k] ハザード関数のロジスティック回帰モデル推定からの予測値はありますか?(つまり、は月個々のモデル予測値に等しいか、ハザード関数の推定値を取得するためにさらに何かする必要がありますか?)h[j,k]h[j,k]h[j,k]jjjkkk 個々の月qまでの生存確率は、1からまでのハザード関数を1から引いた積に等しい、つまり ?jjjqqqS[j,q]=(1−h[j,1])⋅(1−h[j,2])⋅…⋅(1−h[j,q])S[j,q]=(1−h[j,1])⋅(1−h[j,2])⋅…⋅(1−h[j,q])S[j,q] = (1 - h[j,1]) \cdot (1 - h[j,2]) \cdot \ldots \cdot (1 - h[j,q]) 各時間すべての個体わたるの平均値は、母集団全体の平均生存確率の合理的な推定値ですか?S[j,k]S[j,k]S[j,k]jjjkkk 人口全体のプロットは、月ごとの生存確率を月ごとのカプラン・マイヤーグラフに似せるべきですか? これらの質問のいずれかに対する答えが「いいえ」の場合、深刻な誤解があり、実際に何らかの支援/説明を使用できます。また、正確な生存プロファイルを作成するために、バイナリ予測モデルがどれほど優れている必要があるかについての経験則はありますか?

2
離散分布を適合させてデータをカウントする方法は?
次のカウントデータのヒストグラムがあります。そして、離散分布をそれに当てはめたいと思います。これについてどうすればいいかわかりません。 最初に離散分布、たとえば負の二項分布をヒストグラムに重ね合わせて、離散分布のパラメーターを取得し、Kolmogorov–Smirnov検定を実行してp値を確認する必要がありますか? この方法が正しいかどうかはわかりません。 このような問題に取り組む一般的な方法はありますか? これは、カウントデータの度数分布表です。私の問題では、ゼロ以外のカウントのみに焦点を合わせています。 Counts: 1 2 3 4 5 6 7 9 10 Frequency: 3875 2454 921 192 37 11 1 1 2 更新:質問したい:Rのfitdistr関数を使用して、データを近似するためのパラメーターを取得しました。 fitdistr(abc[abc != 0], "Poisson") lambda 1.68147852 (0.01497921) 次に、ヒストグラムの上にポアソン分布の確率質量関数をプロットします。 ただし、ポアソン分布はカウントデータのモデル化に失敗したようです。何か私にできることはありますか?

1
ハミルトニアンモンテカルロおよび離散パラメーター空間
私はちょうどスタンでモデルの構築を始めました。このツールに慣れるために、私はベイジアンデータ分析(第2版)のいくつかの演習を行っています。ウォーターバック運動想定し、そのデータと、(N 、θ )は不明。ハミルトニアンモンテカルロは離散パラメーターを許可しないため、Nを実ε [ 72 、∞ )として宣言し、関数を使用して実数値の二項分布をコード化しました。n∼binomial(N,θ)n∼binomial(N,θ)n \sim \text{binomial}(N, \theta)(N,θ)(N,θ)(N, \theta)NNN∈[72,∞)∈[72,∞)\in [72, \infty)lbeta 結果のヒストグラムは、事後密度を直接計算して見つけたものとほぼ同じに見えます。ただし、これらの結果を一般的に信頼してはいけない微妙な理由があるのではないかと心配しています。の実数値推論は非整数値に正の確率を割り当てるため、実際には分数ウォーターバックは存在しないため、これらの値は不可能であることがわかります。一方、結果は良好であるように見えるため、この場合、単純化は推論に影響を与えないように見えます。NNN この方法でモデリングするための指針や経験則はありますか?それとも、個別のパラメーターを実際の悪い慣行に「促進」するこの方法はありますか?

3
多変量ベルヌーリ分布の確率式
Iはn変量ベルヌーイ分布のイベントの確率の式が必要所与とP (X iは = 1 )= P I単一の要素および要素のペアの確率P (XをI = 1 ∧ X J = 1 )= P I 、J。同様に、Xの平均と共分散を与えることができます。X∈{0,1}nX∈{0,1}nX\in\{0,1\}^nP(Xi=1)=piP(Xi=1)=piP(X_i=1)=p_iP(Xi=1∧Xj=1)=pijP(Xi=1∧Xj=1)=pijP(X_i=1 \wedge X_j=1)=p_{ij}XXX 私はすでに多く存在することを知っ、所与の平均および共分散を有する多くのディストリビューションが存在する同じような特性を有する分布。私は、上の正規のいずれかの楽しみにしている{ 0 、1 } nはガウスの正規分布であると同様に、R nは、与えられた平均と共分散。{0,1}n{0,1}n\{0,1\}^n{0,1}n{0,1}n\{0,1\}^nRnRnR^n

3
離散確率変数のプロパティ
私の統計コースは、離散確率変数には有限数のオプションがあることを教えてくれました...私はそれを実現していませんでした。整数のセットのように、それは無限かもしれないと私は思ったでしょう。大学のコースのいくつかを含むいくつかのWebページをグーグルで調べて確認したところ、これを具体的に確認できませんでした。しかし、ほとんどのサイトは離散確率変数は数えられると言います-それは有限数を意味すると思いますか? (ほとんど?)がしばしば境界されていても、連続確率変数が無限であることは明らかです。 しかし、離散確率変数に有限の可能性がある場合、整数の無限分布とは何でしょうか。それは離散的でも連続的でもありませんか?変数は連続&(定義により)無限または不連続&有限のいずれかの傾向があるため、問題は疑わしいですか?

2
与えられた応答変数に関する最適なビニング
与えられた応答(ターゲット)バイナリ変数に関して、パラメーターとして間隔の最大数を持つ連続変数の最適なビニング方法(離散化)を探しています。 例:「height」(数値連続)および「has_back_pains」(バイナリ)変数を持つ人々の一連の観察結果があります。高さを最大3つの間隔(グループ)に離散化して、背中の痛みを持つ人々の比率を変えて、アルゴリズムがグループ間の差を最大化するようにします(たとえば、各間隔には少なくともx個の観測値があるという制限があります)。 この問題の明らかな解決策は、決定木(単純な1変数モデル)を使用することですが、Rで「最大分岐数」をパラメーターとして持つ関数を見つけることができません。それらすべてが変数を分割します。 2 gropus(<= x and> x)に。SASマイナーには「最大ブランチ」パラメーターがありますが、私は非商用ソリューションを探しています。 一部の変数には一意の値がわずかしかありません(離散変数として扱うこともできます)が、それらを同様に少数の間隔に離散化したいと考えています。 私の問題に最も近い解決策は、Rのsmbinningパッケージ(パーティパッケージのctree関数に依存)に実装されていますが、2つの欠点があります。間隔の数を設定することはできません(ただし、変更することで回避策を見つけることができます) pパラメータ)。データベクトルの一意の値が10未満の場合は機能しません。とにかく、ここで出力例を見ることができます(カットポイントとオッズ列は重要です): Cutpoint CntRec CntGood CntBad CntCumRec CntCumGood CntCumBad PctRec BadRate Odds LnOdds WoE IV 1 <= 272 9081 169 8912 9081 169 8912 0.1874 0.9814 0.0190 -3.9653 -0.6527 0.0596 2 <= 311 8541 246 8295 17622 415 17207 0.1762 0.9712 …

2
この離散分布(再帰的差分方程式)の名前は何ですか?
コンピューターゲームでこのディストリビューションに出会い、その動作についてもっと知りたいと思いました。これは、特定の数のプレーヤーアクションの後に特定のイベントを発生させるかどうかの決定に基づいています。これ以上の詳細は関係ありません。他の状況にも当てはまるようですが、計算が簡単でロングテールがつくので面白かったです。 ステップごとに、ゲームは均一な乱数ます。場合、その後、イベントがトリガされます。イベントが一度発生すると、ゲームはリセットされ、シーケンスを再度実行します。この問題のイベントの1つの発生にのみ興味があります。これは、ゲームが使用しているディストリビューションを表しているためです。(また、複数の発生に関する質問は、単一の発生モデルで回答できます。)0 ≤ X &lt; 1 、X &lt; P (N )N = 0nnn0≤X&lt;10≤X&lt;10 \leq X < 1X&lt;p(n)X&lt;p(n)X < p(n)n=0n=0n = 0 ここでの主な「異常」は、この分布の確率パラメーターが時間の経過とともに増加するか、言い換えれば、しきい値が時間の経過とともに増加することです。この例では直線的に変化しますが、他のルールを適用できると思います。ステップまたはユーザーによるアクションの後、nnn p(n)=knp(n)=kn p(n) = kn ある定数。ある点、p(n _ {\ max})\ geq 1が得られます。イベントはそのステップで発生することが保証されているだけです。0&lt;k&lt;10&lt;k&lt;10 < k < 1nmaxnmaxn_{\max} p(nmax)≥1p(nmax)≥1p(n_{\max}) \geq 1 私はそれを決定することができました F (n )= p (n )+ F (n - 1 …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.