タグ付けされた質問 「binary-data」

バイナリ変数は、通常「0」と「1」としてコード化された2つの値のいずれかを取ります。

9
2Dバイナリマトリックスのエントロピー/情報/パターンの測定
2次元バイナリマトリックスのエントロピー/情報密度/パターンらしさを測定したい。説明のためにいくつかの写真を見せてください: このディスプレイには、かなり高いエントロピーが必要です。 A) これには中程度のエントロピーが必要です: B) 最後に、これらの写真はすべてエントロピーがゼロに近いはずです。 C) D) E) エントロピー、それぞれをキャプチャするインデックスがあります。これらのディスプレイの「パターンらしさ」? もちろん、各アルゴリズム(たとえば、圧縮アルゴリズム、またはttnphnsによって提案された回転アルゴリズム)は、ディスプレイの他の機能に敏感です。次のプロパティをキャプチャしようとするアルゴリズムを探しています: 回転対称および軸対称 クラスタリングの量 繰り返し より複雑かもしれませんが、アルゴリズムは心理的な「ゲシュタルト原理」の特性に敏感である可能性があります。特に、 近接の法則: 対称性の法則:対称的な画像は、距離があっても集合的に知覚されます: これらのプロパティを持つディスプレイには、「低エントロピー値」が割り当てられます。かなりランダム/非構造化されたポイントを持つディスプレイには、「高いエントロピー値」が割り当てられます。 ほとんどの場合、単一のアルゴリズムでこれらの機能をすべてキャプチャすることはありません。したがって、一部の機能または単一の機能のみに対処するアルゴリズムの提案も大歓迎です。 具体的には、具体的な既存のアルゴリズム、または具体的な実装可能なアイデアを探しています(これらの基準に従って賞金を授与します)。

6
強く不均衡なクラスを持つバイナリ分類
私は(機能、バイナリ出力0または1)の形式のデータセットを持っていますが、1はほとんど発生しないため、常に0を予測するだけで、70%と90%の間の精度が得られます(見ている特定のデータに応じて)。MLメソッドは、ほぼ同じ精度を与えてくれます。この状況に適用する標準的なメソッドがいくつかあるべきだと思います。これにより、明白な予測ルールよりも精度が向上します。

4
分類確率のしきい値
一般的な分類に関する質問があります。fを分類器とし、データDが与えられた場合に確率のセットを出力します。通常、P(c | D)> 0.5の場合、クラス1を割り当てます。分類)。 私の質問は、もし私が見つけたら、確率を1として分類する場合、つまり0.2よりも大きい場合、分類器のパフォーマンスは向上するということです。分類を行うときにこの新しいしきい値を使用するのは正当ですか? 私は、より小さな信号を発するデータのコンテキストで、より低い分類の必要性を解釈します。まだ分​​類問題にとって重要です。 私はこれがそれを行う1つの方法であると認識していますが、これが正しい思考ではない場合、個々の機能を同様に強調し、しきい値を0.5に保つことができるデータ変換は何ですか?


3
PCAはブール(バイナリ)データ型で機能しますか?
高次システムの次元数を減らし、できれば2次元または1次元のフィールドで共分散の大部分をキャプチャしたいと思います。これは主成分分析で行えることを理解しており、多くのシナリオでPCAを使用しています。ただし、ブールデータ型で使用したことがないため、このセットを使用してPCAを実行するのが意味があるかどうか疑問に思っていました。たとえば、定性的または記述的なメトリックを持っているふりをし、そのディメンションに対してそのメトリックが有効な場合は「1」を割​​り当て、そうでない場合は「0」を割り当てます(バイナリデータ)。たとえば、白雪姫の七人の小人を比較しようとしているふりをします。我々は持っています: Doc、Dopey、Bashful、Grumpy、Sneezy、Sleepy、Happy、そしてあなたはそれらを品質に基づいて整理したいのです。 ⎛⎝⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜D o cD O P E YB a s h fU LG r u m p ySN 、E 、E 、ZySL E E p yHa p p yL a c t o S E I N T O L E R A n t1011011A HO N O R R …


1
順序データまたはバイナリデータの因子分析またはPCAはありますか?
主成分分析(PCA)、探索的因子分析(EFA)、および確認的因子分析(CFA)を完了し、リッカートスケール(5レベルの応答:なし、少し、いくつか、..)変数。次に、Lavaanを使用して、変数をカテゴリカルとして定義するCFAを繰り返しました。 データが通常の順序である場合、どのタイプの分析が適切で、PCAおよびEFAに相当するかを知りたいと思います。そして、バイナリのとき。 また、このような分析のために簡単に実装できる特定のパッケージまたはソフトウェアの提案も歓迎します。

2
クラスタリングでバイナリ変数と連続変数の両方を一緒に使用する方法は?
k-meansでバイナリ変数(値0および1)を使用する必要があります。ただし、k-meansは連続変数でのみ機能します。一部の人々は、k-meansが連続変数に対してのみ設計されているという事実を無視して、k-meansでこれらのバイナリ変数をまだ使用していることを知っています。これは私には受け入れられません。 質問: それでは、k-means /階層的クラスタリングでバイナリ変数を使用する統計的/数学的に正しい方法は何ですか? SAS / Rでソリューションを実装する方法は?

7
たとえば、性別が通常、1/2ではなく0/1にコーディングされるのはなぜですか?
データ分析のためのコーディングのロジックを理解しています。以下の私の質問は、特定のコードの使用に関するものです。 性別が女性の場合は0、男性の場合は1としてしばしばコード化される理由はありますか? このコーディングが「標準」と見なされるのはなぜですか? これを女性= 1および男性= 2と比較してください。このコーディングに問題はありますか?

5
バイナリ変数を標準化する必要がありますか?
一連の機能を備えたデータセットがあります。それらのいくつかはバイナリアクティブまたは起動、(1=(1=(1=0=0=0=非アクティブまたは休止)であり、残りはなどの実際の値。4564.3424564.3424564.342 私は私、機械学習アルゴリズムには、このデータを送りたいのすべての実数値の特徴-score。私はそれらを範囲と間で取得します。現在、バイナリ値もスコア化されているため、ゼロはなり、1はなり。zzz333−2−2-2zzz−0.222−0.222-0.2220.55550.55550.5555 このようなバイナリ変数の標準化は意味がありますか?

3
モデルの予測確率のキャリブレーションを視覚化する
各インスタンスについて、各クラスの確率を生成する予測モデルがあるとします。現在、これらの確率を分類(精度、リコールなど)に使用する場合、そのようなモデルを評価する方法はたくさんあることを認識しています。また、ROC曲線とその下の領域を使用して、モデルがクラスをどれだけ区別できるかを判断できることも認識しています。それらは私が尋ねているものではありません。 モデルのキャリブレーションを評価することに興味があります。 ブリアスコアのようなスコアリングルールは、このタスクに役立つことがわかっています。それは大丈夫です、そして、私はそれらの線に沿って何かを組み込む可能性が高いですが、私はそのようなメトリックが素人にとってどれほど直感的であるかわかりません。もっと視覚的なものを探しています。結果を解釈する人に、モデルが何かを予測したときに、実際に70%の確率で70%が発生する可能性があるかどうかを確認できるようにしてほしい QQプロットのことを聞いたことがありますが(使用したことはありません)、最初はこれが私が探しているものだと思いました。ただし、実際には2つの確率分布を比較することを目的としているようです。それは直接私が持っているものではありません。多数のインスタンスについて、予測された確率と、イベントが実際に発生したかどうかがわかります。 Index P(Heads) Actual Result 1 .4 Heads 2 .3 Tails 3 .7 Heads 4 .65 Tails ... ... ... QQプロットは本当に欲しいものですか、それとも何か他のものを探していますか?QQプロットを使用する必要がある場合、データを確率分布に変換する正しい方法は何ですか? 予測された確率で両方の列を並べ替えて、いくつかのビンを作成できると思います。それは私がやるべきことのタイプですか、それとも私はどこかで考えていますか?私はさまざまな離散化手法に精通していますが、この種の標準的なビンに離散化する特定の方法はありますか?

3
バイナリ変数と連続変数間のランダム相関データを生成します
2つの変数を生成します。1つはバイナリの結果変数(成功/失敗など)で、もう1つは年数です。年齢と成功との間に正の相関関係が必要です。たとえば、年齢の低いセグメントよりも年齢の高いセグメントの方が成功するはずです。理想的には、相関の程度を制御できる立場にいる必要があります。それ、どうやったら出来るの? ありがとう

2
バイナリ行列のクラスタリング
次元250k x 100 のバイナリフィーチャの半小さなマトリックスがあります。各行はユーザーであり、列は、「likes_cats」などのユーザー動作のバイナリ「タグ」です。 user 1 2 3 4 5 ... ------------------------- A 1 0 1 0 1 B 0 1 0 1 0 C 1 0 0 1 0 ユーザーを5〜10個のクラスターに適合させ、負荷を分析して、ユーザーの行動のグループを解釈できるかどうかを確認します。バイナリデータにクラスターをフィッティングするためのアプローチはかなりあるように思われます-このデータに最適な戦略は何だと思いますか? PCA Jaccard Similarityマトリックスを作成し、階層クラスターを適合させてから、上位の「ノード」を使用します。 Kメディアン K-medoid プロキシマス? アグネス これまでのところ、階層的クラスタリングを使用することである程度の成功を収めてきましたが、それが最善の方法であるかどうかは確かではありません。 tags = read.csv("~/tags.csv") d = dist(tags, method = "binary") hc = …

2
バイナリデータの類似性係数:ラッセルとラオよりもジャカードを選択する理由
統計科学百科事典 Iは、与えられたことを理解し(変数)属性、我々は任意の二つのオブジェクトのための分割表を形成することができ;二値(0 =なし1 =本バイナリ)は、I及びJのサンプルを:ppp j 1 0 ------- 1 | a | b | i ------- 0 | c | d | ------- a = number of variables on which both objects i and j are 1 b = number of variables where object i is 1 and j is …

4
勾配ブースティングマシンの精度は、反復回数が増えると低下します
caretR のパッケージを介して勾配ブースティングマシンアルゴリズムを試しています。 小さな大学入学データセットを使用して、次のコードを実行しました。 library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.