タグ付けされた質問 「binary-data」

バイナリ変数は、通常「0」と「1」としてコード化された2つの値のいずれかを取ります。

3
バイナリ時系列
バイナリタイムシリーズがあります。90日間で1時間のデータが2160(0 =発生しなかった、1 =発生した)です。 次の1が発生するこれらの90日後に予測し、このプロビジョニングを次の1か月間延長します。

1
カテゴリーデータを使用して、参加者ごとに複数の測定を処理するにはどうすればよいですか?
多くの参加者から測定値を収集する実験を行いました。関連する各データポイントには2つの変数があり、どちらもカテゴリ型です。実際、各変数には2つの可能な値があります(2つのはい/いいえの質問に対する答え)。統計的仮説検定で、これら2つの変数間に相関があるように見えるかどうかを確認してください。 参加者ごとに1つのデータポイントがある場合、結果として得られる分割表に対してフィッシャーの正確検定を使用できます。ただし、参加者ごとに複数のデータポイントがあります。したがって、単一の参加者からのデータポイントは独立していないため、フィッシャーの正確確率検定は適用可能ではないようです。たとえば、アリスから10個のデータポイントがある場合、それらはすべて同じ人物からのものであるため、おそらく独立していません。フィッシャーの正確確率検定では、すべてのデータポイントが独立してサンプリングされたと想定されているため、フィッシャーの正確確率検定の仮定は満たされておらず、この設定での使用は不適切です(統計的有意性の不当な報告が出る可能性があります)。2 × 22×22 \times 2 この状況を処理するテクニックはありますか? 私が検討したアプローチ: もっともらしい代替策の1つは、各参加者からのすべてのデータを1つの数値に集約してから、他の独立性テストを使用することです。たとえば、各参加者について、最初の質問に対するはいの回答の割合と2番目の質問に対するはいの回答の割合を数え、参加者ごとに2つの実数を与え、ピアソンの積率検定を使用して相関をテストできますこれら2つの数値の間。しかし、これが良いアプローチかどうかはわかりません。(たとえば、平均化/カウントがデータをスローし、集計のためにこれが能力を失う可能性があること、または集計後に依存の兆候が消えることがあることを心配しています。) 基礎となる変数が連続的である場合(実数など)と線形モデルが適切な場合に、この状況を処理することを目的としていると思われるマルチレベルモデルについて読みました。ただし、ここでは2つのカテゴリ変数(はい/いいえの質問に対する回答)があるため、ここでは適用されないようです。カテゴリカルデータに適用できる同等の手法はありますか? ウィキペディアで繰り返し測定のデザインについて少し読んだこともありますが、ウィキペディアの記事は縦断的研究に焦点を当てています。これはここでは当てはまらないように見えます。私がそれを正しく理解していれば、繰り返しの測定は時間の経過による影響に焦点を合わせているようです(時間の経過が変数に影響する場合)。しかし、私の場合、時間の経過が関連する影響を与えることはありません。私が誤解した場合は教えてください。 さらに振り返ってみると、私に起こる別のアプローチは、置換テストを使用することです。各参加者について、質問1への回答をランダムに並べ替え、質問2への回答を(独立して)ランダムに並べ替え、参加者ごとに異なる順列を使用できます。ただし、どの結果が観察された結果と「少なくとも極端」であるかを測定するために、ここではどのテスト統計が適切であるかは明確ではありません。 関連:各被験者ごとに複数のデータポイントを正しく処理する方法(ただし、カテゴリカルデータではなく、連続変数の線形モデルに焦点を当てています)、同じ患者で測定は独立していますか?(同じ)

1
バイナリの結果で長期データを視覚化する
数値の結果を持つ長期データの場合、スパゲッティプロットを使用してデータを視覚化できます。たとえば、次のようなもの(UCLA Statsサイトから取得): tolerance<-read.table("http://www.ats.ucla.edu/stat/r/faq/tolpp.csv",sep=",", header=T) head(tolerance, n=10) interaction.plot(tolerance$time, tolerance$id, tolerance$tolerance, xlab="time", ylab="Tolerance", legend=F) しかし、私の結果がバイナリ0または1の場合はどうなりますか?たとえば、Rの「ohio」データでは、バイナリの「resp」変数が呼吸器疾患の存在を示しています。 library(geepack) ohio2 <- ohio[2049:2148,] head(ohio2, n=12) resp id age smoke 2049 1 512 -2 1 2050 0 512 -1 1 2051 0 512 0 1 2052 0 512 1 1 2053 1 513 -2 1 2054 0 …

3
バイナリシーケンスでのクラスターの検出
私は次のようなバイナリシーケンスを持っています 11111011011110101100000000000100101011011111101111100000000000011010100000010000000011101111 以下の図のように、ほとんどが1のクラスターの後に多数のゼロが続きます(黒は1を表します)。 これらの1のクラスターを自動的に検出し、スパン(画像では赤い線で示されます)を生成できる手法(RまたはPythonが望ましい)を適用したいと思います。私はこれをしきい値で実行できることを知っています。つまり、2つのクラスターを少なくともn 0 で区切ってクラスターにする必要があると言いますが、事前定義されたしきい値を使用しない他の確立された方法があるのだろうかと思います。 何か案が?

4
ロジスティック回帰の柔軟なバージョン
私は、どちらかのグループ(70対10,000)のデータポイントの数に大きな違いがあるロジスティック回帰を適合させようとしています。私の統計学者の友人は、これはロジスティック回帰の既知の問題であり、そのような種類の数値ではデータをオーバーフィットし、基本的に機能しないことを教えてくれました。データをビニングしてモデルと比較すると、これが間違いなく事実であることは明らかです。 この種類のバイナリ応答データをフィッティングするためのより良い/より柔軟な方法を誰かが知っているのだろうか? (ちなみに私は統計家ではないので、気楽にやってください!)

1
単調な機械学習
バイナリ分類(教師あり学習)の問題があり、すべての機能がブール値であり、次のような工夫があります。分類子を学習したい f:{ 0 、1}ん→ { 0 、1 }f:{0、1}ん→{0、1}f:\{0,1\}^n \to \{0,1\}それはモノトーンです。つまり、機能のサブセットを0から1に変更しても、分類子の出力が1から0に変更されることはありません。 どうすればモノトーン分類器を学習できますか?標準的な分類方法を何らかの方法で適合させて、単調性制約を強制できますか? 単調なモデルを確実に学習できるようにロジスティック回帰を適応させる方法を見ることができます。各特徴の係数が非負であることを要求してから、制約付き最適化アルゴリズムを適用してモデルの係数を推測できます。他の教師あり学習スキーム(ランダムフォレスト、勾配ブースティング、ニューラルネットワークなど)を適応させるための合理的な方法はありますか?または、この状況に適した専用アルゴリズムはありますか? 残念ながら、標準のランダムフォレスト分類器を適用するだけでは、トレーニングセットが単調であっても保証されません(単調設定に由来し、ノイズや単調性の違反はありません)。明示的な例、つまり、ランダムフォレストが非単調分類器を学習する可能性がある単調トレーニングセットの例については、https://cs.stackexchange.com/q/69220/755を参照してください。それも同様に良いことです。これは、単調分類器を学習したい場合、さらに高度な手法が必要になる可能性があることを示唆しています。

2
多変量バイナリ応答-回帰戦略に関するアドバイス
次の状況にどのように取り組むかについてアドバイスをいただければ幸いです:カウント変数Xと4つのバイナリ変数A、B、C、Dがあります。カウント変数は独立変数です(これは、小児期の有害な経験の数を指します)とバイナリは従属変数です(それらは成人期の特定の有害な結果を指します)。データセット内の回答者は、A、AC、BCDなどの結果の任意の組み合わせを持つことができます。カウント変数Xと結果のA、B、C、Dの間の関連の強さを測定します。他の結果。 これにどのように取り組むのが最善かわかりません。変数の役割を逆転させ、カウント変数Xを結果として、ADを予測子として扱うことは正当化されますか?したがって、これは負の二項回帰になります(過剰分散があります)。このようにして、XとA(B、C…)間の関連付けは、他のバイナリ変数を一定に保持して推定されます。しかし、私は、以前に起こったことと後で起こることを予測しているので、論理的にそれは危険だと思われます。 または、代わりにMANOVAを使用する必要があります(ただし、結果の解釈が簡単ではないことをどこかで読んだことがあります)。 または、https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2798811/で提案されているように、一般化された線形混合モデル(これまでに試したことがない)を使用する必要があります。

2
バイナリ変数間のこの相関/関連測定の名前は何ですか?
とりわけ、2つのバイナリ確率変数と間の関連付け(または偶発性または相関)のいくつかの測定値があります。XXXYYY ピアソンのファイ係数 クラメルのV 以下の数は、統計的に興味深い場合、既知の測定値とどのように関係し、どのような名前で(おそらく)議論されているのでしょうか。κκ\kappa κ=1−2N|X△Y|κ=1−2N|X△Y|\kappa = 1 - \frac{2}{N}|X \triangle Y| プロパティまたはプロパティを持ち、両方を持たないサンプルの数(排他的OR、対称差)、サンプルの総数。ファイ係数と同様に、は完全な一致または不一致を示し、は関係がないことを示します|X△Y||X△Y||X \triangle Y|XXXYYYNNNκ=±1κ=±1\kappa = ± 1κ=0κ=0\kappa = 0
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.