統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

2
バイナリ結果の相対リスクを推定するポアソン回帰
簡単な要約 ポアソン回帰(相対リスク)に対して、ロジスティック回帰(オッズ比)がバイナリ結果のコホート研究で使用されるのはなぜ一般的ですか? バックグラウンド 私の経験では、学部生および大学院生の統計学および疫学コースは、一般に、リスク推定値をオッズ比として報告するバイナリ結果のデータのモデリングにロジスティック回帰を使用する必要があることを教えています。 ただし、ポアソン回帰(および関連:準ポアソン、負の二項分布など)を使用して、バイナリ結果のデータをモデル化することもでき、適切な方法(堅牢なサンドイッチ分散推定量など)を使用して、有効なリスク推定値と信頼レベルを提供します。例えば、 Greenland S.、一般的な結果の研究および症例対照研究における相対リスクおよび他の疫学的測定のモデルベースの推定、Am J Epidemiol。2004 8月15日; 160(4):301-5。 Zou G.、バイナリデータを使用した前向き研究への修正ポアソン回帰アプローチ、Am J Epidemiol。2004 4月1日; 159(7):702-6。 Zou GYおよびDonner A.、相関バイナリデータを使用したプロスペクティブ研究への修正ポアソン回帰モデルの拡張、Stat Methods Med Res。2011 11月8日。 ポアソン回帰から、相対リスクを報告することができます。これは、特に頻繁な結果、特に統計に強いバックグラウンドを持たない個人にとって、オッズ比と比較して解釈しやすいと主張する人もいます。Zhang J.とYu KF、相対的なリスクは?一般的な結果のコホート研究におけるオッズ比を修正する方法、JAMA。1998年11月18日; 280(19):1690-1。 医学文献を読むと、二値アウトカムのコホート研究の中で、ポアソン回帰の相対リスクよりもロジスティック回帰のオッズ比を報告するのがはるかに一般的であると思われます。 ご質問 バイナリ結果のコホート研究の場合: ポアソン回帰の相対リスクではなく、ロジスティック回帰のオッズ比を報告する正当な理由はありますか? そうでない場合、医学文献の相対リスクを伴うポアソン回帰の頻度は、主に科学者、臨床医、統計学者、および疫学者の間の方法論と実践の間の遅れに起因する可能性がありますか? 中間統計と疫学のコースには、バイナリ結果のポアソン回帰の詳細な議論を含めるべきですか? 学生や同僚に、適切な場合にロジスティック回帰よりもポアソン回帰を考慮するように勧めるべきですか?

5
機械学習は因果関係の理解にはあまり役に立たないので、社会科学にはあまり興味がありませんか?
機械学習/その他の統計的予測手法と社会科学者(例:エコノミスト)が使用する統計の種類の違いについての私の理解は、エコノミストが単一または複数の変数の効果を理解することに非常に興味を持っているように見えることです。大きさと関係が因果関係であるかどうかの検出。このため、あなたは実験的および準実験的方法などで自分自身に関わることになります。 予測的である機械学習または統計モデリングは、この側面をしばしば完全に無視し、多くの場合、1つの変数が結果に影響する特定の程度を与えません(ロジットとプロビットは両方を行うようです)。 関連する質問は、新しいドメインを予測する際に、理論的に示唆された経済モデルまたは行動モデルが理論モデルよりもどの程度有利であるかということです。機械学習または予測指向の統計学者は、経済モデルがなければ、共変量が非常に異なる新しいサンプルを正しく予測することはできないという批判に対して何を言うでしょうか。 あらゆる観点からこれについての人々の意見を聞いて本当にうれしいです。

3
PCAの目的関数は何ですか?
主成分分析は行列分解を使用できますが、それはそこに到達するための単なるツールです。 行列代数を使用せずに主成分をどのように見つけますか? 目的関数(目標)とは何ですか?また、制約は何ですか?
42 pca 

2
ベルヌーイサンプリングの信頼区間
ベルヌーイ確率変数ランダムサンプルがありますで、はiidrvで、で、は不明なパラメーターです。X i P (X i = 1 )= p pX1...XNX1...XNX_1 ... X_NXiXiX_iP(Xi=1)=pP(Xi=1)=pP(X_i = 1) = pppp 明らかに、一つの推定値を見つけることができ:。P:= (X 1 + ⋯ + X N)/ Npppp^:=(X1+⋯+XN)/Np^:=(X1+⋯+XN)/N\hat{p}:=(X_1+\dots+X_N)/N 私の質問は、信頼区間をどのように構築できますか?ppp

5
ロジスティック回帰係数の重要性は何ですか?
現在、2000年と2004年の選挙における投票場所と投票の選好に関する論文を読んでいます。その中には、ロジスティック回帰係数を表示するチャートがあります。数年前のコースから少し読んで、ロジスティック回帰は、複数の独立変数とバイナリ応答変数の間の関係を記述する方法であると理解しています。私が混乱しているのは、以下の表にあるように、南部のロジスティック回帰係数が.903であるため、南部人の90.3%が共和党に投票するということですか?メトリックのロジスティックな性質のため、この直接的な相関関係は存在しません。その代わり、0.903の南は、.506の回帰で、Mountains / plainsよりも共和党に票を投じているとしか言えないと思います。後者の場合、重要なものとそうでないものをどのように知ることができますか?また、このロジスティック回帰係数を与えられた共和党の投票の割合を推定することは可能ですか? サイドノートとして、間違って記載されている場合は投稿を編集してください

8
重み付けされたソーシャルネットワーク/グラフでコミュニティを検出する方法
重みのある無向のエッジを持つグラフでコミュニティ検出/グラフ分割/クラスタリングを実行することに関して、誰かが良い出発点を提案できるかどうか疑問に思っています。問題のグラフには約300万のエッジがあり、各エッジは接続する2つの頂点間の類似度を表します。特に、このデータセットでは、エッジは個人であり、頂点は観測された動作の類似性の尺度です。 過去に私はstats.stackexchange.comでここに着いた提案に従い、Newmanのモジュール性クラスタリングのigraphの実装を使用し、結果に満足しましたが、それは重みのないデータセットにありました。 私が見るべき特定のアルゴリズムはありますか?

5
時系列を静止させる方法は?
違いをとる以外に、非定常時系列を静止にする他の手法は何ですか? 通常、ラグ演算子介して静止させることができる場合、シリーズは「オーダーpの積分」と呼ばれます。(1−L)PXt(1−L)PXt(1-L)^P X_t


8
人々にデータをよりよく世話させるにはどうすればよいですか?
私の職場には非常に幅広い分野の従業員がいるため、さまざまな形でデータを生成しています。その結果、各チームはデータを保存する独自のシステムを開発しました。AccessデータベースまたはSQLデータベースを使用するものもあります。一部のチーム(私の恐怖)は、ほぼ完全にExcelスプレッドシートに依存しています。多くの場合、データ形式はプロジェクトごとに変わります。場合によっては、それを「システム」と呼ぶのはあまりにも親切です。 これに伴う問題は、すべてのプロジェクトのデータを消去するために新しいコードを作成する必要があることです。これは高価です。スプレッドシートを手動で編集する人は、データの再現性と監査をほぼ不可能にします。さらに悪いことに、データが失われたり、不正確になったりする可能性があります。 私は会社の役員とこれらの問題について話し合う機会を与えられました。私は彼に何を伝えるべきかを考え出す必要があります。私たちには問題があり、これを正しくすることでより良い科学とお金の節約が可能になると彼を説得したと思います。問題は、何を目指すべきか、そしてどのようにそこに到達するかです。 すなわち: 論文の作成から公開まで追跡できるように、データをどのように保存する必要がありますか?(データベースは中央サーバーに保存されていますか?) データベース形式を標準化するにはどうしますか? データの世話をする方法について人々を教育するための良いリソースはありますか?(原則として、職業衛生士と爆発物のエンジニアはデータオタクではないため、非技術的なコンテンツが優先されます。)



6
なぜダウンサンプリングするのですか?
電子メールがスパムかどうかを予測する分類子を学習したいとします。そして、メールの1%のみがスパムであるとします。 最も簡単な方法は、メールはどれもスパムではないという単純な分類法を学ぶことです。この分類子は99%の精度を提供しますが、興味深いことは何も学習せず、100%の誤検出率を持ちます。 この問題を解決するために、人々は「ダウンサンプル」するか、例の50%がスパムであり、50%がスパムではないデータのサブセットで学習するように私に言っています。 しかし、このアプローチを心配しています。この分類子を構築して、実際の電子メールのコーパスで使用を開始すると(50/50テストセットではなく)、多くの電子メールがスパムであると予測される可能性があるためです本当にない。データセットに実際に存在するよりもはるかに多くのスパムを見ることに慣れているからです。 それでは、この問題をどのように修正するのでしょうか? (「アップサンプリング」、または肯定的なトレーニングの例を複数回繰り返して、データの50%が肯定的なトレーニングの例になるようにすると、同様の問題が発生するようです。)

2
lmで相互作用用語を書く別の方法は?
回帰モデルで相互作用を指定する最良の方法はどれかという質問があります。次のデータを考慮してください。 d <- structure(list(r = structure(c(1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L), .Label = c("r1","r2"), class = "factor"), s = structure(c(1L, 1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 2L, 1L, 1L, 1L, 1L, 1L, 2L, 2L, …

5
連続変数とカテゴリー変数(名義変数)の相関
連続(従属変数)変数とカテゴリ(名目:性別、独立変数)変数の間の相関関係を見つけたいと思います。連続データは通常は配布されません。以前は、スピアマンのを使用して計算していました。しかし、私はそれが正しくないと言われました。ρρ\rho インターネットで検索しているときに、箱ひげ図がそれらがどの程度関連付けられているかについてのアイデアを提供できることがわかりました。ただし、ピアソンの積率係数やスピアマンのなどの定量化された値を探していました。これを行う方法について私を助けてもらえますか?または、どの方法が適切かを教えてください。ρρ\rho Point Biserial Coefficientは正しいオプションでしょうか?

5
SVM機能の重みをどのように解釈しますか?
線形SVMを近似することで与えられる可変の重みを解釈しようとしています。 (私はscikit-learnを使用しています): from sklearn import svm svm = svm.SVC(kernel='linear') svm.fit(features, labels) svm.coef_ これらの重みがどのように計算または解釈されるかを具体的に説明するドキュメントには何も見つかりません。 体重のサインはクラスと関係がありますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.