統計とビッグデータ

2

この質問は、相関スケールの存在下で、バイナリエンドポイントを予測するための多次元スクリーニングアンケートのカットオフスコアの推定に関するものです。アルコール依存症のスクリーニングに使用される可能性のある測定スケール（性格特性）の各次元でカットオフスコアを考案する際に、関連するサブスコアを制御することの関心について尋ねられました。つまり、この特定のケースでは、人は外部共変量（予測子）の調整に関心がありませんでした-これは、共変量調整ROC曲線（（1-2）など）の下の（部分）領域につながりますが、本質的には他のスコアそれらは互いに相関しているため、同じアンケートから（例えば、「衝動性」と「感覚を求める」）。左側に関心のあるスコア（カットオフを求める）と同じアンケートから計算された別のスコアを含むGLMを構築しますが、右側には結果が飲酒ステータスである場合があります。（@robinリクエストごとに）明確にするために、我々は持っていると仮定し言う、スコアを（例えば、不安、衝動性、神経症、感覚求めて）を、そして私たちは、カットオフ値の検索したい場合（すなわち、「正の場合」、それ以外の場合は「負のケース」）。通常、このようなカットオフを考案する際に、性別や年齢などの他のリスク要因を調整します（ROC曲線分析を使用）。さて、SSはIMPと相関することが知られているので、性別、年齢、および感覚探索（SS）の衝動性（IMP）を調整するのはどうでしょうか。言い換えれば、年齢、性別、不安レベルの影響が取り除かれたIMPのカットオフ値があります。x j t j x j > t jj = 4j=4j=4バツjxjx_jtjtjt_jバツj> tjxj>tjx_j>t_j カットオフはできる限りシンプルに保つ必要があると言うこととは別に、私の応答は共変量については、予測パフォーマンスが向上するかどうかを確認するために、調整ありと調整なしでAUCを推定することをお勧めします。ここで、共変量は同じ測定機器から定義された他のサブスコアに過ぎず、このような状況に直面したことはありません（通常、年齢や性別などの既知のリスク要因に基づいて調整します）。[...]また、あなたは予後の問題（すなわち、アンケートのスクリーニング効果）に興味があるので、陽性の予測値（PPV、陽性結果が正しく分類された患者の確率）の推定にも興味があります。アンケートのサブスコアに応じて、被験者を「ポジティブ」または「ネガティブ」に分類できます。ただし、可能であれば、関連する論文へのリンクを使用して、この特定の状況をより完全に理解していますか？参照資料 Janes、H and Pepe、MS（2008）。診断、スクリーニング、または予後マーカーの研究における共変量の調整：新しい設定における古い概念。American Journal of Epidemiology、168（1）：89-97。 Janes、H and Pepe、MS（2008）。ROC分析における共変量の調整。UW Biostatistics Working Paper Series、ペーパー322。

20 epidemiology roc

3

「カーネルトリック」を線形メソッドに適用しますか？

カーネルトリックは、いくつかの機械学習モデル（例えばに使用されているSVM）。1964年に「パターン認識学習における潜在的な関数法の理論的基礎」論文で初めて紹介されました。ウィキペディアの定義によれば、線形分類アルゴリズムを使用して、元の非線形観測値を高次元空間にマッピングすることにより非線形問題を解決する方法。線形分類はその後使用されます。これにより、新しい空間での線形分類が元の空間での非線形分類と同等になります。非線形問題に拡張された線形モデルの一例は、カーネルPCAです。カーネルトリックを任意の線形モデルに適用できますか、または特定の制限がありますか？

20 machine-learning kernel-trick

4

実際に使用されるMetropolis-Hastingsアルゴリズム

今日私はクリスチャン・ロバートのブログを読んでいて、彼が議論していた新しいメトロポリス・ヘイスティングスのアルゴリズムがとても気に入った。シンプルで実装しやすいように見えました。 MCMCをコーディングするたびに、独立した動きやログスケールでのランダムウォークなど、非常に基本的なMHアルゴリズムに固執する傾向があります。どのMHアルゴリズムが日常的に使用されていますか？特に：なぜ使用するのですか？ある意味では、それらは最適であると考えなければなりません-結局、それらを定期的に使用します！それでは、最適性をどのように判断しますか：コーディングの容易さ、収束、... 特に、実際に使用されるもの、つまり、独自のスキームをコード化する場合に興味があります。

20 mcmc metropolis-hastings

3

複数の代入を使用する場合、混合効果モデルの分散コンポーネントの信頼区間を組み合わせる方法

多重代入（MI）のロジックは、欠損値を1回ではなく数回（通常はM = 5）回代入し、M個のデータセットを完成させることです。次に、M個の完成したデータセットをcomplete-dataメソッドで分析し、Rubinの式を使用してMの推定値とその標準誤差を組み合わせて、「全体的な」推定値とその標準誤差を取得します。これまでのところ素晴らしいが、混合効果モデルの分散コンポーネントが関係する場合、このレシピをどのように適用するかわからない。分散成分のサンプリング分布は非対称です。したがって、対応する信頼区間は、典型的な「推定値±1.96 * se（推定値）」形式で与えることはできません。このため、Rパッケージlme4およびnlmeは、分散成分の標準誤差さえも提供せず、信頼区間のみを提供します。したがって、データセットに対してMIを実行し、M個の完成したデータセットに同じ混合効果モデルを適合させた後、分散コンポーネントごとにM個の信頼区間を取得できます。問題は、これらのM区間を1つの「全体的な」信頼区間に結合する方法です。これは可能だと思います-記事の著者（yucel＆demirtas（2010）MIによる推論に対する非正規ランダム効果の影響）はそれをやったようですが、彼らはどのように正確に説明していないのでしょうか。どんなヒントも大いに義務付けられます！乾杯、ロック

20 modeling confidence-interval mixed-model data-imputation

6

ANOVAとANCOVAを理解するのに良いリソースですか？

私は論文の実験を行っており、ANOVAとANCOVAがどのように機能するかを適切に理解するための興味深い本/ウェブサイトを探しています。数学のバックグラウンドが良いので、必ずしも下品な説明は必要ありません。 ANCOVAの代わりにANOVAをいつ使用するかを決定する方法も知りたいです。

20 anova references ancova

4

エッジケースの精度と再現率の正しい値は何ですか？

精度は次のように定義されます： p = true positives / (true positives + false positives) それは、それを修正しているtrue positivesとfalse positives、精度が1に近づくアプローチ0？リコールに関する同じ質問： r = true positives / (true positives + false negatives) 現在、これらの値を計算する必要がある統計テストを実装していますが、分母が0である場合があり、この場合にどの値を返すのか迷っています。 PS：不適切なタグをすみません、、およびを使用したいのですがrecall、新しいタグをまだ作成できません。precisionlimit

20 precision-recall data-visualization logarithm references r networks data-visualization standard-deviation probability binomial negative-binomial r categorical-data aggregation plyr survival python regression r t-test bayesian logistic data-transformation confidence-interval t-test interpretation distributions data-visualization pca genetics r finance maximum probability standard-deviation probability r information-theory references computational-statistics computing references engineering-statistics t-test hypothesis-testing independence definition r censoring negative-binomial poisson-distribution variance mixed-model correlation intraclass-correlation aggregation interpretation effect-size hypothesis-testing goodness-of-fit normality-assumption small-sample distributions regression normality-assumption t-test anova confidence-interval z-statistic finance hypothesis-testing mean model-selection information-geometry bayesian frequentist terminology type-i-and-ii-errors cross-validation smoothing splines data-transformation normality-assumption variance-stabilizing r spss stata python correlation logistic logit link-function regression predictor pca factor-analysis r bayesian maximum-likelihood mcmc conditional-probability statistical-significance chi-squared proportion estimation error shrinkage application steins-phenomenon

6

天気予報は正確ですか？

しばらく私を悩ませた質問ですが、どのように対処するのかわかりません：私の天気予報士は毎日、雨の確率をパーセントで示しています（9000桁と計算されたと仮定し、数字を繰り返したことはありません）。毎日、雨が降るか降らないかのどちらかです。私は長年のデータを持っています-PCTチャンス対雨かどうか。この天気予報者の歴史を考えると、明日の雨の可能性がXであると彼が今夜言った場合、雨の可能性が実際に何であるかについての私の最良の推測は何ですか？

20 hypothesis-testing forecasting

4

クーポンコレクター時間の厳密な下限とは何ですか？

古典的なクーポンコレクターの問題では、ランダムに選択されたクーポンのセットを完了するのに必要な時間が、および満たすことがよく知られています。。TTTnnnE[T]∼nlnnE[T]∼nln⁡nE[T] \sim n \ln n Var(T)∼n2Var(T)∼n2Var(T) \sim n^2Pr(T>nlnn+cn)<e−cPr(T>nln⁡n+cn)<e−c\Pr(T > n \ln n + cn) < e^{-c} この上限は、おおよそ1 / c ^ 2になるチェビシェフ不等式によって与えられる上限よりも優れてい 1/c21/c21/c^2ます。私の質問は次のとおりです。よりも良い-チェビシェフが対応している下限のためのTTT？（たとえば、Pr(T<nlnn−cn)<e−cPr(T<nln⁡n−cn)<e−c\Pr(T < n \ln n - cn) < e^{-c}）？

20 probability probability-inequalities coupon-collector-problem

2

ランダムフォレストがランダムフォレストを生成する方法

私はランダムフォレストの専門家ではありませんが、ランダムフォレストの重要な問題は（ランダム）ツリーの生成であることを明確に理解しています。木がどのように生成されるのか説明してもらえますか？（つまり、ツリー生成に使用される分布は何ですか？）前もって感謝します！

20 machine-learning r algorithms cart random-forest

5

データベースの基準を使用して回帰モデルを指定できるのはいつですか？

多くの回帰モデル仕様（OLSなど）がデータセットの可能性と見なされると、これが多重比較の問題を引き起こし、p値と信頼区間はもはや信頼できないと聞きました。これの極端な例は、段階的回帰です。モデルを指定するのにデータ自体を使用できるのはいつですか？また、これはいつ有効なアプローチではありませんか？モデルを形成するには、常に主題に基づいた理論が必要ですか？

20 regression frequentist multiple-comparisons

5

被験者内テストのポストホック？

被験者内テストのポストホックを実施するための好ましい方法は何ですか？テューキーのHSDが採用されている出版物を見たことがありますが、ケッペルとマクスウェルとデラニーのレビューは、これらの設計の球形性の違反がエラー用語を不正確にし、このアプローチに問題があることを示唆しています。Maxwell＆Delaneyは彼らの本の問題へのアプローチを提供しますが、どの統計パッケージでもそのようにそれを見たことがありません。彼らが提供するアプローチは適切ですか？複数のペアのサンプルt検定でのBonferroniまたはSidakの補正は妥当ですか？受け入れられる答えはezANOVA、ezパッケージ内の関数によって生成される単純、多方向、および混合設計で事後的に実行できる一般的なRコードと、レビューアーに合格する可能性が高い適切な引用を提供します。

20 r repeated-measures multiple-comparisons post-hoc sphericity

4

モデルはデータに適合していますか、またはデータはモデルに適合していますか？

モデルをデータに適合させることとデータをモデルに適合させることの間に概念的または手順上の違いはありますか？最初の文言の例はhttps://courses.washington.edu/matlab1/ModelFitting.htmlに、2番目の例はhttps://reference.wolfram.com/applications/eda/FittingDataToLinearModelsByLeast-SquaresTechniques.htmlにあります。。

20 terminology

2

過適合についてのベイジアン思考

私は、従来の頻度主義統計ドメインで予測モデルを検証するための方法とソフトウェアの開発に多くの時間を費やしました。より多くのベイジアンのアイデアを実践と教育に取り入れる際に、受け入れるべき重要な違いがいくつかあると思います。まず、ベイジアン予測モデリングはアナリストに、候補の特徴に合わせてカスタマイズできる事前分布についてよく考えるように頼みます。これらの事前分布は、モデルをそれらに引き寄せます）。第二に、「実際の」ベイジアンの方法では、単一のモデルにはなりませんが、予測のために事後分布全体を取得します。これらのベイジアン機能を念頭に置いて、過剰適合とはどういう意味ですか？評価すべきでしょうか？もしそうなら、どのように？ベイズのモデルが野外での使用に信頼できるときはどのようにして知ることができますか？それとも、予測のために開発したモデルを使用すると、事後はすべての注意を与える不確実性に沿って進むので、それは重要なポイントですか？ベイジアンモデルを単一の数値、たとえば事後平均/最頻値/中央値リスクに蒸留するように強制した場合、考え方はどのように変わりますか？ここに関連する考え方があります。パラレル議論を見つけることができるここに。フォローアップの質問：：完全にベイジアンであり、データを見る前に事前確率について考えるのに時間を費やし、データ尤度が適切に指定されたモデルに適合した場合、過剰適合に関してモデルに満足することを強いられますか？または、ランダムに選択された対象が平均して十分に予測される可能性のある頻繁な世界で行うことを行う必要がありますが、予測が非常に低い対象または予測値が非常に高い対象を選択すると、回帰が発生しますという意味ですか？

20 bayesian cross-validation predictive-models validation regression-strategies

5

機能エンジニアリングが機能する理由

最近、MLの問題に対するより良い解決策を見つける方法の1つが、機能の作成によることであることを学びました。たとえば、2つの機能を合計することにより、これを行うことができます。たとえば、ある種のヒーローの「攻撃」と「防御」という2つの機能があります。次に「攻撃」と「防御」の合計である「合計」と呼ばれる追加機能を作成します。奇妙に見えるのは、厳しい「攻撃」と「防御」でさえ、「合計」とほぼ完全に相関しているということです。その背後にある数学は何ですか？それとも、私が間違っていると推論していますか？さらに、kNNなどの分類子にとって、「合計」は常に「攻撃」または「防御」よりも大きいということは問題ではありませんか？したがって、標準化した後でも、異なる範囲の値を含む機能がありますか？

20 machine-learning feature-construction

1

機械学習アルゴリズムの欠損データとスパースデータの違い

スパースデータと欠落データの主な違いは何ですか？そして、それは機械学習にどのように影響しますか？より具体的には、スパースデータと欠損データが分類アルゴリズムおよび回帰（予測数）タイプのアルゴリズムに与える影響。欠落しているデータの割合が重要であり、欠落しているデータを含む行を削除できない状況について話しています。

20 machine-learning dataset missing-data sparse