統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

2
「p値」の正確な値は無意味ですか?
私は2009年に統計学者と話し合い、p値の正確な値は無関係であると述べました。重要なことはそれが有意であるかどうかだけです。つまり、ある結果が別の結果よりも重要になることはありません。たとえば、サンプルは同じ母集団からのものであるかそうでないかです。 私はこれにいくつかの不安を持っていますが、おそらくイデオロギーを理解できます 5%のしきい値は任意です。つまり、p = 0.051は重要ではなく、p = 0.049は、一方の結果が重要でもう一方が重要ではないにもかかわらず、観測または実験の結論を実際に変更すべきではありません。 私が今これを取り上げる理由は、私がバイオインフォマティクスの修士課程を勉強していることであり、現場の人々と話した後、彼らが行うすべての統計の正確なp値を取得する決意があるようです。たとえば、p <1.9×10 -12の p値を「達成」する場合、結果がどの程度重要であり、この結果が非常に有益であることを示したいと考えています。この問題は、次のような質問で例示されています。なぜ2.2e-16より小さいp値を取得できないのですか?、偶然にもこれは1兆分の1未満であるということを示す値を記録したいと考えています。しかし、この結果は10億分の1ではなく1兆分の1未満であるということを示すことにはほとんど違いがありません。 p <0.01は、これが発生する可能性が1%未満であることを示し、p <0.001は、このような結果が前述のp値よりもさらに低いことを示しますが、結論を完全に引き出す必要があることを理解できます違う?結局、それらは両方とも有意なp値です。正確なp値を記録したいと考える唯一の方法は、ボンフェローニ補正を行うことです。これにより、比較の回数によってしきい値が変化し、タイプIエラーが減少します。しかし、それでも、しきい値の有意性より12桁小さいp値を表示したいのはなぜですか? また、Bonferroni補正自体を少しarbitrary意的に適用していませんか?最初は修正が非常に保守的であると見なされているため、オブザーバーが多重比較に使用できる有意水準にアクセスするために選択できる他の修正があります。しかし、このため、研究者が使用したい統計に応じて、何かが重要になるポイントは本質的に可変ではありません。統計は解釈に対してそれほど開かれているべきですか? 結論として、統計は主観的ではないはずではありませんが(主観的である必要性は多変量システムの結果であると思いますが)、最終的には明確化が必要です。そして、正確なp値を記録しようとすることに関して、p <0.001で十分ですか?

1
負の二項回帰の質問-それは貧弱なモデルですか?
カウントデータの回帰モデルに関する、SellersとShmueliの非常に興味深い記事を読んでいます。冒頭(p。944)では、McCullaugh and Nelder(1989 )を引用して、負の二項回帰は人気がなく、問題のある標準的なリンクがあると述べています。紹介された箇所を見つけましたが、それは言っています(MとNの374ページ) 「アプリケーションでは負の二項分布が少し使用されているようです。特に、標準リンクの使用は、線形予測子を分散関数のパラメーターの関数にするため、問題があります」。 前のページで、彼らはそのリンク機能を η=log(α1+α)=log(μμ+k)η=log⁡(α1+α)=log⁡(μμ+k)\eta = \log\left(\frac{\alpha}{1 + \alpha} \right) = \log\left( \frac{\mu}{\mu + k}\right) および分散関数 V=μ+μ2k.V=μ+μ2k.V = \mu + \frac{\mu^2}{k}. 分布は次のように与えられます Pr(Y=y;α,k)=(y+k−1)!y!(k−1)!αy(1+α)y=kPr(Y=y;α,k)=(y+k−1)!y!(k−1)!αy(1+α)y=kPr(Y = y; \alpha,k) = \frac{(y+k-1)!}{y!(k-1)!}\frac{\alpha^y}{(1+\alpha)^{y=k}} NB回帰は非常に広く使用されていることがわかりました(複数の本で推奨されています)。これらの使用法と推奨事項はすべて誤りですか? この問題のあるリンクの結果は何ですか?

4
p値が小さいほど説得力がありますか?
値、タイプ1のエラー率、有意水準、検出力の計算、効果の大きさ、およびフィッシャーとネイマンピアソンの議論について読んでいます。これにより、私は少し圧倒されました。テキストの壁をおaびしますが、実際の質問に移る前に、これらの概念の現在の理解の概要を提供する必要があると感じました。ppp 私が収集したものから、値は単に驚きの尺度であり、帰無仮説が真であれば、少なくとも極端な結果が得られる確率です。フィッシャーはもともと、それが継続的な測定であることを意図していた。ppp Neyman-Pearsonフレームワークでは、事前に有意水準を選択し、これを(任意の)カットオフポイントとして使用します。有意水準はタイプ1のエラー率に等しくなります。これは、長時間の実行頻度によって定義されます。つまり、実験を1000回繰り返して帰無仮説が真である場合、それらの実験のうち約50がサンプリングのばらつきのために大きな効果をもたらします。有意水準を選択することにより、一定の確率でこれらの誤検知から身を守ります。値は伝統的にこのフレームワークには現れません。PPP 0.01の値が見つかった場合、これはタイプ1のエラー率が0.01であることを意味するものではなく、タイプ1のエラーは事前に示されます。p値は0.05 *、0.01 **、0.001 ***として報告されることが多いため、これはフィッシャー対NPの議論における主要な議論の1つであると思います。これは、特定の有意値ではなく、特定のp値で効果が有意であると人々を誤解させる可能性があります。ppppppppp また、値がサンプルサイズの関数であることも認識しています。したがって、絶対測定として使用することはできません。小さなp値は、大規模なサンプル実験での小さな、無関係な効果を示している可能性があります。これに対抗するには、実験のサンプルサイズを決定するときに、出力/効果サイズの計算を実行することが重要です。P値は、効果の大きさではなく、効果があるかどうかを示します。Sullivan 2012を参照してください。ppppppPPP 私の質問: p値が驚きの尺度(より小さい=より説得力がある)であると同時に、絶対的な測定値と見なすことができないという事実をどのように調整できますか?ppp 私が混乱しているのは、次のとおりです。小さな値の方が大きな値よりも自信がありますか?漁師の意味では、そうです、私たちはもっと驚いています。NPフレームワークでは、より低い有意水準を選択することは、偽陽性に対してより強力に保護していることを意味します。ppp しかし、一方で、値はサンプルサイズに依存します。それらは絶対的な尺度ではありません。したがって、0.001593が0.0439 より重要であると単純に言うことはできません。しかし、これはフィッシャーのフレームワークで暗示されていることです。このような極端な価値にもっと驚かれることでしょう。用語についても、議論があります非常に重要な誤った名称であること:それは「非常に重要」であるとの結果を参照するために間違ってますか?ppp 一部の科学分野の値は0.0001より小さい場合にのみ重要と見なされるのに対し、他の分野では0.01前後の値はすでに非常に重要であると見なされていると聞きました。ppp 関連する質問: 統計的検定に対するフィッシャーとネイマン・ピアソンのアプローチ間の「ハイブリッド」は、実際には「インコヒーレントなミッシュマッシュ」ですか? FisherとNeyman-Pearsonフレームワークを使用する場合 「p値」の正確な値は無意味ですか? タイプIエラーに関連したp値の頻度特性 2つの平均の信頼区間とP値 なぜp値が低いほどnullに対する証拠ではないのですか?Johansson 2011の引数(@amoeba提供)


2
「ディープラーニング」とマルチレベル/階層モデリングの違いは何ですか?
「ディープラーニング」は、マルチレベル/階層モデリングの単なる別の用語ですか? 前者よりも後者の方がはるかに精通していますが、主な違いは定義にあるのではなく、アプリケーションドメイン内での使用方法と評価方法にあります。 典型的な「深層学習」アプリケーションのノードの数は多く、一般的な階層形式を使用するように見えますが、マルチレベルモデリングのアプリケーションは、通常、モデル化される生成プロセスを模倣する階層関係を使用します。適用された統計(階層モデリング)ドメインで一般的な階層を使用することは、現象の「誤った」モデルと見なされますが、ドメイン固有の階層をモデル化することは、一般的な深層学習機械を作成する目的を覆すと見なされる場合があります。 これらの2つのことは、実際には2つの異なる名前の2つの異なる方法で使用される同じ機械ですか?

4
なぜ低いp値はヌルに対する証拠ではないのですか?ヨハンソン2011からの議論
Johansson(2011)は、「Hail the不可能:p値、証拠、および可能性」(ここにもジャーナルへのリンクがあります)で、値が低いほど、nullに対する強力な証拠と見なされることが多いと述べています。Johanssonは、統計テ​​ストが値出力した場合よりも統計テストが値出力した場合、nullに対する証拠が強いと考えることを意味します。Johanssonは、値をnullに対する証拠として使用できない4つの理由をリストしています。pppppp0.010.010.01ppp0.450.450.45ppp pppは帰無仮説の下で均一に分布しているため、帰無の証拠を示すことはできません。 pppは帰無仮説のみに条件付けられ、したがって、証拠は別の仮説に関連する仮説の証拠または反対の証拠であるという意味で常に相対的であるため、証拠を定量化するのには適していません。 pppは、エビデンスの強度ではなく、エビデンスを取得する確率(nullの場合)を示します。 pppは、観察されていないデータと主観的な意図に依存するため、証拠の解釈を考慮すると、観察されたデータの証拠強度は、発生しなかったものと主観的な意図に依存することを意味します。 残念ながら、ヨハンソンの記事から直感的な理解を得ることができません。私にとっての-値 nullがより、真である少ないチャンスがあることを示しの-値。なぜ低いppp0.010.010.01ppp0.450.450.45ppp値はnullに対する強力な証拠ではないのですか?

5
線プロットの色と線の太さの推奨事項
一般に、マップ、ポリゴン、および陰影領域の色覚異常に優しい色の選択について多くのことが書かれています(たとえばhttp://colorbrewer2.orgを参照)。線グラフの線の色と線の太さの推奨事項を見つけることができませんでした。目標は次のとおりです。 線が絡み合っていても簡単に区別できます 線は色盲の最も一般的な形態を持つ個人によって簡単に区別できます (それほど重要ではない)行はプリンターに優しい(上記のColor Brewerを参照) 黒とグレーのスケールラインのコンテキストでは、細い黒のラインと太いグレースケールのラインを使用すると非常に効果的であることがわかりました。さまざまな色、グレースケールの程度、および線の太さを含む特定の推奨事項に感謝します。私はさまざまな線種(実線/点線/破線)が好きではありませんが、その意見から話をすることができます。 1つのグラフで最大10個の曲線を推奨することが望ましいでしょう。Color Brewerと同様に、m行の推奨がn行の推奨のサブセットではなく、n> mであり、mを1から10に変更できるようにすることをお勧めします。 注:質問の線の色付け部分のみに対処するガイダンスも歓迎します。 一部の開業医は、異なるクラスをより明確に区別するために、数センチメートルごとにシンボルを線に追加します。クラスを区別するために複数の機能(色+シンボルタイプなど)を必要とすることはあまり好きではありません。また、異なる情報を示すためにシンボルを予約することもあります。 他のガイダンスがない場合、colorbrewer2.orgのポリゴンに推奨されているのと同じ色を線に使用し、線の幅を2.5倍するために、より明るく/濃い色で描画された線を提案します。これを設定するR関数を作成しています。醸造者の色に加えて、最初の2色を黒一色(薄い)とグレースケール(太い)にすると思いますが、薄い黒一色と薄い青であると主張できます。 R関数はhttp://biostat.mc.vanderbilt.edu/wiki/pub/Main/RConfiguration/Rprofileにあります。関数を定義したら、次のようにcolBrew入力して設定の動作を確認できます showcolBrew(number of line types) # add grayscale=TRUE to use only grayscale グラフィックパラメータを新しい設定に設定する機能latticeSetも提供されlatticeます。アルゴリズムの改善を歓迎します。 調べるには:R dichromatパッケージ:http : //cran.r-project.org/web/packages/dichromat/

1
GBMパラメータの有用なガイドラインは何ですか?
GBMを使用してパラメータ(相互作用の深さ、ミンチャイルド、サンプルレートなど)をテストするための有用なガイドラインは何ですか? 人口が200,000の70-100の機能があり、相互作用の深さ3と4をテストするつもりだとしましょう。明らかに、パラメーターのどの組み合わせが最適なサンプル外であるかを確認するためにテストを行う必要があります。このテスト設計にアプローチする方法に関する提案はありますか?

8
外れ値を平均で置き換える
この質問は、インターネットに精通していない友人によって尋ねられました。私は統計のバックグラウンドがなく、この質問をインターネットで検索しています。 問題は、外れ値を平均値で置き換えることは可能ですか?可能であれば、この声明をバックアップするための書籍の参照/ジャーナルはありますか?

1
大規模なスパース行列の次元削減(SVDまたはPCA)
/ edit:irlba :: prcomp_irlbaを使用できるようになりました。 / edit:自分の投稿のフォローアップ。 irlba現在、「center」および「scale」引数があり、これを使用して主成分を計算できます。例: pc <- M %*% irlba(M, nv=5, nu=0, center=colMeans(M), right_only=TRUE)$v Matrix機械学習アルゴリズムで使用したい機能の大規模でまばらなものがあります。 library(Matrix) set.seed(42) rows <- 500000 cols <- 10000 i <- unlist(lapply(1:rows, function(i) rep(i, sample(1:5,1)))) j <- sample(1:cols, length(i), replace=TRUE) M <- sparseMatrix(i, j) このマトリックスには多くの列があるため、その次元を管理しやすいものに減らしたいと思います。優れたirlbaパッケージを使用してSVDを実行し、最初のn個の主要コンポーネントを返すことができます(ここに示す5つ。実際のデータセットではおそらく100または500を使用します)。 library(irlba) pc <- irlba(M, nu=5)$u ただし、PCAを実行する前に、行列を中央に配置する必要があることを読みました(各列から列の平均値を減算します)。これは私のデータセットで行うことは非常に難しく、さらにマトリックスのスパース性を破壊します。 スケーリングされていないデータに対してSVDを実行し、それを機械学習アルゴリズムに直接入力するのはどの程度「悪い」のでしょうか?マトリックスのスパース性を維持しながら、このデータをスケーリングできる効率的な方法はありますか? / edit:AはB_minerによって注目されました。「PC」は次のようになります。 …

3
時間パラドックスのシャリジのベイジアン後方矢印のエントロピーに基づく反論?
で、この論文、有能な研究者コスマ・シャリッチは完全に主観的ベイズビューを受け入れるために、1にも(エントロピーの流れによって与えられた)時間の矢が実際に行くべきであると非物理的な結果受け入れなければならないと主張している後方を。これは主にETジェインズによって提唱され、一般化された最大エントロピー/完全に主観的なベイジアンの見解に反論する試みです。 以上でLessWrong、多くの貢献者は、非常にフォーマルな意思決定理論の基礎としてベイズ確率理論的にも主観的ベイズアプローチに興味を持って強いAIに向けた足がかりさエリエゼル・ユードコウスキーがあり、共通の貢献者であり、私が最近読んでいたこのポストをするときI このコメントに出くわしました(元の投稿のページでは、そのすぐ後にいくつかの他の良いコメントがあります)。 YudkowskyのShaliziへの反論の有効性について誰でもコメントできますか。簡単に言えば、ユドコフスキーの論拠は、推論エージェントが信念を更新する物理的メカニズムには作業が必要であり、したがってシャリジが敷物の下で掃除している熱力学的なコストがあるということです。別のコメントで、ユドコフスキーはこれを擁護し、次のように述べています。 「システム外の論理的に全知の完全な観測者の視点をとる場合、「確率」と同様に「エントロピー」の概念はほとんど意味がありません-統計熱力学を使用して何かをモデル化する必要はありません。波動方程式。」 確率論者や統計力学はこれについてコメントできますか?私はシャリジとユドコフスキーのどちらの地位に関する権威からの議論についてもあまり気にしませんが、ユドコフスキーの3つのポイントがシャリジの記事を批判する方法の概要を見たいです。 FAQガイドラインに準拠し、これを具体的に回答可能な質問にするために、ユドコフスキーの3つのステップの引数を取り、それら3つのステップが仮定や派生に反論する3つのステップを示す具体的な項目別の回答を求めていることに注意してください一方、シャリジの論文でユドコフスキーの議論が扱われている場所を示しています。 シャリジの記事は、本格的な主観的ベイジアン主義を擁護できないという鉄に覆われた証拠として宣伝されていることがよくあります...観察されているもの(つまり、実際の物理学すべて)と相互作用する観察者に。しかし、Shaliziは素晴らしい研究者なので、この議論の重要な部分を理解していない可能性が高いため、セカンドオピニオンを歓迎します。

2
統計学習の要素からk最近傍分類器の決定境界をプロットする方法は?
Trevor Hastie&Robert Tibshirani&Jerome Friedmanの著書ElemStatLearn "The Elements of Statistics Learning:Data Mining、Inference、and Prediction。Second Edition"に記述されているプロットを生成したい。プロットは次のとおりです。 でこの正確なグラフをどのように作成できるのかR、特に境界線を示すグリッドグラフィックと計算に注意してください。

3
なぜ変数の選択が必要なのですか?
一般的なデータベースの変数選択手順(たとえば、順方向、逆方向、ステップワイズ、すべてのサブセット)では、次のような望ましくないプロパティを持つモデルが生成される傾向があります。 ゼロから偏る係数。 標準誤差が小さすぎ、信頼区間が狭すぎます。 公示された意味を持たない統計とp値をテストします。 過度に楽観的なモデル適合の推定値。 意味のない用語が含まれる(例えば、下位の用語の除外)。 それでも、変数選択手順は持続します。変数選択の問題を考えると、なぜこれらの手順が必要なのですか?それらの使用の動機は何ですか? 議論を始めるためのいくつかの提案.... 解釈可能な回帰係数が必要ですか?(多くのIVを持つモデルで誤解されていますか?) 無関係な変数によって導入された分散を排除しますか? 独立変数間の不要な共分散/冗長性を排除しますか? パラメーター推定の数を減らす(検出力、サンプルサイズの問題) 他にありますか?変数選択手法によって対処される問題は、変数選択手順が導入する問題よりも多かれ少なかれ重要ですか?いつ使用する必要がありますか?いつ使用すべきではありませんか?

3
Goodman-KruskalガンマとKendall tauまたはSpearman rho相関はどのように比較されますか?
私の仕事では、いくつかのデータセットについて、予測されたランキングと実際のランキングを比較しています。最近まで、Kendall-Tauを単独で使用していました。同様のプロジェクトに取り組んでいるグループは、代わりにGoodman-Kruskal Gammaを使用しようとし、彼らがそれを好むことを提案しました。ランクの異なる相関アルゴリズムの違いは何なのかと思いまして。 私が見つけた最高の答えは、スピアマンが通常の線形相関の代わりに使用され、ケンドール-タウは直接的ではなく、グッドマン-クラスカルガンマにより似ていると主張するこの答えでした。私が使用しているデータには、明らかな線形相関はないようです。また、データは大きく歪んでおり、正常ではありません。 また、スピアマンは通常、データについてケンドール・タウよりも高い相関性を報告しており、データについて具体的に何を言っているのか疑問に思っていました。私は統計学者ではないので、これらのことについて読んでいる論文のいくつかは、私には専門用語のように見えます、ごめんなさい。

5
多くの独立変数から重要な予測因子を検出する
2つの重複しない母集団(患者と健康、合計n=60n=60n=60)のデータセットで、(300300300独立変数から)連続従属変数の有意な予測子を見つけたいと思います。予測変数間の相関が存在します。予測変数のいずれかが(可能な限り正確に従属変数を予測するのではなく)「実際に」従属変数に関連しているかどうかを調べることに興味があります。多数の可能なアプローチに圧倒されたので、どのアプローチが最も推奨されるかを尋ねたいと思います。 私の理解から、予測因子の段階的な包含または除外は推奨されません たとえば、予測子ごとに個別に線形回帰を実行し、FDRを使用した多重比較のためにp値を修正します(おそらく非常に保守的ですか?) 主成分回帰:個々の予測変数の予測力については説明できず、コンポーネントについてのみ説明できるため、解釈が困難です。 他の提案はありますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.