統計とビッグデータ

5

通常は同じ形状の時系列データの変化を検出したいと思います。これまでのところ私が働いてきたchangepointR用のパッケージとcpt.mean(), cpt.var()してcpt.meanvar()機能します。cpt.mean()データが通常1つのレベルにとどまっている場合、PELTメソッドを使用するとうまく機能します。しかし、降下中の変化も検出したいと思います。変化の例として、検出したいのは、実際に例の赤い点線に従うはずの黒い曲線が突然落ちる部分です。私はcpt.var（）関数を試しましたが、良い結果を得ることができませんでした。推奨事項はありますか（必ずしもRを使用する必要はありません）？変更されたデータ（Rオブジェクトとして）は次のとおりです。 dat.change <- c(12.013995263488, 11.8460207231808, 11.2845153487846, 11.7884417180764, 11.6865425802022, 11.4703118125303, 11.4677576899063, 11.0227199625084, 11.274775836817, 11.03073498338, 10.7771805591742, 10.7383206158923, 10.5847230134625, 10.2479315651441, 10.4196381241735, 10.467607842288, 10.3682422713283, 9.7834431752935, 9.76649842404295, 9.78257968297228, 9.87817694914062, 9.3449034905713, 9.56400153361727, 9.78120084558148, 9.3445162813738, 9.36767436354887, 9.12070987223648, 9.21909859069157, 8.85136359917466, 8.8814423003979, 8.61830163359642, 8.44796977628488, 8.06957847272046, 8.37999165387824, 7.98213210294954, 8.21977468333673, 7.683960439316, 7.73213584532496, 7.98956476021092, 7.83036046746187, 7.64496198988985, 4.49693528397253, 6.3459274845112, 5.86993447552116, 4.58301192892403, …

18 r time-series change-point structural-change

3

フィッシャーの正確なテストについて：女性がミルクファーストカップの数を知らなければ、どのテストが適切だっただろうか？

RA Fisherによる有名なレディテイスティングティーの実験では、ミルクファースト/ティーファーストカップの数が知らされます（8カップのうち4カップ）。これは、フィッシャーの正確検定の固定限界総仮定を尊重します。私は友人とこのテストを行うことを想像していましたが、その考えに衝撃を受けました。女性がミルクファーストカップとティーファーストカップの違いを本当に理解できれば、ミルクファースト/ティーファーストカップの限界合計と、どのカップがどれであるかを把握できるはずです。そこで質問は次のとおりです。RAFisherがミルクファーストカップとティーファーストカップの合計数を女性に通知していなかった場合、どのテストを使用できたでしょうか。

18 hypothesis-testing statistical-significance fishers-exact conditioning

2

隠れマルコフモデルとマルコフ遷移モデルと状態空間モデル…？

修士論文では、血清学的状態によって定義される異なる状態間の遷移の統計モデルの開発に取り組んでいます。私の質問はより一般的/理論的であるため、今のところ、このコンテキストにあまり多くの詳細を説明しません。とにかく、私の直感では、隠れマルコフモデル（HMM）を使用する必要があります。モデルを作成するために必要な文献やその他の背景研究を経て遭遇する問題は、用語と、さまざまなタイプの隠れたプロセスモデル間の正確な違いに関する混乱です。私はそれらを区別するもの（今後の例）を非常に漠然としか認識していません。さらに、少なくとも私が文献で見たものから、このタイプのモデリングの周りに構築された非常に非標準的な語彙があるように思えます。だから、私は人々が私のためにこれらの用語のいくつかを明確にするのを手伝ってくれることを望んでいた。いくつか質問がありますが、1つまたは2つの回答が満足のいくものになると、残りは結果として解き明かされると思います。これが長すぎないことを願っています。モデレーターがこれを複数の投稿に分割することを望んでいる場合、私はそうします。いずれにせよ、質問を太字で示し、続いて文献検索中に明らかにした質問の詳細を記載しました。したがって、順不同で： 1）「非表示プロセスモデル」とは正確には何ですか？私は、「隠されたプロセスモデル」はいくつかの異なるタイプの統計モデルを記述するために使用できる一種の包括的な用語であり、すべてが「オーバーラップのシステムによって生成された時系列データ潜在的に隠された線形加算プロセス」（[1]）。実際、[2]は「隠れたプロセスモデル」を「状態空間モデルまたは隠れマルコフモデルのいずれかを指す一般用語」として定義しています。[1]は、隠れマルコフモデルが、バイナリ状態の推論に特化した隠れプロセスモデルのサブタイプであると推測しているようです。基本的な意味は、隠れたプロセスモデルは隠れたマルコフモデルの一般化であると思われます。「隠れたプロセスモデル」と「私のこの直感は正しいですか？そうでない場合、これらの方法をより明確に説明するリファレンスがありますか？ 2）隠れマルコフモデルと状態空間モデルの違いは何ですか？再び[2]に戻ります（紙自体が特に信頼できるように見えるためではなく、紙に明確な用語集が付いている場合だけです;それは一文の定義の便利な情報源にすぎません）、違いはそうです隠れマルコフモデルは、状態がマルコフである特定のタイプの状態空間モデルです（マルコフプロセスの順序に明確な制限はないようです。つまり、1次、...、k次）。ここで、状態空間モデルは、「2つの時系列を並行して実行するモデルであり、1つは真の状態（潜在）のダイナミクスをキャプチャし、もう1つはこれらの基礎となる可能性のある未知の状態から行われる観測で構成される」と定義されます。それらの状態がマルコフ特性も示す場合、それは隠れマルコフモデルです。ただし、[3]は、状態空間モデルと隠れマルコフモデルの違いを、潜在状態の特性に関連するものとして定義しています。ここで、隠れマルコフモデルは離散状態を扱い、状態空間モデルは連続状態を扱います。それ以外の場合、概念的には同じです。これらは非常に異なる2つの定義のように思えます。一方では、隠れマルコフモデルは状態空間モデルのサブタイプであり、他方では、両方とも、より広範なクラスの隠れプロセスモデルの異なるインスタンス化です。これらのうち正しいものはどれですか？私の直感では、[2]とは対照的に[3]に従うように指摘していますが、これをサポートする信頼できる情報源は見つかりません。 3）「マルコフ遷移モデル」とは何ですか？多くのソースで出てきた別の用語は、「Markov遷移モデル」です。私はどの教科書にもこのフレーズを見つけることができませんでしたが、ジャーナルの記事には多く見られます（単に確認のためにGoogleに接続するだけです）。私はこの用語の厳密な定義を見つけることができませんでした（私が見つけたすべての論文は別の論文を引用し、他の論文を引用するなど、どこにも正気をもたらさないPubMedウサギの穴を送ります）。コンテキストからの私の印象は、推論の対象がマルコフ過程に従う状態間の遷移であるモデルを指す非常に一般的な用語であり、隠れマルコフモデルはマルコフ遷移モデルの特定のタイプと見なされる可能性があるということです。[4]しかし、遷移モデル、隠れマルコフモデル、およびいくつかの同様の用語を互換的に使用しているようです。一方、[5]はマルコフ遷移モデルと隠れマルコフモデルについて少し異なった話をしています。著者は、「遷移モデルは、より複雑な隠れマルコフモデルからの結果を解釈するのに役立つ回答者のダイナミクスを要約する方法を提供します」と述べています。私はこのフレーズが何を意味するのか完全には理解しておらず、論文の他の場所でそれを正当化するものを見つけることができません。しかし、彼らはマルコフ遷移モデルは時間を連続変数として使用し、隠れマルコフモデルは時間を離散変数として使用することを暗示しているようです（彼らはこれを直接言わず、彼らはマルコフ遷移に適合するためにRパッケージ 'msm'を使用すると言います）モデル、および「msm」は、HMMのRパッケージとは対照的に、継続的に時間を処理するものとして説明されています）。 4）他の概念、たとえば動的ベイジアンネットワークはどこに収まりますか？ウィキペディアによると、動的ベイジアンネットワークは「隠れマルコフモデルとカルマンフィルターの一般化」です。他の場所では、「世界の全状態が単一の隠れ状態変数によって表される」動的ベイジアンネットワークの特別なケースとして定義された隠れマルコフモデルを見ました（動的ベイジアンシステムの定義とHMMとの関係？）。私は一般にこの関係を理解しており、[6]で十分に説明されています。しかし、私はこの関係が物事のより広い視野にどのように適合するかを理解するのに苦労しています。つまり、HMMとDBNの間のこの関係を考えると、状態空間モデルと隠れたプロセスモデルはどのように2つに関連していますか？隠れマルコフモデルの複数の「一般化」があるように思われる場合、これらの異なるタイプの方法はすべてどのように相互に関係しますか？参照： [1]トム・M・ミッチェル、レベッカ・ハッチンソン、インドラヤナ・ルスタンディ。「非表示プロセスモデル」。2006. CMU-CALD-05-116。カーネギーメロン大学。 [2]オリバー・ギミネス、ジャン・ドミニク・レブルトン、ジャン・ミシェル・ガイヤール、レミ・ショケ、ロジャー・プラデル。「隠れたプロセスの動的モデルを使用した人口統計パラメーターの推定」。理論人口生物学。2012. 82（4）：307-316。 [3]バーバラエンゲルハルト。「隠れマルコフモデルと状態空間モデル」。STA561：確率的機械学習。デューク大学。http://www.genome.duke.edu/labs/engelhardt/courses/scribe/lec_09_25_2013.pdf [4] Jeroen K. Vermunt。「歩行気分評価データの分析への応用による連続時間でのマルチレベル潜在マルコフモデリング」。社会統計ワークショップ。2012.ティルブルフ大学。http://www.lse.ac.uk/statistics/events/SpecialEventsandConferences/LSE2013-Vermunt.pdf [5]ケン・リチャードソン、デビッド・ハート、クリスティー・カーター。「健康と労働力の移行を理解する：マルコフモデルをSoFIE縦断データに適用する」。公式統計調査シリーズ。2012年。 [6]ゾウビン・ガラマーニ。「隠れマルコフモデルとベイジアンネットワークの紹介」。Journal of Pattern Recognition and Artificial Intelligence。2001. 15（1）：9-42。

18 machine-learning self-study hidden-markov-model

1

凸状混合物のブラインドソース分離？

私があるとしの独立したソースを、私は観察凸混合物： X 1、X 2、。。。、X n m Y 1nnnバツ1、X2、。。。、Xnバツ1、バツ2、。。。、バツnX_1, X_2, ..., X_nmmmY1。。。Ym= a11バツ1+ a12バツ2+ ⋯ + a1 nバツn= am 1バツ1+ am 2バツ2+ ⋯ + am nバツnY1=a11バツ1+a12バツ2+⋯+a1nバツn。。。Ym=am1バツ1+am2バツ2+⋯+amnバツn\begin{align} Y_1 &= a_{11}X_1 + a_{12}X_2 + \cdots + a_{1n}X_n\\ ...&\\ Y_m &= a_{m1}X_1 + a_{m2}X_2 + \cdots + a_{mn}X_n \end{align} すべてのため及び全てについて。∑ja私j= 1∑ja私j=1\sum_j a_{ij} = 1私私ia私はj≥ …

18 pca ica

2

ブートストラップサンプルの平均とサンプルの統計

サンプルと、このサンプルのスタスティック（平均など）のブートストラップサンプルがあるとします。我々はすべて知っているように、このブートストラップサンプルは推定標本分布統計の推定のを。χχ\chi さて、このブートストラップサンプルの平均は、元のサンプルの統計よりも母集団統計のより良い推定値ですか？どのような条件下でそれが当てはまりますか？

18 estimation bootstrap

2

なぜ漸近正規性の定義でなのか？

パラメータの推定器のシーケンスは、場合、漸近的に正常です。（ソース）次にを漸近分散と呼びます。この分散がCramer-Raoの境界に等しい場合、推定器/シーケンスは漸近的に効率的であると言います。 θ √うんnUnU_nθθ\thetaVUNn−−√（Un- θ ）→ N（0 、v ）n(Un−θ)→N(0,v)\sqrt{n}(U_n - \theta) \to N(0,v)vvvうんnUnU_n 質問：なぜを特に使用するのですか？n−−√n\sqrt{n} サンプル平均では、であるため、この選択により正規化されます。しかし、上記の定義はサンプル平均以上に適用されるため、なぜ正規化することを選択するのでしょうか。√Va r （X¯）= σ2nVar(X¯)=σ2nVar(\bar{X}) = \frac{\sigma^2}{n}n−−√n\sqrt{n}

18 estimation asymptotics efficiency

1

バイナリ分類のための損失関数の選択

私は人々がしばしばROC-AUCまたはAveP（平均精度）を報告する問題領域で働いています。しかし、最近では、代わりにログ損失を最適化する論文を見つけましたが、ヒンジ損失を報告する論文もあります。これらのメトリックがどのように計算されるかは理解していますが、それらの間のトレードオフを理解するのに苦労しています。 ROC-AUC対Precision-Recallに関しては、このスレッドは、ROC-AUC-maximizationが、「少なくとも真正と同程度の真の負のランク付け」（より高いと仮定して）スコアは正に対応します）。また、この他のスレッドは、Precision-Recallメトリックとは対照的に、ROC-AUCの有用な説明も提供します。ただし、たとえばROC-AUC、AveP、またはヒンジ損失よりも、どのような種類の問題に対してログ損失が優先されますか？最も重要なことは、バイナリ分類のためにこれらの損失関数を選択するときに、問題についてどのような質問をするべきでしょうか？

18 loss-functions

2

正規分布の尖度が0ではなく3である理由

正規分布の尖度が3であるというステートメントの意味は何ですか。つまり、水平線では、3の値がピーク確率に対応することを意味します。つまり、3はシステムのモードです。正常な曲線を見ると、ピークは中心、つまり0で発生しているように見えます。

18 normal-distribution moments kurtosis

3

最適化手法はサンプリング手法にマッピングされますか？

一般的なサンプリングアルゴリズムから、最適化アルゴリズムを導き出すことができます。実際、任意の関数最大化するために、、それからサンプルを描画するために十分でG 〜EのF / T。Tが十分に小さい場合、これらのサンプルは関数fのグローバルな最大値（または実際にはローカルな最大値）に近くなります。f：x → f（x）f：バツ→f（バツ）f: \textbf{x} \rightarrow f(\textbf{x})g〜Ef/ Tg〜ef/Tg \sim e^{f/T}TTTfff 「サンプリング」とは、定数まで知られている対数尤度関数が与えられた分布から擬似ランダムサンプルを描画することを意味します。たとえば、MCMCサンプリング、ギブスサンプリング、ビームサンプリングなど。「最適化」とは、特定の関数の値を最大化するパラメーターを見つけることを意味します。その逆は可能ですか？関数または組み合わせ式の最大値を見つけるためのヒューリスティックが与えられた場合、効率的なサンプリング手順を抽出できますか？たとえば、HMCは勾配情報を利用しているようです。ヘッセ行列のBFGSのような近似を利用するサンプリング手順を構築できますか？（編集：明らかにはい：http : //papers.nips.cc/paper/4464-quasi-newton-methods-for-markov-chain-monte-carlo.pdf）組み合わせの問題でMCTSを使用できます。サンプリング手順に？コンテキスト：サンプリングの難しさは、確率分布の質量のほとんどが非常に小さな領域内にあることです。そのような領域を見つけるための興味深い手法がありますが、それらはバイアスのないサンプリング手順に直接変換されません。編集：私は今、その質問への答えは複雑度クラス#PとNPの平等性にいくらか同等であると感じており、答えを「ノー」と思われます。すべてのサンプリング手法が最適化手法を生み出す理由を説明していますが、その逆はありません。

18 sampling optimization

3

結果を「非常に重要」と呼ぶのは間違っていますか？

値が従来のレベルのはるかに下回る場合、統計学者が結果を「非常に重要」と呼ぶことを思いとどまらせるのはなぜですか？α 0.05pppαα\alpha0.050.050.05 99％（）の確率しか得られない結果よりも、タイプIエラー（）ではない確率が99.9％の結果を信頼することは本当に間違っていますか？p = 0.01p = 0.001p=0.001p=0.001p = 0.01p=0.01p=0.01

18 hypothesis-testing statistical-significance p-value terminology

2

2つの確率変数の合計としての一様確率変数

GrimmetおよびStirzakerから取得：そうでないことを示すU = X + Y Uは均一[0,1]上に分散され、XおよびYは独立しており、同一分布。あなたはないはず XとYが連続変数であることを前提としています。U=X+YU=X+YUUXXYY 場合の矛盾で十分によって簡単証明XXX、Yは、YYそれが常に可能見つけることと主張することによって別個に仮定され、Uuu及びU 'u′u'その結果、P （U ≤ U + U '）≥ P （U ≤ U ）P(U≤u+u′)≥P(U≤u)P(U\leq u+u') \geq P(U\leq u)一方、P （X + Y ≤ U ）= P （X + Y ≤ U + U '）P（X+ Y≤ U ）= P（X+ Y≤ U + U′）P(X+Y \leq u) …

18 probability random-variable continuous-data uniform proof

3

ゼロ以外の漸近的分散を持つ漸近的整合性-それは何を表していますか？

この問題は以前に発生しましたが、それを明確にする（そして分類する）答えを引き出すことを試みる特定の質問をしたいと思います。「Poor Man's Asymptotics」では、（a）確率が定数に収束する一連のランダム変数対照的に（b）確率が確率変数に収束する（したがって分布する）確率変数のシーケンス。しかし、「賢者の漸近」では、次の場合もあります。（c）限界で非ゼロの分散を維持しながら、確率が定数に収束するランダム変数のシーケンス。私の質問は次のとおりです（以下の自分の探索的回答から盗みます）：どのように我々は漸近的に一致しているが、推定理解することができますまた、非ゼロ、有限の分散を持っているの？この差異は何を反映していますか？その動作は、「通常の」一貫した推定量とどのように異なりますか？（c）で説明されている現象に関連するスレッド（コメントも参照）：一貫性のある推定量と公平な推定量の違いは何ですか？ /stats/120553/convergence-of-an-estimator-with-infinite-variance 漸近的に整合性のある推定器が無限大でゼロ分散を持たないのはなぜですか？収束と制限分散がほぼ確実にゼロになる

18 mathematical-statistics variance convergence asymptotics consistency

4

相関の非推移性：性別と脳の大きさの間、および脳の大きさとIQの間の相関関係、性別とIQの間の相関関係はない

ブログで次の説明を見つけましたが、相関関係の非推移性に関する詳細情報を取得したいと思います。次の議論の余地のない事実があります。平均して、男性と女性の間で脳容積に違いがあります IQと脳の大きさの間には相関関係があります。相関は0.33であるため、IQの変動の10％に相当しますこれらの前提1と2から、論理的には次のように思われる：平均して女性は男性よりも低いIQを持っている。しかし、それは誤りです！統計では、相関関係は推移的ではありません。証拠は、IQテストの結果を見るだけでよく、男性と女性のIQが平均して変わらないことを示しています。この相関関係の非推移性をもう少し深く理解したいと思います。 IQと脳の大きさの相関関係が0.9だった場合（これは（1）ではないことを知っています）、男性よりも平均して女性のIQが低いと推測することはまだ誤解でしょうか？どうか、IQ（およびテストの限界）、性差別、女性のステレオタイプ、慢などについて話をするためにここにいるのではありません（2）。誤justの背後にある論理的な理由を理解したいだけです。（1）ネアンデルタール人の頭脳はホモサピエンスよりも大きかったが、賢くはなかった。（2）私は女性であり、全体として、自分自身や他の女性の方が男性よりも賢くないと考えています。IQテストは気にしません。知的能力。フランス語の元のソース： les faits indiscutables suivantsについて： il ya unedifférencede volumecérébralen moyenne entre hommes et femmes QIとボリューム・セレブラル全体の相関関係。相関係数0.33以下、10％の変動係数に対応 1回目と2回目はsembledécoulerlogiquement que：les femmes ont en moyenne un QIinférieuraux hommes。 Mais c'est une erreur de raisonnement！統計上、相関関係は一時的なものではありません。La preuve、c'est que pour en avoir lecœurnet、il suffit de relever les …

18 correlation categorical-data mean descriptive-statistics neuroscience

3

負の二項GLM対カウントデータのログ変換：タイプIエラー率の増加

あなたの何人かはこの素晴らしい論文を読んだかもしれません： O'Hara RB、Kotze DJ（2010）カウントデータをログ変換しません。生態学と進化の方法1：118–122。クリック。私の研究分野（生態毒性学）では、再現性の低い実験を扱っており、GLMは広く使用されていません。そこで、O'Hara＆Kotze（2010）と同様のシミュレーションを行いましたが、生態毒性データを模倣しました。電力シミュレーション： 1つのコントロールグループ（）と5つの治療グループ（）を使用した要因計画のデータをシミュレートしました。治療1の存在量は対照（）と同一であり、治療2-5の存在量は対照の存在量の半分（）でした。シミュレーションでは、サンプルサイズ（3,6,9,12）とコントロールグループの量（2、4、8、...、1024）を変化させました。豊度は、固定分散パラメーター（）を持つ負の二項分布から引き出されました。100のデータセットが生成され、負の二項GLMとガウスGLM +対数変換データを使用して分析されました。μ 1 - 5 μ 1 = μ C μ 2 - 5 = 0.5 μ C θ = 3.91μcμc\mu_cμ1 − 5μ1−5\mu_{1-5}μ1= μcμ1=μc\mu_1 = \mu_cμ2 − 5= 0.5 μcμ2−5=0.5μc\mu_{2-5} = 0.5 \mu_cθ = 3.91θ=3.91\theta = 3.91 結果は予想通りです。GLMのパワーは、特に多くの動物がサンプリングされていない場合に大きくなります。コードはこちらです。タイプIエラー：次に、タイプ1のエラーを見ました。シミュレーションは上記のように行われましたが、すべてのグループは同じ量（）。μc= μ1 − 5μc=μ1−5\mu_c …

18 r generalized-linear-model simulation negative-binomial type-i-and-ii-errors

2

複数のカテゴリ変数がある場合のベータの解釈

私は、概念を理解β 0は、カテゴリ変数は、回帰係数は、2つのカテゴリーの平均値の差があることをエンド解釈を与え、0に等しい（または基準基である）ときの平均です。でも、私はそれぞれ引き受ける> 2つのカテゴリとβは、そのカテゴリの平均値と参照の違いを説明しています。β^0β^0\hat\beta_0β^β^\hat\beta しかし、多変数モデルにさらに多くの変数が取り込まれたらどうなりますか？ここで、2つのカテゴリ変数の参照の平均であることが意味をなさない場合、インターセプトは何を意味しますか？たとえば、性別（M（ref）/ F）と人種（white（ref）/ black）が両方ともモデルに含まれている場合です。ある唯一の白人男性の平均は？他の可能性をどのように解釈しますか？β^0β^0\hat\beta_0 別のメモとして：コントラストステートメントは、効果の変更を調査するための方法として機能しますか？または、さまざまなレベルで効果（）を見るだけですか？β^β^\hat\beta

18 multiple-regression categorical-data interpretation regression-coefficients contrast