統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

5
非正規分散DVのANOVA結果を信頼できますか?
反復測定ANOVAを使用した実験を分析しました。ANOVAは、被験者間要因が2つ、3つ以内(N = 189)の3x2x2x2x3です。エラー率は従属変数です。エラー率の分布は、スキューが3.64、尖度が15.75です。スキューと尖度は、エラー率の90%が0であることの結果です。ここで、正規性テストで以前のスレッドの一部を読むと、少し混乱します。正規に配布されていないデータがある場合は、可能であれば変換するのが最善であると考えましたが、多くの人が、ANOVAまたはT検定で非正規データを分析することは受け入れられると考えているようです。ANOVAの結果を信頼できますか? (FYI、将来的には、二項分布の混合モデルを使用してRのこのタイプのデータを分析する予定です)

2
前の状態にのみ依存するマルコフ過程
誰かが私の理解を確認してくれるか、何か不足しているのかどうかを確認してください。 markovプロセスの定義では、次のステップは現在の状態のみに依存し、過去の状態には依存しないと述べています。したがって、a、b、c、dの状態空間があり、a-> b-> c-> dから進んだとしましょう。つまり、dへの遷移は、cにいたという事実にのみ依存するということです。 しかし、モデルをより複雑にし、この制限を「回避」することができるのは本当ですか?つまり、状態空間がaa、ab、ac、ad、ba、bb、bc、bd、ca、cb、cc、cd、da、db、dc、ddの場合、新しい状態空間は前の状態と現在の状態を組み合わせると、上記の遷移は* a-> ab-> bc-> cdになり、したがってcdへの遷移(前のモデルではdと同等)は、次の状態に「依存」します。別にモデル化された場合、以前の状態です(以下ではサブ状態と呼びます)。 「以前の状態(サブ状態)に依存する」(サブ状態が実際の状態ではなくなったため、技術的には新しいモデルにないことを知っています)を展開してmarkovプロパティを維持できるという点で正しいですか私がしたように状態空間?したがって、実際には、任意の数の以前のサブ状態に依存する可能性があるmarkovプロセスを作成できます。

1
Benjamini-Hochberg、p値またはq値による複数の仮説検定修正?
昇順でソートされた独立したテストから生成されたp値のリストが与えられた場合、複数のテストの修正にBenjamini-Hochberg手順を使用できます。各p値について、Benjamini-Hochbergプロシージャを使用すると、各p値のFalse Discovery Rate(FDR)を計算できます。つまり、ソートされたp値のリストの各「位置」で、それらのどの割合が帰無仮説の誤った拒否である可能性が高いかを示します。 私の質問は、これらのFDR値は「q値」、「修正されたp値」、または完全に別のものと呼ばれますか? 編集2010-07-12:私たちが使用している修正手順をより完全に説明したいと思います。まず、未修正の元のp値で昇順にテスト結果を並べ替えます。次に、リストを反復処理し、「これとリストの前のすべての検定について帰無仮説を拒否する場合に予想されるFDR」として解釈されているものを計算します。 、各反復の未修正p値。次に、「q値」と呼んでいるものとして、単調性を維持するために、以前に修正された値(反復i-1でのFDR)または現在の値(i)の最大値を取ります。 以下は、この手順を表すPythonコードです。 def calc_benjamini_hochberg_corrections(p_values, num_total_tests): """ Calculates the Benjamini-Hochberg correction for multiple hypothesis testing from a list of p-values *sorted in ascending order*. See http://en.wikipedia.org/wiki/False_discovery_rate#Independent_tests for more detail on the theory behind the correction. **NOTE:** This is a generator, not a function. It will yield …

3
多重打ち切りデータの共分散行列の不偏推定
環境サンプルの化学分析は、報告限界またはさまざまな検出/定量限界でしばしば打ち切られます。後者は、通常、他の変数の値に比例して変化します。たとえば、ある化合物の濃度が高いサンプルは、分析のために希釈する必要があり、そのサンプルで同時に分析される他のすべての化合物の打ち切り限界が比例的に増大する場合があります。別の例として、化合物の存在により、他の化合物に対する試験の反応が変化する場合があります(「マトリックス干渉」)。これが研究室で検出されると、それに応じてレポートの制限が膨らみます。 特に多くの化合物が50%を超える打ち切りを経験する場合に、このようなデータセットの分散共分散行列全体を推定する実用的な方法を模索しています。従来の分布モデルでは、(真の)濃度の対数は多重正規分布であり、これは実際にはうまく適合するようであるため、この状況の解決策が役立ちます。 (「実用的」とは、R、Python、SASなどの少なくとも1つの一般的に利用可能なソフトウェア環境で、複数の代入で発生するような反復再計算をサポートするのに十分迅速に実行される方法で、確実にコーディングできる方法を意味します。そして、これはかなり安定している[だからこそ、一般的なベイジアンソリューションは歓迎されているが、BUGSの実装を検討するのを嫌がる]。 この件についてのご意見を事前に感謝します。

6
5ポイントのリッカートアイテムのグループの違い
この質問に続いて:5ポイントのリッカート項目(例:人生に対する満足度:不満に満足)で、2つのグループ(例:男性と女性)の中心傾向の違いをテストしたいと想像してください。t検定はほとんどの目的に対して十分に正確であると思いますが、グループ平均間の差のブートストラップ検定は多くの場合、信頼区間のより正確な推定値を提供します。どの統計検定を使用しますか?

9
ping応答時間に関するこのデータがどのような分布を表しているのかを知るにはどうすればよいですか?
ネットワークping時間の実世界のプロセスをサンプリングしました。「往復時間」はミリ秒単位で測定されます。結果はヒストグラムにプロットされます。 ping時間には最小値がありますが、長い上側の尾があります。 これがどのような統計分布であり、そのパラメーターを推定する方法を知りたいです。 ディストリビューションは通常のディストリビューションではありませんが、達成しようとしていることを示すことができます。 正規分布は次の関数を使用します。 2つのパラメーター μ(平均) σ 2 (分散) パラメータ推定 2つのパラメーターを推定する式は次のとおりです。 Excelにあるデータに対してこれらの式を適用すると、次のようになります。 μ= 10.9558(平均) σ 2 = 67.4578(分散) これらのパラメーターを使用すると、サンプリングしたデータの上に「正規」分布をプロットできます。 明らかに正規分布ではありません。正規分布は、無限の上部および下部テールを持ち、対称です。この分布は対称ではありません。 どの原則を適用しますか。これがどのような分布であるかを判断するために、どのフローチャートを適用しますか? 分布に負のテールがなく、長い正のテールがある場合、どの分布がそれに一致しますか? あなたが取っている観測値に分布を一致させる参照はありますか? そして、簡単に言えば、この分布の式は何ですか?また、そのパラメーターを推定する式は何ですか? 「平均」値と「スプレッド」を取得できるように、分布を取得したい: 私は実際にソフトウェアでヒストグラムをプロットしており、理論的な分布をオーバーレイしたい: 注:math.stackexchange.comからクロスポスト 更新:160,000サンプル: 月と月、および無数のサンプリングセッションは、すべて同じ分布を提供します。数学的表現が必要です。 Harveyは、データをログスケールにすることを提案しました。対数スケールでの確率密度は次のとおりです。 タグ:サンプリング、統計、パラメーター推定、正規分布 それは答えではなく、質問の補遺です。これが配布バケットです。もっと冒険好きな人は、Excel(またはあなたが知っているプログラム)にそれらを貼り付けて、分布を見つけることができると思います。 値は正規化されます Time Value 53.5 1.86885613545469E-5 54.5 0.00396197500716395 55.5 0.0299702228922418 56.5 0.0506460012708222 57.5 0.0625879919763777 58.5 0.069683415770654 59.5 0.0729476844872482 …

1
線形モデルとしての一般的な統計検定
(更新:私はこれをより深く掘り下げ、結果をここに投稿しました) 名前付き統計検定のリストは膨大です。一般的なテストの多くは、1標本t検定はただである例えば、単純な線形モデルから推論に頼る=β+εyのヌルモデルに対してテストされ、Y =μ+εことすなわちβ=μ μは、いくつかのヌルです値-通常はμ= 0。 これは、名前付きモデルのローテート学習、それらを使用するタイミング、およびそれらが互いに関係がないかのように仮定することよりも、教育目的にとってかなり有益であることがわかりました。そのアプローチは促進しますが、理解を促進しません。ただし、これを収集する優れたリソースが見つかりません。私は、モデルからの推論の方法よりも、基礎となるモデル間の同等性にもっと興味があります。私が見る限り、これらすべての線形モデルの尤度比検定は、「古典的な」推論と同じ結果をもたらします。 エラー項を無視し、すべての帰無仮説が効果の欠如であると仮定して、これまでに学んだ同等性を次に示します。ε 〜N(0 、σ2)ε〜N(0、σ2)\varepsilon \sim \mathcal N(0, \sigma^2) 1標本t検定: 。y=β0H0:β0= 0y=β0H0:β0=0y = \beta_0 \qquad \mathcal{H}_0: \beta_0 = 0 対応のある標本のt検定: y2− y1= β0H0:β0= 0y2−y1=β0H0:β0=0y_2-y_1 = \beta_0 \qquad \mathcal{H}_0: \beta_0 = 0 これは、ペアワイズ差分の1サンプルt検定と同じです。 2標本t検定: y= β1∗ x私+ β0H0:β1= 0y=β1∗バツ私+β0H0:β1=0y = \beta_1 * x_i + \beta_0 \qquad \mathcal{H}_0: …



9
ニューラルネットワークの予測の信頼性を判断する方法
私の質問を説明するために、たとえば入力にはある程度のノイズがあり、出力にはないトレーニングセットがあるとします。 # Training data [1.02, 1.95, 2.01, 3.06] : [1.0] [2.03, 4.11, 5.92, 8.00] : [2.0] [10.01, 11.02, 11.96, 12.04] : [1.0] [2.99, 6.06, 9.01, 12.10] : [3.0] ここで、出力は、ノイズがない場合の入力配列の勾配です(実際の勾配ではありません)。 ネットワークをトレーニングした後、特定の入力に対して出力は次のようになります。 # Expected Output [1.01, 1.96, 2.00, 3.06] : 95% confidence interval of [0.97, 1.03] [2.03, 4.11, 3.89, 3.51] : 95% …

3
非常に不均衡なデータの分類/評価指標
不正検出(クレジットスコアリングのような)問題に対処します。そのため、詐欺的観測と非詐欺的観測の間には非常に不均衡な関係があります。 http://blog.revolutionanalytics.com/2016/03/com_class_eval_metrics_r.htmlは、さまざまな分類指標の優れた概要を提供します。Precision and Recallまたはkappa両方が良い選択のようです: そのような分類器の結果を正当化する1つの方法は、それらをベースライン分類器の結果と比較し、それらが実際にランダムチャンス予測よりも優れていることを示すことです。 私が理解している限りkappaでは、ランダムなチャンスが考慮されるので、ここでの方がわずかに良い選択かもしれません。より平易な英語でCohenのカッパ Iことを理解しkappa、情報ゲインの概念を扱いました: [...] 80%の観測精度は、50%の予測精度に対して、75%の予測精度ではあまり印象的ではありません[...] したがって、私の質問は次のようになります。 kappaこの問題に対してより適切な分類メトリックであると仮定するのは正しいですか? 単に使用kappaするだけで、分類アルゴリズムに対する不均衡の悪影響を防ぐことができますか?再(ダウン/アップ)サンプリングまたはコストベースの学習(http://www.icmc.usp.br/~mcmonard/public/laptec2002.pdfを参照)はまだ必要ですか?

3
ニューラルネットワークの事前トレーニングとは何ですか?
まあ質問はそれをすべて言います。 「ニューラルネットワークの事前トレーニング」とはどういう意味ですか?誰かが純粋な英語で説明できますか? 私はそれに関連するリソースを見つけることができないようです。誰かが私にそれらを指し示すことができれば素晴らしいでしょう。

2
すべての機械学習アルゴリズムはデータを線形に分離しますか?
私はプログラミングと機械学習が大好きです。ほんの数ヶ月前、機械学習プログラミングについて学び始めました。定量的科学のバックグラウンドを持っていない多くの人と同様に、広く使用されているMLパッケージ(キャレットR)のアルゴリズムとデータセットをいじって、MLについても学び始めました。 しばらく前に、著者がMLでの線形回帰の使用法について話しているブログを読みました。私が正しいことを覚えているなら、彼は最終的にすべての機械学習が線形問題または非線形問題に対してさえ、ある種の「線形回帰」(この正確な用語を使用したかどうかわからない)を使用する方法について話しました。その時、私は彼がその意味を理解していませんでした。 非線形データに機械学習を使用するという私の理解は、非線形アルゴリズムを使用してデータを分離することです。 これは私の考えでした 線形方程式を使用して線形データを分類し、非線形データに対してy = s i n (x )と言う非線形方程式を使用するとします。y= m x + cy=mバツ+cy=mx+cy= s i n (x )y=s私n(バツ)y=sin(x) この画像は、サポートベクターマシンのsikit learn Webサイトから取得したものです。SVMでは、MLの目的で異なるカーネルを使用しました。私の最初の考えは、線形関数はデータを線形関数で分離し、RBFカーネルは非線形関数を使用してデータを分離することでした。 しかし、その後、著者がニューラルネットワークについて語っているこのブログを見ました。 左サブプロットの非線形問題を分類するために、ニューラルネットワークは、最終的に右サブプロットの変換されたデータに単純な線形分離を使用できるようにデータを変換します 私の質問は、最終的にすべての機械学習アルゴリズムが線形分離を使用して分類するかどうかです(線形/非線形データセット)?

6
可能性-なぜ増殖するのか?
最尤推定について勉強していますが、尤度関数は各変数の確率の積であると読みました。なぜそれが製品なのですか?なぜ合計しないのですか?Googleで検索しようとしていましたが、意味のある答えが見つかりません。 https://en.wikipedia.org/wiki/Maximum_likelihood

2
順列検定の前提は何ですか?
置換テストには前提がないとよく言われますが、これは確かに真実ではありません。たとえば、サンプルが何らかの形で相関している場合、ラベルを並べ替えることは正しいことではないと想像できます。この問題について私が見つけたと思うのは、ウィキペディアの次の文章です。「置換テストの背後にある重要な仮定は、帰無仮説の下で観測値が交換可能であるということです。」私には分かりません。 順列検定の前提は何ですか?そして、これらの仮定は、考えられるさまざまな置換スキームにどのように関連していますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.