統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A


7
t検定とノンパラメトリック検定のどちらを選択するか(例:小さいサンプルのウィルコクソン)
特定の仮説は、スチューデントのt検定(2サンプルの場合の不等分散のウェルチ補正を使用)、またはウィルコクソンのペアの符号付きランク検定、ウィルコクソン-マン-ホイットニーU検定などのノンパラメトリック検定を使用して検定できます。またはペアサインテスト。特にサンプルサイズが「小さい」場合、どのテストが最も適切であるかについて、原則的な決定を下すにはどうすればよいでしょうか。 入門教科書や講義ノートの多くは、正常にチェックされている「フローチャート」アプローチ与える( -のいずれかinadvisedly -によって、より広く正常試験によって、またはQQプロットまたは同様の)間で決定するのt検定またはノンパラメトリック検定。対応のない2標本t検定では、ウェルチの補正を適用するかどうかを決定するために、分散の均一性をさらにチェックする場合があります。このアプローチの1つの問題は、適用するテストの決定が観測データに依存する方法と、選択したテストのパフォーマンス(電力、タイプIエラー率)にどのように影響するかです。 もう1つの問題は、小さなデータセットで正規性を確認するのがいかに難しいかです。正式なテストでは消費電力が少ないため、違反は検出されない可能性がありますが、QQプロットでデータを目立たせるのは同様の問題です。たとえば、分布が混在しているが、その混合の1つのコンポーネントから観測値が得られなかった場合など、重大な違反であっても検出されない可能性があります。が大きい場合とは異なり、中央極限定理のセーフティネット、および検定統計量とt分布の漸近正規性に頼ることはできません。nnn これに対する原則的な応答の1つは「安全第一」です。小さなサンプルで正規性の仮定を確実に検証する方法がないため、ノンパラメトリック法に固執します。別の方法は、理論的に(たとえば、変数はいくつかのランダム成分の合計でCLTが適用される)または経験的に(たとえば、が大きい以前の研究では変数が正常であることを示唆する)、そのような根拠が存在する場合にのみt検定を使用する根拠を考慮することです。しかし、これは通常、おおよその正規性を正当化するだけであり、自由度が低い場合、t検定の無効化を回避するために必要な正常性の程度を判断するのは困難です。nnn t検定またはノンパラメトリック検定を選択するほとんどのガイドは、正規性の問題に焦点を当てています。しかし、小さなサンプルでもいくつかの副次的な問題が発生します。 「無関係なサンプル」または「対応のない」t検定を実行する場合、ウェルチ補正を使用するかどうか?一部の人々は、分散の等価性のために仮説検定を使用しますが、ここでは低電力になります。また、SDが(さまざまな基準で)「合理的に」近いかどうかをチェックします。母集団の分散が等しいと考える正当な理由がない限り、小さなサンプルに対して常にウェルチ補正を使用する方が安全ですか? メソッドの選択をパワーとロバスト性のトレードオフと見なす場合、ノンパラメトリックメソッドの漸近効率に関する主張は役に立ちません。「ウィルコクソン検定は、データが実際に正常であればt検定の約95%の能力を持ち、データがそうでなければはるかに強力であるため、ウィルコクソンを使用するだけ」という経験則が時々耳にされますが、 95%が大きなのみ適用される場合、これは小さなサンプルに対する欠陥のある推論です。nnn 変換されたデータが(十分に)正規分布に属しているかどうかを判断するのが難しいため、小さなサンプルでは、変換がデータに適切かどうかを評価することが非常に困難または不可能になる場合があります。QQプロットで、ログを取るとより合理的に見える非常に正に歪んだデータが明らかになった場合、ログデータにt検定を使用しても安全ですか?大きなサンプルではこれは非常に魅力的ですが、が小さいと、そもそも対数正規分布を期待する根拠がない限り、おそらく先延ばしになるでしょう。nnn ノンパラメトリックの仮定をチェックするのはどうですか? 一部の情報源は、ウィルコクソン検定を適用する前に対称分布を検証することをお勧めします(確率的優位ではなく位置の検定として扱う)。そもそもノンパラメトリック検定を適用する理由が「安全第一」というマントラへの盲目的な従順である場合、小さなサンプルから歪度を評価することの難しさは、明らかに、対符号検定のより低い検出力につながります。 。 これらの小さなサンプルの問題を念頭に置いて、tテストとノンパラメトリックテストを決定する際に実行する適切な(できれば引用可能な)手順はありますか? いくつかの優れた回答がありましたが、順列テストなど、ランクテストに代わる他の方法を検討した回答も歓迎します。


6
バックプロパゲーションなしでニューラルネットワークをトレーニングすることは可能ですか?
多くのニューラルネットワークの本やチュートリアルでは、基本的に勾配を計算するツールである逆伝播アルゴリズムに多くの時間を費やしています。 〜10Kのパラメーター/ウェイトでモデルを構築していると仮定しましょう。勾配のない最適化アルゴリズムを使用して最適化を実行することはできますか? 数値勾配の計算は遅すぎると思いますが、ネルダーミード、シミュレーテッドアニーリング、遺伝的アルゴリズムなどの他の方法はどうですか? すべてのアルゴリズムは極小に苦しむでしょうが、なぜ勾配に取りつかれているのでしょうか?

2
「インザワイルド」なPハッキングについてどれだけ知っていますか?
フレーズp -hacking(「データ dr 」、「スヌーピング」、「フィッシング」)は、結果が人為的に統計的に有意になるさまざまな種類の統計的不正行為を指します。「より重要な」結果を取得する方法は多数ありますが、決してこれらに限定されません: パターンが見つかったデータの「興味深い」サブセットのみを分析します。 複数のテスト、特に事後テスト、および重要ではない実行されたテストの報告に失敗した場合の適切な調整の失敗。 同じ仮説の異なるテスト、たとえば、パラメトリックテストとノンパラメトリックテストの両方を試します(このスレッドでは、いくつかの議論があります)が、最も重要なもののみを報告します。 望ましい結果が得られるまで、データポイントの包含/除外を試行します。「データクリーニングの外れ値」だけでなく、曖昧な定義(「先進国」の計量経済学の研究、異なる定義が異なる国のセットをもたらす)、または定性的包含基準(例えば、メタ分析) 、特定の研究の方法論が十分に堅牢であるかどうかは、バランスのとれた議論かもしれません) 前の例は、オプションの停止に関連しています。つまり、データセットを分析し、これまでに収集したデータに応じてデータを収集するかどうかを決定します(「これはほとんど重要です。さらに3人の学生を測定しましょう!」)分析で; モデルフィッティング中の実験、特に含める共変量だけでなく、データ変換/関数形式に関する実験。 したがって、p-ハッキングが実行できることを知っています。多くの場合、「p値の危険性」の 1つとしてリストされており、統計的有意性に関するASAレポートで言及されており、ここでCross Validatedで説明されているため、悪いことでもあります。いくつかの疑わしい動機と(特に学術出版の競争において)逆効果的なインセンティブは明らかですが、意図的な不正行為であろうと単純な無知であろうと、それがなぜなのかを理解するのは難しいと思います。ステップワイズ回帰からp値を報告する人(ステップワイズ手順は「良いモデルを生成する」が、意図されたpを認識していないため)-値が無効化される)、後者のキャンプではあるが、その効果はまだありP上記の私の箇条書きの最後の下-hacking。 確かにpハッキングが「外にある」という証拠があります。例えば、Head et al(2015)は科学文献に感染している証拠的な兆候を探しますが、それに関する我々の証拠の現状は何ですか?Headらがとったアプローチには論争がなかったわけではないことを知っているので、文学の現状、または学術界の一般的な考え方は興味深いでしょう。たとえば、次のことについて考えていますか? それはどの程度一般的であり、その発生を出版バイアスとどの程度まで区別できますか?(この区別は意味がありますか?) 効果は境界で特に深刻ですか?たとえば、で同様の効果が見られますか、それともp値の範囲全体が影響を受けますか?P ≈ 0.05p≈0.05p \approx 0.05P ≈ 0.01p≈0.01p \approx 0.01 pハッキングのパターンは学問分野によって異なりますか? p-ハッキングのメカニズム(上記の箇条書きにリストされているもの)のどれが最も一般的であるか、私たちは考えていますか?一部のフォームは、「よりよく偽装されている」ため、他のフォームよりも検出が難しいことが証明されていますか? 参照資料 ヘッド、ML、ホルマン、L。、ランフィア、R。、カーン、AT、およびジェニオン、MD(2015)。科学におけるpハッキングの範囲と結果。PLoS Biol、13(3)、e1002106。



13
多変量データの外れ値を識別する最良の方法は何ですか?
少なくとも3つの変数を持つ多変量データの大きなセットがあるとします。外れ値を見つけるにはどうすればよいですか?ペアワイズ散布図は、2次元の部分空間のいずれでも外れ値ではない3次元に異常値が存在する可能性があるため、機能しません。 回帰問題ではなく、真の多変量データについて考えています。したがって、堅牢な回帰またはコンピューティングレバレッジを含む回答は役に立ちません。 1つの可能性は、主成分スコアを計算し、最初の2つのスコアの2変量散布図で外れ値を探すことです。それが機能することが保証されますか?より良いアプローチはありますか?


6
重要なデータチェックテスト
私の職務では、他の人のデータセットをよく使用します。専門家ではない人が臨床データを持ってきて、それを要約して統計テストを行うのを助けます。 私が抱えている問題は、私が持ってくるデータセットがほとんどの場合、タイプミス、矛盾、その他あらゆる種類の問題に満ちていることです。他の人が、入ってくるデータセットをチェックしようとする標準テストを持っているかどうかを知りたいです。 よく見るために各変数のヒストグラムを描いていましたが、このテストを乗り切ることができる恐ろしいエラーがたくさんあることに気付きました。たとえば、先日、反復測定データセットがありました。一部の個人では、反復測定が時間2と時間1で同一でした。これは、予想どおり正しくないことが判明しました。別のデータセットには、非常に重度の障害(高スコアで表される)から問題のない状態に移行した個人がいて、全体で0で表されています。これは絶対に不可能ですが、明確に証明することはできませんでした。 それでは、各データセットでどのような基本的なテストを実行して、タイプミスや不可能な値が含まれていないことを確認できますか? 前もって感謝します!

3
混同マトリックスを使用してマルチクラス分類の精度とリコールをどのように計算しますか?
マルチクラス分類問題の混同マトリックスを使用して、精度を計算し、リコールする方法を疑問に思います。具体的には、観測値は最も可能性の高いクラス/ラベルにのみ割り当てることができます。計算したい: 精度= TP /(TP + FP) リコール= TP /(TP + FN) クラスごとに、マイクロ平均Fメジャーを計算します。

12
ベイジアンとは?
統計に興味を持つようになると、「フリークエンティスト」と「ベイジアン」の二分法がすぐに一般的になります(とにかく、ネイトシルバーの「シグナルとノイズ」を読んでいない人はいますか?)。講演と入門コースでは、視点は圧倒的に頻繁(MLE、値)ですが、ベイズの公式を賞賛し、通常は接線で事前分布の概念に触れることに専念する時間はごくわずかである傾向があります。ppp ベイジアン統計を議論するために採用されたトーンは、その概念的基盤の尊重と、高尚な目標間の溝に関する懐疑主義のヒントと、事前分布の選択における意性、または結局は頻繁な数学の最終的な使用との間で振動します。 「もしあなたがハードコアベイジアンなら...」などの文はたくさんあります。 問題は、今日のベイジアンは誰ですか?彼らは、あなたがそこに行けば、あなたがベイジアンになることを知っているいくつかの学術機関ですか?もしそうなら、彼らは特別に求められていますか?尊敬されている統計学者や数学者だけに言及していますか? それらは、これらの純粋な「ベイジアン」としても存在しますか?彼らはラベルを喜んで受け入れますか?それはいつもお世辞の区別ですか?彼らは、会議で特異なスライドを持ち、値と信頼区間を奪われ、パンフレットで簡単に見つけられる数学者ですか?ppp どのくらいのニッチが「ベイジアン」であるか?私たちは少数の統計学者に言及していますか? または、現在のベイジアン主義は機械学習アプリケーションと同一視されていますか? ...またはもっと可能性が高いのは、ベイジアン統計は統計の枝ではなく、むしろ確率計算の範囲を超えて科学哲学へと向かう認識論的運動でしょうか?この点で、すべての科学者は本質的にベイジアンになります...しかし、頻繁なテクニック(または矛盾)に不浸透性の純粋なベイジアン統計学者のようなものはありません。

10
時系列が静止している必要があるのはなぜですか?
定常時系列とは、その平均と分散が時間とともに一定であることを理解しています。別のARIMAまたはARMモデルを実行する前に、データセットが静止していることを確認する必要がある理由を誰かが説明できますか?これは、自己相関および/または時間が要因ではない通常の回帰モデルにも適用されますか?


2
ニューラルネットワークの埋め込み層とは何ですか?
多くのニューラルネットワークライブラリには、KerasやLasagneのような「埋め込み層」があります。 ドキュメントを読んでも、その機能を理解しているかどうかはわかりません。たとえば、Kerasのドキュメントには次のように記載されています。 正の整数(インデックス)を固定サイズの密ベクトルに変換します。[[4]、[20]]-> [[0.25、0.1]、[0.6、-0.2]] 知識のある人がそれが何をするのか、いつそれを使うのかを説明できますか? 編集:ドキュメントの貼り付けに関して、ドキュメントから貼り付けることはあまりないので、私の質問です。私はそれがどのような変換を行うのか、なぜそれを使用すべきなのか理解していません。 とにかく、これはケラスで説明されている方法です: 埋め込み keras.layers.embeddings.Embedding(input_dim、output_dim、init = 'uniform'、input_length = None、weights = None、W_regularizer = None、W_constraint = None、mask_zero = False)正の整数(インデックス)を固定サイズの密ベクトルに変換します、たとえば [[4]、[20]]-> [[0.25、0.1]、[0.6、-0.2]] 入力形状:形状を持つ2Dテンソル:(nb_samples、sequence_length)。出力形状:形状を持つ3Dテンソル:(nb_samples、sequence_length、output_dim)。引数: input_dim:int> =0。語彙のサイズ。1+入力データで発生する最大整数インデックス。output_dim:int> =0。密な埋め込みの次元 そして、それはラザニアでそれがどのように説明されるかです: 単語を埋め込むためのレイヤー。入力は整数型のテンソル変数でなければなりません。 パラメーター:incoming:Layerインスタンスまたはタプル このレイヤーに入力するレイヤー、または予想される入力形状。 input_size:int さまざまな埋め込みの数。最後の埋め込みのインデックスはinput_size-1です。 output_size:int 各埋め込みのサイズ。 W:Theano共有変数、式、numpy配列または呼び出し可能 埋め込み行列の初期値、式または初期化子。これは、形状(input_size、output_size)の行列でなければなりません。詳細については、lasagne.utils.create_param()を参照してください。 例 >>> from lasagne.layers import EmbeddingLayer, InputLayer, get_output >>> import theano >>> x …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.