タグ付けされた質問 「methodology」

統計手法や統計手法の選択についての質問。

6
クラスタリング方法の選択
データセットでクラスター分析を使用して同様のケースをグループ化する場合、多数のクラスタリング手法と距離の測定値から選択する必要があります。場合によっては、1つの選択が他の選択に影響を与える可能性がありますが、多くの方法の組み合わせが可能です。 誰もがさまざまなクラスタリングアルゴリズム/方法と距離測定の選択方法に関する推奨事項を持っていますか?これは、変数の性質(カテゴリまたは数値など)およびクラスタリングの問題とどのように関連していますか?最適なテクニックはありますか?

4
FisherとNeyman-Pearsonフレームワークを使用する場合
最近、フィッシャーの仮説検定の方法とネイマン・ピアソンの考え方との違いについてたくさん読んでいます。 私の質問は、哲学的な異議をしばらく無視することです。統計モデリングのフィッシャーのアプローチをいつ使用する必要があり、有意水準などのネイマン・ピアソン法を使用する必要があるのか​​?特定の実用的な問題でどの視点を支持するかを決定する実用的な方法はありますか?

30
最も有名な統計学者
最も重要な統計学者とは何ですか、そしてそれらを有名にしたのは何ですか? (回答ごとに1人の科学者に返信してください。)

2
ブートストラップ法に必要なサンプルサイズの決定/提案法
これは、誰も実際に簡単な答えを出すことができない、かなりホットなトピックであることを知っています。それにもかかわらず、次のアプローチが役に立たないのではないかと思っています。 ブートストラップ法は、サンプルが元の母集団とほぼ同じ分布をたどる(正確に読む)場合にのみ役立ちます。これを確実にするには、サンプルサイズを十分に大きくする必要があります。しかし、十分な大きさは何ですか? 私の前提が正しければ、中央限界定理を使用して母平均を決定するときに同じ問題が生じます。サンプルサイズが十分に大きい場合にのみ、サンプル平均の母集団が正規分布(母集団平均付近)であることを確認できます。言い換えると、サンプルは母集団(分布)を十分に表す必要があります。しかし、再び、何が十分な大きさですか? 私の場合(管理プロセス:需要を完了するのに必要な時間対需要の量)私はマルチモーダル分布(2011年に終了するすべての需要)のある人口を持っています。人口よりも通常分布している(現在の日と過去の日の間で終了するすべての要求、理想的にはこのタイムスパンはできるだけ小さい)研究したい。 2011年の人口は、サンプルサイズサンプルを作成するのに十分な単位ではありません。値を選択し、 ()と仮定します。ここで、試行錯誤を行って適切なサンプルサイズを決定します。を取り、サンプル平均母集団がKolmogorov-Smirnovを使用して正規分布しているかどうかを確認します。そうであれば、サンプルサイズで同じ手順を繰り返しますが、サンプルサイズ(など)で繰り返しません。バツバツxnnnバツバツx101010x = 10バツ=10x=10n = 50n=50n=50404040606060 しばらくして、2011年の母集団を多かれ少なかれ適切に表現するために、が絶対最小サンプルサイズであると結論付けました。関心のある母集団(現在の日と過去の日の間に終了するすべての要求)のばらつきが少ないことがわかっているため、ブートストラップにサンプルサイズを安全に使用できます。(間接的に、はタイムスパンのサイズを決定します:要求を完了するのに必要な時間。)n = 45n=45n=45n = 45n=45n=45n = 45n=45n=45454545 要するに、これは私の考えです。しかし、私は統計学者ではなく、統計学の授業がその先の日に行われたエンジニアなので、多くのゴミを生成した可能性を排除することはできません:-)。皆さんはどう思いますか?私の前提が理にかなっている場合、より大きいを選択する必要がありますか?あなたの答え次第です(恥ずかしいと思う必要がありますか?:-)さらにディスカッションのアイデアを投稿します。バツバツx101010 最初の回答に対する回答返信いただきありがとうございます。あなたの回答は、特に本のリンクに関して非常に役に立ちました。 しかし、私は情報を提供しようとして、質問を完全に曇らせたことに不満を感じています。ブートストラップサンプルが母集団サンプルの分布を引き継ぐことを知っています。私は完全にあなたに従いますが... 元の母集団サンプルは、母集団サンプルの分布が母集団の「実際の」分布に対応する(等しい)ことをある程度確実にするのに十分な大きさである必要があります。 これは、サンプル分布が母集団分布と一致することを合理的に確認するために、元のサンプルサイズがどれだけ大きくする必要があるかを判断する方法に関する単なるアイデアです。 二峰性の人口分布があり、一方の頂点が他方の頂点よりもはるかに大きいとします。サンプルサイズが5の場合、5つのユニットすべてが大きなトップに非常に近い値を持つ可能性が高くなります(ユニットをランダムに描画する広告のチャンスは最大です)。この場合、サンプル分布はモノモーダルになります。 サンプルサイズが100の場合、サンプル分布もバイモーダルである可能性ははるかに大きくなります!! ブートストラップの問題は、サンプルが1つしかないことです(そして、そのサンプルをさらにビルドします)。サンプル分布が実際に母集団分布と一致しない場合、問題が発生しています。これは、サンプルサイズを無限に大きくすることなく、「悪いサンプル分布」の可能性をできるだけ低くするためのアイデアです。

2
Joel Spolskyの「Hunting of the Snark」は、有効な統計コンテンツ分析を投稿していますか?
最近コミュニティ速報を読んでいるなら、StackExchangeネットワークのCEOである Joel SpolskyによるStackExchange公式ブログへの投稿であるThe Hunting of the Snarkを見たことがあるでしょう。彼は、外部ユーザーの観点から「友好性」を評価するために、SEのコメントのサンプルで実施された統計分析について議論しています。コメントはStackOverflowからランダムにサンプリングされ、コンテンツアナリストはAmazonのMechanical Turkコミュニティのメンバーでした。これは、手頃な料金で小規模で短いタスクを行う労働者に企業をつなぐ仕事の市場です。 少し前まで、私は政治学の大学院生であり、私が受講したクラスの1つは統計コンテンツ分析でした。クラスの最終プロジェクトは、実際その全体的な目的は、ニューヨークタイムズの戦争報告の詳細な分析を行い、アメリカ人が戦争中のニュース報道について行った多くの仮定が正確であったかどうかをテストすることでした(ネタバレ:彼らがない)。このプロジェクトは巨大でとても楽しいものでしたが、最も苦痛だったのは「トレーニングと信頼性のテストフェーズ」で、これは完全な分析を行う前に発生しました。これには2つの目的がありました(詳細な説明、およびコンテンツ分析統計文献のインターコーダー信頼性基準への参照については、リンクされたペーパーの9ページを参照)。 すべてのコーダー、つまりコンテンツの読者が、同じ定性的な定義でトレーニングされたことを確認します。ジョエルの分析では、これは誰もがプロジェクトが「友好的」と「非友好的」をどのように定義したかを正確に知っていることを意味しました。 すべてのコーダーがこれらのルールを確実に解釈したことを確認します。つまり、サンプルをサンプリングし、サブセットを分析し、定性的評価のペアワイズ相関が非常に類似していることを統計的に示しました。 信頼性テストは、3〜4回やらなければならなかったので痛いです。-1-がロックダウンされ、-2-が十分なペアワイズ相関を示すまで、完全な分析の結果は疑わしいものでした。有効または無効であることを証明できませんでした。最も重要なことは、最終的なサンプルセットの前に信頼性のパイロットテストを行う必要があったことです。 私の質問はこれです:ジョエルの統計分析にはパイロットの信頼性テストがなく、「友好性」の運用上の定義を確立しませんでした。最終データは、彼の結果の統計的妥当性について何か言うほど信頼できるものでしたか? 1つの観点から、インターコーダーの信頼性と一貫した運用定義の価値に関するこの入門書を検討してください。同じソースの詳細から、パイロットの信頼性テストについて読むことができます(リストの項目5)。 Andy W.の彼の答えの提案に従って、Rのこのコマンドシリーズを使用して、ここで入手可能なデータセットのさまざまな信頼性統計を計算しようとしています(新しい統計を計算すると更新されます)。 記述統計はこちら パーセント契約 (許容差= 0):0.0143 パーセント契約(許容差= 1):11.8 クリッペンドルフのアルファ: 0.1529467 また、別の質問でこのデータのアイテム応答モデルを試しました。

3
最初に試す上位5つの分類子
のような明らかな分類器の特徴に加えて 計算コスト 機能/ラベルの期待されるデータタイプと データセットの特定のサイズと次元への適合性、 まだあまり知られていない新しいデータセット(たとえば、セマンティクスと個々の機能の相関)で最初に試す上位5(または10、20?)分類子は何ですか?通常、Naive Bayes、Nearest Neighbor、Decision Tree、SVMを試します。ただし、この選択を行う理由はありません。 最も重要な一般的な分類アプローチをカバーする分類器を選択する必要があると思います。その基準に従って、またはその他の理由で、どの選択をお勧めしますか? 更新:この質問の別の定式化は、「分類に対する一般的なアプローチが存在し、最も重要/人気のある/有望な方法をカバーする特定の方法はどれですか?」です。

1
先験的な消費電力解析は本質的に役に立たないのですか?
先週パーソナリティと社会心理学会の会議に出席しました。そこでは、先験的な検出力分析を使用してサンプルサイズを決定することは、結果が仮定に非常に敏感であるため本質的に役に立たないという前提でUri Simonsohnの講演を見ました。 もちろん、この主張は、私のメソッドクラスで教えられたものと、多くの著名な方法論者の推薦(特にCohen、1992)に反するため、ウリは彼の主張に関連するいくつかの証拠を提示しました。この証拠のいくつかを以下で再現しようとしました。 簡単にするために、2つのグループの観測値がある状況を想像して、(標準化された平均差で測定される)効果サイズがと推測します。標準的な電力計算(以下のパッケージを使用して行われます)では、この設計で80%の電力を得るには観測値が必要であることがわかります。.5.5.5Rpwr128128128 require(pwr) size <- .5 # Note that the output from this function tells you the required observations per group # rather than the total observations required pwr.t.test(d = size, sig.level = .05, power = .80, type = "two.sample", alternative = "two.sided") ただし、通常、予想される効果の大きさについての推測は(少なくとも私の研究分野である社会科学では)まさにそれです-非常に大まかな推測です。エフェクトのサイズについての推測が少しずれている場合はどうなりますか?迅速な電力計算は、効果の大きさがある場合ことを示していますの代わりに、あなたが必要とする -観測あなたはの効果の大きさのために十分な力を持っている必要があると倍の数。同様に、エフェクトのサイズが場合、必要な観測値はだけです。これはエフェクトサイズを検出するのに十分なパワーが必要なものの70%です。.4.4.4.5.5.52002002001.561.561.56.5.5.5.6.6.6909090.50.50.50。事実上、推定観測の範囲が非常に大きいです-に。909090200200200 この問題に対する応答の1つは、効果のサイズを純粋に推測する代わりに、過去の文献またはパイロットテストを通じて、効果のサイズに関する証拠を収集することです。もちろん、パイロットテストを実行している場合は、パイロットテストを十分に小さくして、スタディの実行に必要なサンプルサイズを決定するためだけにスタディのバージョンを実行するのではなく(たとえば、パイロットテストで使用するサンプルサイズを調査のサンプルサイズよりも小さくする必要があります)。 Uri Simonsohnは、電力分析で使用される効果の大きさを決定するためのパイロットテストは役に立たないと主張しました。私が実行した次のシミュレーションを検討してくださいR。このシミュレーションでは、母集団効果のサイズがと想定しています。次に、サイズ40の1000回の「パイロットテスト」を実行し、10000個のパイロットテストのそれぞれから推奨されるNを集計します。.5.5.5100010001000NNN …

2
季節ごとの分解方法の選択
季節調整は、さらなる研究のためにデータを前処理する重要なステップです。ただし、研究者には、トレンドサイクルと季節性の分解に関する多くのオプションがあります。最も一般的な(経験的文献の引用数から判断する)競合する季節分解法は、X-11(12)-ARIMA、Tramo / Seats(両方ともDemetra +で実装)およびのstlです。上記の分解手法(または季節ダミー変数のような他の単純な手法)間のランダムな選択を回避するために、季節分解手法を効果的に選択するための基本戦略を知りたいと思います。RRR いくつかの重要なサブ質問(ディスカッションへのリンクも歓迎)は次のとおりです。 メソッドの類似点と相違点、長所と短所は何ですか?ある方法が他の方法よりも望ましい特別なケースはありますか? さまざまな分解方法のブラックボックスの中にあるものへの一般的なガイドを提供できますか? メソッドのパラメーターを選択するための特別なトリックはありstlますか? 時系列が効率的に季節的に調整されるいくつかの(統計)基準(コレログラム分析、スペクトル密度、小さなサンプルサイズの基準、ロバストネス)を提案することは可能ですか?



4
統計ツールの不適切な使用による費用のかかる結果の例
統計ツールのほとんどのユーザーは、補助的なユーザー(統計に関する正式なトレーニングがほとんど、またはまったくなかった人々)であると思われます。研究者や他の専門家がデータに統計的手法を適用するのは非常に魅力的です。なぜなら、査読付き論文、灰色の文献、ウェブ、または会議でそれを「前に」見たからです。ただし、必要な仮定と統計ツールの制限を明確に理解せずにこれを行うと、誤った結果が生じる可能性があります。多くの場合、エラーは未確認です。 学部生(特に社会科学および自然科学)は、統計的な落とし穴に気付いていないか、これらの落とし穴が取るに足らないものであることがわかります(後者が最もよくあるケースです)。統計ツールの不適切な使用の例は多くの入門レベルのテキストブック、Web、またはStackExchangeで見つけることができますが、有害な結果をもたらした現実の例を見つけるのは困難です。そのために、統計手法の誤用を強調する実世界の例を探しています。 使用される統計的手法は、通常、入門的な統計コース(つまり、推論統計、回帰など)でカバーされます。 最終結果は、費用のかかる結果をもたらしました(ドルの損失、生活への影響、キャリアの粉砕など) このデータは、コースの実例としてすぐに使用できます(目的は、学生に実世界の結果をもたらした実世界の実例を通して作業させることです)。 研究プロジェクトでユニットを適切に定義することの重要性を議論する際に学生に提示したい非統計的な例の1つは、1億2,500万ドルの衛星の損失につながった「メトリックミス」です。これは通常、学生からの:-o要因を呼び出し、永続的な印象を持っているように見えます(少なくとも彼らの短い学業期間を通して)。

2
査読済みのウィキStatProb.comで公開する価値はありますか?[閉まっている]
休業。この質問は意見に基づいています。現在、回答を受け付けていません。 この質問を改善してみませんか?この投稿を編集して、事実と引用で回答できるように質問を更新してください。 6か月前に閉鎖。 バックグラウンド Andrew GelmanのブログのコメントからStatProb.comについて読みました。 ウェブサイトによると、StatProbは次のとおりです。 StatProb:Statistics and Probability Societiesが主催する百科事典は、従来のwiki(迅速で最新の公開、ユーザー生成の開発、ハイパーリンク、および保存された履歴)の利点と従来の公開(品質保証、レビュー、著者への信用)を組み合わせたものです。 、および構造化された情報の表示)。すべての寄稿は、主要な統計学会によって決定された編集委員会によって承認されています。編集委員会のメンバーはAboutページにリストされています。 私は統計学者ではありませんが、統計情報を使用しています。このサイトは、他の人には役立つ可能性があるが、付録として含めたり、ウェブサイトに投稿したりしない限り、非公開になる可能性のある資料を公開する機会を提供しているようです。審査プロセスは、私が使用する方法に対する私自身の自信を高め、公共の場である程度の信頼性を与えるため、このオプションは魅力的です。 主要な統計と確率社会のサポートにもかかわらず、サイトは離陸していません。確かに、あるブロガーは「RIP StatProb?」そして寄付の頻度は時間とともに減少しています。 質問: StatProb.comを通じて公開するのは、努力する価値がありますか? 更新: 本日(2012-02-01)の時点で、最新の貢献は2011-05-04でした。最新の編集2011-06。そのため、質問が最初に尋ねられたときよりも今日はあまり魅力的ではないように見えます。

1
メソッド選択に適したフレームワークは何ですか?
私はメソッド選択の理論的フレームワーク(注:モデル選択ではない)を調査しており、体系的で数学的に動機付けられた研究はほとんど見つかりませんでした。「メソッドの選択」とは、問題または問題のタイプに関して適切な(またはより良い、最適な)メソッドを区別するためのフレームワークを意味します。 私が見つけたのは、断片的である場合でも、特定の方法とその調整(つまり、ベイズ法での事前選択)、およびバイアス選択による方法選択(例:帰納的ポリシー:バイアス選択のプラグマティクス)にかなりの労力を費やしています。機械学習の開発のこの初期段階では非現実的かもしれませんが、許容可能な変換とテストをスケールタイプで処方する際に測定理論が行うようなものを見つけたいと思っていました。 助言がありますか?

3
統計モデルの非線形性の基準と意思決定とは何ですか?
次の一般的な質問が意味をなすことを願っています。この特定の質問の目的のために、非線形性を導入するための理論的な(対象ドメイン)理由には興味がないことに注意してください。したがって、質問全体を次のように定式化します。 理論的(対象領域)以外の理由で統計モデルに非線形性を導入するための論理的なフレームワーク(基準、および可能であれば意思決定プロセス)とは何ですか? いつものように、関連するリソースやリファレンスも歓迎します。

5
最初にベイジアンモデルを適合させてから、事前分布を弱め始めることは問題ありませんか?
頻出統計を行う場合、より多くのデータを収集することを決定する前に統計的検定の結果を確認するなど、大きな禁止事項の長いリストがあります。ベイジアン統計に含まれる方法論について同様のno-nosリストがあるかどうか、一般的には次のいずれかであるかどうか、私は一般的に思っています。 最近、私がフィッティングしている一部のモデルについて、私のプロセスは、情報を提供する事前分布をモデルに適合させ、それが機能するかまたは爆発するかを確認し、次に、事前情報を弱くするか、情報を提供しないか、弱くすることであることに気づきました。モデルを再フィットします。 これに対する私の動機は、これらのモデルをJAGS / Stanで作成しているという事実に関係しています。そして、私の心では、統計的なものよりもプログラミングタスクのように扱ってきました。したがって、私は最初の実行を行い、有益な事前分布を使用してすばやく収束するようにリギングして、作成したモデルのエラーを簡単にキャッチできるようにします。次に、モデルをデバッグした後、情報が不十分な、または情報量の少ない事前計算を行います。 私の質問は、私がこのプロセスでいくつかの深刻なルールを破っているのかどうかです。たとえば、私の推論を有効にして、研究者の自由度を活用することを避けるために、モデルのフィッティングを開始する前に特定の事前確率にコミットする必要がありますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.