私は最近、論文で統計をレビューすることに関する一般的な原則に関する質問をしました。私が今お聞きしたいのは、論文をレビューするときに特にイライラさせるもの、つまり統計的レフリーを本当に悩ませる最善の方法です!
回答ごとに1つの例をお願いします。
私は最近、論文で統計をレビューすることに関する一般的な原則に関する質問をしました。私が今お聞きしたいのは、論文をレビューするときに特にイライラさせるもの、つまり統計的レフリーを本当に悩ませる最善の方法です!
回答ごとに1つの例をお願いします。
回答:
個人的に特にイライラさせられるのは、統計ソフトウェアにユーザー作成パッケージを明確に使用しているが、それらを適切に、またはまったく引用していないため、著者に信用を与えられない人々です。著者が学界にいて、彼らの仕事が引用される出版論文に依存している場合、そうすることは特に重要です。(おそらく、私の分野では、犯人の多くは統計学者ではないことを付け加えるべきです。)
良かった、たくさんのことが思い浮かぶ...
段階的回帰
p値を与えるが効果の大きさの尺度を与えない
データがほぼ対称でユニモーダルであるかどうかを示すことなく、平均と標準偏差を使用してデータを記述します
明確なキャプションのない数字(これらのエラーバーは平均の標準誤差、またはグループ内の標準偏差、または何ですか?)
アイリーンストラットンと同僚は、密接に関連した質問に関する短い論文を発表しました。
Stratton IM、Neil A. 論文が統計レビューアによって拒否されたことを確認する方法。糖尿病医学 2005; 22(4):371-373。
シミュレーション結果の生成に使用されるコードは提供されていません。コードを要求した後、レフリーが生成したデータセットで実行するには、追加の作業が必要です。
盗作(理論的または方法論的)。私の最初のレビューは、10年前に出版された確立された方法論論文から参照されていない多くのコピー/ペーストを考えた論文に対するものでした。
このトピックに関するいくつかの興味深い論文を見つけました:科学における原作者と盗作。
同じように、(データまたは結果の)改ざんがすべての中で最悪だと思います。
著者に
そして、作者は(1)の場合には実際には答えていないか、(2)の原因となった結果がMSから消えている場合。
既存の概念を表す新しい単語を考え出す、またはその逆、既存の用語を使用して異なる何かを示す。
既存の用語の差異のいくつかは、長い間文献に定着しています。生物統計学の縦断的データ対計量経済学のパネルデータ。社会学の原因と結果の指標対心理学の形成と反射の指標。等。私はまだそれらを憎みます、しかし、少なくともあなたはそれぞれの文献でそれらの各々への数千の参照を見つけることができます。最新のものは、因果関係文献における有向非巡回グラフに関する一連の研究全体です。これらの同定と推定の理論のすべてではないにしても、ほとんどは、1950年代に連立方程式の名前で計量経済学者によって開発されました。
トリプルではないにしてもダブルの意味を持つ用語は「堅牢」であり、異なる意味はしばしば矛盾しています。「堅牢な」標準誤差は、外れ値に対して堅牢ではありません。さらに、それらはモデルからの想定された偏差以外に対して堅牢ではなく、多くの場合、サンプルのパフォーマンスが非常に低くなります。ホワイトの標準誤差は、シリアルまたはクラスター相関に対してロバストではありません。SEMの「堅牢な」標準エラーは、モデル構造の指定ミス(パスまたは変数の省略)に対して堅牢ではありません。帰無仮説の有意性テストのアイデアと同様に、誰かに指を向けて「実際にはその名前を表していないこのコンセプトを生み出した研究者の数世代を混乱させる責任があります」と言うことは不可能です。
gllamm
データをマルチレベル/階層データと見なすStataパッケージがありますが、他のほとんどのパッケージは、複数の測定値を変数/列、サンプルを観測値/行と見なします。
欠落データのゼロ考慮。
多くの実用的なアプリケーションは、少なくともいくつかの欠損値があるデータを使用します。これは確かに疫学において非常に真実です。データが欠落していると、線形モデルを含む多くの統計的手法に問題が生じます。線形モデルの欠損データは、共変量の欠損データのあるケースを削除することで対処できます。これは、データが完全にランダムに欠落している(MCAR)という仮定の下でデータが欠落していない限り、問題です。
おそらく10年前には、線形モデルの結果を公開することは、それ以上の欠落を考慮せずに合理的でした。私は確かにこれについて有罪です。ただし、統計パッケージ/モデル/ライブラリ/などと同様に、複数の代入を使用して欠損データを処理する方法に関する非常に優れたアドバイスが広く利用可能になりました。欠落が存在する場合、より合理的な仮定の下でより適切な分析を促進するため。
「重要性に近づいた(たとえばp <.10)影響を報告し、より厳格で許容可能なレベルで重要性に達したかのようにそれらについて書きます。ネストされていない複数の構造方程式モデルを実行し、確立された分析戦略を採用し、それを使用することを誰も考えたことがないかのように提示します。おそらく、これは盗作と見なされます。
次の2つの記事をお勧めします。
マーティンブランド:
統計的レフリーを混乱させる方法
これは、マーティンブランドが行った一連の講演と、他の統計的レフリーからのデータ(「応答率の低い便利なサンプル」)に基づいています。最後に、「統計的レフリーの混乱を避けるために[h] ow」の11ポイントのリストがあります。
Stian Lydersen:
統計レビュー:頻繁に寄せられるコメント
この最近の論文(2014/2015年公開)には、著者の最も一般的な14のレビューコメントがリストされています。科学論文の200の統計レビュー(特定のジャーナル)。各コメントには、問題の簡単な説明と、分析/レポートの適切な実行方法に関する指示が含まれています。引用文献のリストは、興味深い論文の宝庫です。
私は、テストデータが独立していない予測モデルの一般化エラーを目的とした「検証」に最も(そして最も頻繁に)悩まされています患者)。
さらに厄介なのは、そのような欠陥のあるクロス検証結果に加えて、クロス検証の過度に楽観的なバイアスを実証する独立したテストセットを提供する論文ですが、クロス検証の設計が間違っているという一言ではありません...
(同じデータが提示されれば、私は完全に幸せです。「クロスバリデーションは患者を分割する必要があることはわかっていますが、これを許可しないソフトウェアに固執しています。したがって、さらに独立した一連のテスト患者をテストしました。 ")
(ブートストラップ=置換ありのリサンプリングは、通常、クロス検証=置換なしのリサンプリングよりも優れていることを認識しています。ただし、クロス検証と反復を繰り返す分光データ(シミュレートされたスペクトルとわずかに人工的なモデル設定ですが、実際のスペクトル)が見つかりましたブートストラップの全体的な不確実性はほぼ同じでした; oobのバイアスは大きくなりましたが、変動は少なかった-再考のために、私はこれを非常に実用的な観点から見ていきます:テストサンプルサイズが限られているため、患者ごとに分けたり、レポート/ディスカッション/メンションのランダムな不確実性を持たない)
間違っていることに加えて、これは、適切な検証を行う人々がしばしば、その結果が文献の他のすべての結果よりもはるかに悪い理由を守る必要があるという副作用もあります。
特異な意味での「データ」の使用。データはありますが、決してありません。
私にとっては、適切な原因分析なしで原因を特定したり、不適切な原因推論がある場合です。
また、欠落データの処理方法に注意が向けられていない場合も嫌いです。著者が完全なケース分析を行うだけで、結果が欠損値のある母集団に一般化できるかどうか、欠損値のある母集団が完全なデータのある母集団とどのように系統的に異なるかについては言及していない論文もたくさんあります。