統計レフリーを困らせる方法は?


102

私は最近、論文で統計をレビューすることに関する一般的な原則に関する質問をしました。私が今お聞きしたいのは、論文をレビューするときに特にイライラさせるもの、つまり統計的レフリーを本当に悩ませる最善の方法です!

回答ごとに1つの例をお願いします。


最初のレビューに応じて受け取った正当化に適用されますか?
chl

@chl:はい、なぜですか。
csgillespie

回答:


69

個人的に特にイライラさせられるのは、統計ソフトウェアにユーザー作成パッケージを明確に使用しているが、それらを適切に、またはまったく引用していないため、著者に信用を与えられない人々です。著者が学界にいて、彼らの仕事が引用される出版論文に依存している場合、そうすることは特に重要です。(おそらく、私の分野では、犯人の多くは統計学者ではないことを付け加えるべきです。)


2
私のために+1。これは、彼らが間違ったことを引用し、私はパッケージを引用する方法についての関連する詳細情報を提供してきました場合は特に、私を失望させる
ギャビン・シンプソン

3
質問:パッケージを引用するとき、ビネット(存在する場合)またはパッケージ自体を引用しますか?
ブランドンバーテルセン

7
@Brandon:パッケージ作成者があなたをガイドすることに十分気を配っている場合、彼らはcitation( "some_package")によってピックアップされる形式で答えを与えました
ベンボルカー

2
画期的な論文を作成するのは簡単ではありませんが、引用を取得する最も簡単な方法は、少なくとも1つのエラーを論文に残すことです。次に、元の論文を引用する修正を公開できます。修正に誤りを残しておくと、元の修正と元の論文を参照する修正を公開できます(1年生の学生のようなものを見ました)。引用の数はO(N ^ 2)プロセスとして増加します。Nは修正の数です。
マークL.ストーン

67

良かった、たくさんのことが思い浮かぶ...

  • 段階的回帰

  • 連続データをグループに分割する

  • p値を与えるが効果の大きさの尺度を与えない

  • データがほぼ対称でユニモーダルであるかどうかを示すことなく、平均と標準偏差を使用してデータを記述します

  • 明確なキャプションのない数字(これらのエラーバーは平均の標準誤差、またはグループ内の標準偏差、または何ですか?)


5
段階的回帰の弾丸について少し興味があります。ステップワイズ回帰がそれほど悪いのはなぜですか?データのedと多重比較の問題ですか?
クリストファーアデン

17
問題は、段階的な手順が、p値に基づいた「通常の」推論統計のすべての仮定と前提条件を完全に無効にし、それがひどくバイアスされる(「より重要」になる方向に下向き)ことです。したがって、基本的に答えは「はい」であり、これらの複数の比較すべてを原則として修正できるという警告があります(しかし、私は見たことがない)。これが、心理学の多くの研究で再現できない最も重要な理由であると強く信じています。
ステファンKolassa

10
@Stephan:私は同意します、ステップワイズは悪い考えです。しかし、彼らはまだサイケの方法に達していないかもしれませんが、推定値と標準誤差を調整することにより、過剰適合に関連するバイアスを調整するさまざまな選択手順があります。これは通常、多重比較の問題とは考えられていません。それらは収縮法として知られています。このスレッドでの私の回答< stats.stackexchange.com/questions/499/… >と、投げ縄でのHarrellの "Regression Modeling Strategies"またはTibshiraniをご覧ください。
ブレット

5
@Brett Magill:+1。そして、はい、収縮と投げ縄について知っています。今私が必要とするのは、これらが理にかなっていることを心理学者に納得させる方法だけです...しかし、人々は心理学者に信頼区間を報告させるために非常に限られた成功で戦っています。 20年。
ステファンKolassa

10
また、心理学では予測の最大化は通常理論的な目的ではありませんが、段階的に回帰することは予測を最大化することです。したがって、通常、手順と質問の間には切断があります。
ジェロミーアングリム


32

シミュレーション結果の生成に使用されるコードは提供されていません。コードを要求した後、レフリーが生成したデータセットで実行するには、追加の作業が必要です。


2
そして、フォーマットが不十分で、コメント化されておらず、判読できない変数名と関数名を使用しています。うん。
-naught101

30

盗作(理論的または方法論的)。私の最初のレビューは、10年前に出版された確立された方法論論文から参照されていない多くのコピー/ペーストを考えた論文に対するものでした。

このトピックに関するいくつかの興味深い論文を見つけました:科学における原作者と盗作

同じように、(データまたは結果の)改ざんがすべての中で最悪だと思います。


20
審判としての私の初期の頃には、私が過ごしたことを思い出すはるかにあまりにも長い間、最終的にその特定のジャーナルによって拒否された統計的な論文の見直しが、他の審判と私は方法のために、より便利なアプリケーションを提案し、私も代数的証明をスケッチ原稿の不十分なシミュレーション研究を置き換える。その後、著者は2つの公開論文を発表しました。私はそれに悩まされていませんが、「有益なコメントを寄せてくれた以前のバージョンのレフェリーに感謝します」などの謝辞は良いマナーだったでしょう。
ワンストップ

1
はい@onestop、私はこのような状況があるかもしれない...どのようにがっかり想像することができます
CHL

24
数週間前、私はレビューする論文を与えられ、その85%が同じ著者によって別のジャーナルに掲載されていたことがわかりました。それもやはり盗作と見なされています。過去数年間、私はレビューを行う前に、ウェブ検索エンジン大量の論文、特に要約、紹介、結論を定期的に提出してきました。読むことに時間をかける前に、作品がオリジナルであることを確認したい。
whuber

7
+ 1、@ whuber。方法論誌の編集者として、私はしばしば、貢献が(原則として、定評のある著者から、若い作家はまだその軌跡に到達していない)その出版物を正当化するかどうかを判断するという困難な仕事をしています。これまでの5つの論文を構成する8つのレゴブロックを別の方法で再構成しました。これにより、これらの著者が発行した先行の50の論文の貢献についても疑問に思うようになります。
。-StasK

26

著者に

  1. 私たちが持っているアイデアについてのマイナーなコメント(この意味では、これは論文を拒否する理由としてではなく、著者が別のPOVについて議論できることを確認するためだけのものです)、または
  2. 不明確または矛盾する結果、

そして、作者は(1)の場合には実際には答えていないか、(2)の原因となった結果がMSから消えている場合。


7
不思議なことに結果が消えるのは、自動拒否であるはずです。これは「舞台裏」で(つまり、論文が提出される前に)頻繁に起こると思いますが、これは論文の通常の読者には決してわからない「チェリーピッキング」の明確な証拠です。
マクロ

3
オープンピアレビューシステムのもう1つの理由。
fmark 14

24

紛らわしいp値と効果のサイズ(つまり、私は本当に小さなp値を持っているため、私の効果が大きいと述べています)。

効果サイズを除外するがp値を与えるというStephanの答えとは少し異なります。私はあなたが両方を与えるべきであることに同意します(そして、うまくいけば違いを理解してください!)


23

エフェクトサイズは含まれません。

研究全体にわたってP-ingを実行します(その行については、私の好きな大学院の教授を称賛する必要があります)。

途方もない桁数を与える(男性は女性より3.102019ポンド多くなりました)

ページ番号を含めない(確認しにくくなる)

数字と表の番号の誤り

(すでに述べたように、連続変数を段階的に分類します)


7
(+1)「途方もない数の桁を与える(男性は女性より3.102019ポンド多くなりました)」と大声で笑った。
マクロ

19

分析を十分に説明していない場合、および/または実際に行われたことを解決するのを困難にする単純なエラーが含まれている場合。これには多くの場合、説明のために多くの専門用語を投げることが含まれます。


同意する-科学的内容を評価する前に著者が何を意味するのか理解するのに苦労するのは本当に面倒です。
ローラン

5
同意しますが、分析に関する現実的に非常に重要な詳細を省略(または補足資料に移動)するようにレビュアーから指示されると、さらに面倒です。この問題により、ほんのわずかに複雑な分析を行う多くの科学/社会科学論文でも、その点でかなり謎めいています。
マクロ

16

省略された変数の場合に、観察データの関連を記述するために因果言語を使用することは、ほぼ確実に重大な懸念事項です。


3
私は、研究者が観察研究の設計の責任、特に省略された変数に関連するものを理解する必要があることに同意しますが、因果関係のある言葉を避けることはこれを行うとは思いません。因果関係のある言語の使用を防御するためのより詳細な議論については、Hubert Blalockの研究、特に彼の著書「非実験的研究における因果推論」を参照してください。
アンディW

3
(+1)これは、疫学研究における私の最大の問題かもしれません。
マクロ

14

著者が知っている1つの統計的検定(私の分野では、通常はt検定またはANOVA)を使用する場合、それが適切かどうかにかかわらず、無限に続きます。私は最近、著者が十数種類の治療グループを比較したい論文をレビューしたので、彼らは可能な治療ペアごとに2サンプルのt検定を行っていました...


13

既存の概念を表す新しい単語を考え出す、またはその逆、既存の用語を使用して異なる何かを示す。

既存の用語の差異のいくつかは、長い間文献に定着しています。生物統計学の縦断的データ対計量経済学のパネルデータ。社会学の原因と結果の指標対心理学の形成と反射の指標。等。私はまだそれらを憎みます、しかし、少なくともあなたはそれぞれの文献でそれらの各々への数千の参照を見つけることができます。最新のものは、因果関係文献における有向非巡回グラフに関する一連の研究全体です。これらの同定と推定の理論のすべてではないにしても、ほとんどは、1950年代に連立方程式の名前で計量経済学者によって開発されました。

トリプルではないにしてもダブルの意味を持つ用語は「堅牢」であり、異なる意味はしばしば矛盾しています。「堅牢な」標準誤差は、外れ値に対して堅牢ではありません。さらに、それらはモデルからの想定された偏差以外に対して堅牢ではなく、多くの場合、サンプルのパフォーマンスが非常に低くなります。ホワイトの標準誤差は、シリアルまたはクラスター相関に対してロバストではありません。SEMの「堅牢な」標準エラーは、モデル構造の指定ミス(パスまたは変数の省略)に対して堅牢ではありません。帰無仮説の有意性テストのアイデアと同様に、誰かに指を向けて「実際にはその名前を表していないこのコンセプトを生み出した研究者の数世代を混乱させる責任があります」と言うことは不可能です。


1
私は両方の罪を犯すことを認めなければなりません:私は自分のデータを「階層構造を持つ:1:n関係(各サンプルの多くの測定、患者ごとの複数のサンプル)があるとき」と説明します。 「クラスター化された」データ構造と呼ばれます-今では両方の用語を使用していますが、その用語をどのように見つけることができるかはまだわかりませんが、データ構造を説明する言葉を必死に探しました...私は、リモートセンシングでソフトの分類と呼ばれている技術を使用してマイフィールド(ケモメトリックス)を全く異なる意味でそれを使用しています。。
cbeleites

2
これで十分です。この構造を参照する方法のリストに「マルチレベル」を追加することもできます。「クラスター化」とは、通常、観測値が相関していることがわかっていることを意味しますが、その相関関係は主に関心がないため、その相関関係をモデル化することを気にしません。あなたが持っているのは、反復測定MANOVAのようなものです。gllammデータをマルチレベル/階層データと見なすStataパッケージがありますが、他のほとんどのパッケージは、複数の測定値を変数/列、サンプルを観測値/行と見なします。
StasK

入力いただきありがとうございます。さて、今日私はもちろんそれがどのように呼ばれるのかをここで尋ねます...それは正確に繰り返される測定ではありません:通常、さまざまな成分の偽色マップを作成し、各測定にはすでに10 ^ 2〜10 ^ 3の観測値(スペクトル内の波長)があります。各サンプル内で、多くのスペクトルは高度に相関していますが、すべてではありません。サンプルは均一ではありません。...
cbeleites

1
...「クラスタ化された」という説明は、私たちがやっていることと非常によく似ています。しかし、検証のためにサンプルを分割するように注意し、有効なサンプルサイズについてはわからない(少なくとも実際のサンプルの数であることを除けば)と時々、それらのすべての測定値があることを示しますサンプルは実際にモデルのトレーニングに役立ちます。
-cbeleites

1
興味深い、挑戦的なデータ、確かに。
StasK

11

欠落データのゼロ考慮。

多くの実用的なアプリケーションは、少なくともいくつかの欠損値があるデータを使用します。これは確かに疫学において非常に真実です。データが欠落していると、線形モデルを含む多くの統計的手法に問題が生じます。線形モデルの欠損データは、共変量の欠損データのあるケースを削除することで対処できます。これは、データが完全にランダムに欠落している(MCAR)という仮定の下でデータが欠落していない限り、問題です。

おそらく10年前には、線形モデルの結果を公開することは、それ以上の欠落を考慮せずに合理的でした。私は確かにこれについて有罪です。ただし、統計パッケージ/モデル/ライブラリ/などと同様に、複数の代入を使用して欠損データを処理する方法に関する非常に優れたアドバイスが広く利用可能になりました。欠落が存在する場合、より合理的な仮定の下でより適切な分析を促進するため。


1
教育しようとする精神で、あなたはもっと詳しく説明できますか?考慮すべきことは何ですか-存在することを認めるか、それに直面して統計分析を調整します(代入など)。該当する場合は、suppを含めます。対象の共変量による欠損値の表ですが、これがこの発言による「検討」に十分かどうかは明確ではありません。
アンディW

8

「重要性に近づいた(たとえばp <.10)影響を報告し、より厳格で許容可能なレベルで重要性に達したかのようにそれらについて書きます。ネストされていない複数の構造方程式モデルを実行し、確立された分析戦略を採用し、それを使用することを誰も考えたことがないかのように提示します。おそらく、これは盗作と見なされます。


たぶんそれは盗作ではなく、車輪の再発明ですか?
-gerrit

7

次の2つの記事をお勧めします。

マーティンブランド:
統計的レフリーを混乱させる方法
これは、マーティンブランドが行った一連の講演と、他の統計的レフリーからのデータ(「応答率の低い便利なサンプル」)に基づいています。最後に、「統計的レフリーの混乱を避けるために[h] ow」の11ポイントのリストがあります。

Stian Lydersen:
統計レビュー:頻繁に寄せられるコメント
この最近の論文(2014/2015年公開)には、著者の最も一般的な14のレビューコメントがリストされています。科学論文の200の統計レビュー(特定のジャーナル)。各コメントには、問題の簡単な説明と、分析/レポートの適切な実行方法に関する指示が含まれています。引用文献のリストは、興味深い論文の宝庫です。


Lydersenによるリストは興味深いものです。私はそれらの少数に同意しないと思います。。。
StatsStudent

6

私は、テストデータが独立していない予測モデルの一般化エラーを目的とした「検証」に最も(そして最も頻繁に)悩まされています患者)。

さらに厄介なのは、そのような欠陥のあるクロス検証結果に加えて、クロス検証の過度に楽観的なバイアスを実証する独立したテストセットを提供する論文ですが、クロス検証の設計が間違っているという一言ではありません...

(同じデータが提示されれば、私は完全に幸せです。「クロスバリデーションは患者を分割する必要があることはわかっていますが、これを許可しないソフトウェアに固執しています。したがって、さらに独立した一連のテスト患者をテストしました。 ")

(ブートストラップ=置換ありのリサンプリングは、通常、クロス検証=置換なしのリサンプリングよりも優れていることを認識しています。ただし、クロス検証と反復を繰り返す分光データ(シミュレートされたスペクトルとわずかに人工的なモデル設定ですが、実際のスペクトル)が見つかりましたブートストラップの全体的な不確実性はほぼ同じでした; oobのバイアスは大きくなりましたが、変動は少なかった-再考のために、私はこれを非常に実用的な観点から見ていきます:テストサンプルサイズが限られているため、患者ごとに分けたり、レポート/ディスカッション/メンションのランダムな不確実性を持たない)

間違っていることに加えて、これは、適切な検証を行う人々がしばしば、その結果が文献の他のすべての結果よりもはるかに悪い理由を守る必要があるという副作用もあります。


1
あなたがこれを言うつもりだったかどうかはわかりませんが、「楽観的」ブートストラップはモデルを検証する最良の方法の1つであり、そのトレーニングとテストサンプルは重複しています。
フランクハレル

1
@フランク・ハレル-私はあなたの主張を確信していません。たぶん困難なのは、ケモメトリックスでは「予測モデルの検証」は常に、新しい未知の将来のケースのパフォーマンスに関することです(例:新しい患者の診断)。ブートストラップ外または繰り返し/反復クロス検証を常に使用しています。テストとトレーニングのセットをオーバーラップさせる利点が、患者レベルでの分割と比較されることを説明してもらえますか? )?
cbeleites

...はい、モデル検証のいくつかのポイントは、個別のテストおよびトレーニングケースでデータを分割することなく回答できます(たとえば、係数に関するモデルの安定性)。しかし、すでに安定性のモデル化をしています。予測は、未知の患者を使用して測定する必要があります(不明:すべてのケースを考慮に入れるデータ駆動型の前処理を含むモデルの構築プロセスには現れませんでした)。実際、ケモメトリックスの従来の定量化では、検証にはさらに独立して測定されたテストデータを必要とするステップがあります。...
cbeleites

機器および分析方法の一つの重要な特徴の未知のオペレータのための良い練習コールが検証中に決定することは、キャリブレーションを再実行する必要があります(または楽器のドリフトが一定時間を超えるごくわずかであることを示す)どのくらいの頻度である- いくつかの著者は、そのような独立したテストセットの無視につながる「リサンプリングの乱用」についてさえ話します
cbeleites

1
機器または測定技術の検証が必要な場合は、独立したサンプルが必要です。しかし、よくある間違いは、データ分割を使用して独立した検証をシミュレートしようとすることです。これはまだ内部検証です。上記の@cbeleitesの質問に答えるために、ブートストラップに関係するオーバーラップされたサンプルは、多くのデータセットで見られるデータ分割よりも、将来のモデルパフォーマンスのより正確な推定になります。n = 17,000と0.30のイベントレートで、データ分割のパフォーマンスが低下しました。
フランクハレル

4

特異な意味での「データ」の使用。データはありますが、決してありません。


2
おそらくフランスの統計学者;)
ステファンローラン

9
認めざるを得ない、私は最近10年ほどそれをしがみついた後、データの複数形の使用を放棄した。私は一般的に非技術的な聴衆のために書きます、そして、私は私が堂々とやってくるのではないかと心配しました。APAはまだ複数形であるという厳しい読みをしているように見えますが、興味深いことに王立統計学会は特定の見方をしていないようです。ここで興味深い議論があります:guardian.co.uk/news/datablog/2010/jul/16/data-plural-singular
クリスビーリー

1
私は英語の話者ではありませんが、単数形の「データ」や「メディア」などの作品の問題は、英語が他の多くのラテン語を借用しており、すべてのラテン語を一貫して使用する必要があることです。次は何ですか?「カリキュラムは」または「カリキュラムは」ですか?「中」は?「データ」がラテン語の場合、複数形です。議論の終わり。どんなに多くの人が今それを無視したいと思うとしても。
フラン

誤用しているのかもしれませんが、状況に応じて単数形と複数形を切り替えます。
StatsStudent

単語「データ」の使用は低く、特殊な状況でのみ使用されますが、「データ」という単語は「狼」に関して「パック」という単語に相当するものだと思います。複数のオオカミを表すために単数形で「パック」という言葉を使用することは確かに受け入れられます。言葉「データ」は、徐々に...独自の集合名詞になりつつある
ロバート・デ・グラーフ

3

私にとっては、適切な原因分析なしで原因を特定したり、不適切な原因推論がある場合です。

また、欠落データの処理方法に注意が向けられていない場合も嫌いです。著者が完全なケース分析を行うだけで、結果が欠損値のある母集団に一般化できるかどうか、欠損値のある母集団が完全なデータのある母集団とどのように系統的に異なるかについては言及していない論文もたくさんあります。


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.