これは本当にp値がどのように機能するのですか?年間100万件の研究論文を純粋なランダム性に基づいて作成できますか?


98

私は統計学は非常に新しく、値を含む基本を理解することを学んでいます。しかし、今私の頭の中には大きな疑問符があり、私の理解が間違っていることを願っています。これが私の思考プロセスです。p

世界中のすべての研究は、「無限の猿の定理」の猿にやや似ていませんか?世界には23887の大学があると考えてください。各大学に1000人の学生がいる場合、それは毎年2300万人の学生です。

毎年、各生徒が仮説検定を使用して少なくとも1つの調査を行うとしましょう。α=0.05

それは、すべての研究サンプルがランダムな母集団から引き出されたとしても、それらの約5%が「帰無仮説を無効として拒否する」ことを意味しません。ワオ。それについて考えてください。これは、「重要な」結果のために年間約100万件の研究論文が発行されていることです。

これが機能する場合、これは怖いです。それは、私たちが当たり前と考える「科学的真実」の多くは、純粋なランダム性に基づいていることを意味します。

Rコードの単純なチャンクが私の理解をサポートしているようです:

library(data.table)
dt <- data.table(p=sapply(1:100000,function(x) t.test(rnorm(10,0,1))$p.value))
dt[p<0.05,]

だから、成功する上でこの記事し -fishingは:私は減量を支援チョコレートを考えることに何百万人をだまさ。方法は次のとおりです。p

これで本当にすべてですか?これは「科学」がどのように機能するはずなのか


31
重要なジャーナルが重要でない結果を発表しない場合、またはレフリーがそうでない論文を拒否する場合、真の問題は、真のヌルの数に有意レベルを掛けるよりもはるかに悪い可能性があります重要な結果があり、重要性を達成する方法を見つける圧力があります...そして、ここで多くの質問に「重要な狩り」遠征が見られます); これにより、見かけよりもかなり高い真の有意水準が生じる可能性があります。
-Glen_b

5
一方、多くの帰無仮説は点帰無であり、それらは実際には非常にまれです。
-Glen_b

37
科学的手法とp値を混同しないでください。とりわけ、科学は再現性を主張します。これが、例えば1989年に常温核融合に関する論文が発表される方法ですが、最後の四半世紀の間、常温核融合は持続可能な科学理論として存在していませんでした。また、関連する帰無仮説が実際に真実である分野での作業に興味がある科学者はほとんどいないことに注意してください。したがって、「すべての研究サンプルはランダムな母集団から引き出された」というあなたの仮説は現実的なものを反映していません。
whuber

13
xkcdジェリービーンズ漫画への強制参照。短い答え-これは残念ながらあまりにも頻繁に起こります。一部のジャーナルは、統計学者にすべての出版物をレビューさせて、パブリックドメインに進む「重要な」研究の量を減らすことを主張しています。関連する回答の宅地コメントこの以前の議論で
フロリス

8
おそらく私は苦情を受け取らないだろう...「我々は偽の仮説の95%を無事に破った。残りの5%は意味のある効果のように見えるランダムな変動のために敗北するのはそれほど簡単ではなかった。他の95%。」これは、まさに「科学」のようなものにふさわしい振る舞いのように聞こえます。
エリックタワーズ

回答:


70

これは確かに有効な懸念事項ですが、これはまったく正しくありません。

1,000,000件の研究が行われ、すべての帰無仮説が真である場合、p <0.05で約50,000の有意な結果が得られます。それがap値の意味です。ただし、nullは本質的に厳密には真ではありません。しかし、「ほぼ真実」または「ほぼ正しい」などに緩めたとしても、1,000,000件の研究はすべて、次のようなものに関するものでなければなりません。

  • 社会保障番号とIQの関係
  • つま先の長さは出生状態に関連していますか?

等々。ナンセンス。

もちろん、問題の1つは、どのNULLが真であるかがわからないことです。もう1つの問題は、彼のコメントで言及されている@Glen_bの問題です-ファイルドロワーの問題です。

これは彼がに記載置くことを、なぜ私そんなにロバート・アベルソンのアイデアのようなものであるにPrincipled引数として統計。つまり、統計的証拠は、なぜあるのかについての原則的な議論の一部であり、MAGIC基準で判断されるべきです。

  • 大きさ:効果の大きさは?
  • アーティキュレーション:「ifs」、「ands」、「buts」でいっぱいですか(悪い)
  • 一般性:適用範囲
  • おもしろさ
  • 信頼:信じられないほどの主張には多くの証拠が必要です

4
「1Mの研究が完了し、すべての帰無仮説が真である場合でも、約50.000がタイプ1エラーを実行し、帰無仮説を誤って拒否しますか?研究者がp <0.05まれなイベントが発生したか、h1が正しくありません。」この1つの調査の結果だけを見て、それがどれであるかを
知る方法

5
ポジティブが実際に偽である場合にのみ、偽陽性を取得できます。すべてノイズである40個のIVを選択した場合、タイプIエラーが発生する可能性が高くなります。しかし、一般的には理由からIVを選択します。そしてヌルは偽です。nullがfalseの場合、タイプIエラーを作成することはできません。
ピーター・フロム

6
箇条書きを含めて、2番目の段落がまったくわかりません。議論のために、100万件の研究すべてが特定の状態を治すために薬剤化合物をテストしていたとしましょう。これらの各研究の帰無仮説は、薬物が状態を治癒しないというものです。それで、なぜそれが「本質的に厳密に真実ではない」に違いないのでしょうか?また、すべての研究がss#やIQのような無意味な関係に関するものでなければならないと言うのはなぜですか?あなたの主張を理解するのに役立つ追加の説明をありがとう。
チェロニアン

11
@PeterFlomの例を具体化するために:SSNの最初の3桁(使用される)は申請者の郵便番号をエンコードします。個々の州は多少異なる人口統計を持ち、つま先のサイズはいくつかの人口統計学的要因(年齢、人種など)と相関する可能性があるため、十分なデータがある場合、社会保障番号とつま先のサイズの間にはほぼ確実に関係があります。
マットクラウス

6
@MattKrauseの良い例。私は性別による指数を好む。すべての男性とすべての女性の人口調査を行った場合、1つの性別が平均して他の性別よりも多くの指を持っていることがわかります。非常に大きなサンプルをとらずに、どの性別がより多くの指を持っているのかわかりません。さらに、手袋の製造業者として、手袋の設計に指の人口調査データを使用することには疑問があります。
エモリー

40

世界中のすべての研究は、「無限の猿の定理」猿のようではありませんか?

彼らの研究行動、特に実験はランダムではないので、科学者は無限のサルのように批判的ではありません。実験は、(少なくともそうであると思われる)信じられないほど慎重に制御された操作と測定であり、これまでの多くの研究に基づいた、機構的に情報に基づいた仮説に基づいています。暗闇でのランダムなショット(またはタイプライターの猿の指)だけではありません。

世界には23887の大学があると考えてください。各大学に1000人の学生がいる場合、それは毎年2300万人の学生です。毎年、各学生が少なくとも1つの調査を行い、

公開された研究結果の数のその推定値は、かなり外れたものになりました。世界に2300万人の「大学の学生」がいるのかどうかはわかりませんが(大学やカレッジも含まれますか?)、その大部分は科学的な発見を公表しません。つまり、それらのほとんどは科学専攻ではなく、ほとんどの科学専攻でさえ調査結果を公表することはありません。

毎年の科学出版物の数のより可能性の高い推定値(いくらかの議論)は、約1〜2百万です。

それは、すべての研究サンプルがランダムな母集団から取り出されたとしても、それらの約5%が「帰無仮説を無効として拒否する」ことを意味しません。ワオ。考えてみてください。これは、「重要な」結果のために年間約100万件の研究論文が発行されていることです。

公開されているすべての研究が、有意性がp = 0.05の値で正しい統計を持っているわけではないことに留意してください。多くの場合、p <0.01またはp <0.001のようなp値が表示されます。もちろん、「平均」p値が100万を超える論文であるかどうかはわかりません。

これが機能する場合、これは怖いです。それは、私たちが当たり前と考える「科学的真実」の多くは、純粋なランダム性に基づいていることを意味します。

また、科学者は、pで0.05程度の少数の結果を「科学的真理」としてとるべきでないことに留意してください。程遠い。科学者は、それぞれが適切な統計力、もっともらしいメカニズム、再現性、効果の大きさなどを有する多くの研究を統合し、それを何らかの現象がどのように機能するかという暫定的なモデルに組み込むことになっています。

しかし、これは科学のほとんどすべてが正しいことを意味していますか?ありえない。科学者は人間であり、偏見、悪い研究方法論(不適切な統計的アプローチを含む)、詐欺、単純な人為的ミス、そして不運の餌食になります。公表された科学の健全な部分が間違っている理由でおそらくより支配的なのは、p <0.05の慣習ではなく、これらの要因です。実際、追いかけてすぐに切り取り、あなたが出したものよりもさらに「怖い」声明を出しましょう。

ほとんどの公表された研究結果が偽である理由


10
イオアニディスは、問題を裏付ける厳格な議論を行っていると思います。ここで答えている楽観主義者が考えるように、科学は何もされていません。また、公開されている多くの研究が複製されることはありません。さらに、複製が試みられたとき、結果は、多くの公開された科学は基本的にブロックであるというイオアニディスの主張を支持する傾向があります。
matt_black

9
素粒子物理学では、発見を主張するp値のしきい値が0.00000057であることが興味深い場合があります。
デビッドZ

2
多くの場合、p値はまったくありません。数学と理論物理学は一般的なケースです。
Davidmh

21

p

α

たとえば、David Colquhounによる2014年の論文に関するこの最近の議論を参照してください:誤検出率と複数のテスト(Colquhoun 2014)の混乱。私はこの「少なくとも30%」の推定値に対して反論してきましたが、一部の研究分野では、誤発見率が5%よりもかなり高くなる可能性があることに同意します。これは本当に心配です。

ここでは、nullがほとんど真ではないと言うことは、ここで役立つとは思わない。タイプSおよびタイプMエラー(Andrew Gelmanによって導入された)は、タイプI / IIエラーよりもはるかに優れたものではありません。

私はそれが本当に意味することは、孤立した「重要な」結果を決して信用してはならないということだと思います。

α107α=0.05

p<0.05p

p<0.05


「累積p値」について:個々のp値を乗算することはできますか、それとも機能させるために巨大な組み合わせを行う必要がありますか?
ケビン

pαp

17

あなたの懸念はまさに、再現性に関する科学の現在の議論の根底にある懸念です。ただし、実際の状況は、あなたが提案するよりも少し複雑です。

まず、いくつかの用語を確立しましょう。帰無仮説の有意性検定は、信号検出の問題として理解できます。帰無仮説は真または偽のいずれかであり、拒否するか保持するかを選択できます。2つの決定と2つの可能な「真の」状態の組み合わせの結果、次の表が得られます。ほとんどの人は、ある時点で統計を初めて学習します。

ここに画像の説明を入力してください

帰無仮説有意性検定を使用する科学者は、正しい決定の数を最大化し(青色で表示)、誤った決定の数を最小化することを試みています(赤色で表示)。また、働く科学者は、仕事を得てキャリアを向上させるために、結果を公表しようとしています。

H0


H0

出版バイアス

α

p

研究者の自由度

αα。疑わしい研究慣行が十分に多く存在することを考えると、たとえ名目上の割合が.05に設定されていても、偽陽性の割合は.60に達する可能性があります(Simmons、Nelson、&Simonsohn、2011)。

研究者の自由度の不適切な使用(疑わしい研究慣行として知られることもあります; Martinson、Anderson、&de Vries、2005)は、データの作成と同じではないことに注意することが重要です。場合によっては、機器の故障やその他の理由により、外れ値を除外することが正しいことです。重要な問題は、研究者の自由度が存在する場合、分析中に下される決定は多くの場合、データの結果に依存することです(Gelman&Loken、2014)、問題の研究者がこの事実を知らない場合でも。研究者が研究者の自由度(意識的または無意識的)を使用して有意な結果の確率を高める限り(おそらく、有意な結果がより「公開可能」であるため)、研究者の自由度の存在は、出版バイアスと同じ方法。


上記の議論の重要な注意点は、科学論文(少なくとも心理学では私の分野です)が単一の結果で構成されることはめったにないということです。より一般的なのは複数の研究であり、各研究には複数のテストが含まれます。より大きな議論を構築し、提示された証拠の代替説明を排除することに重点が置かれています。ただし、結果の選択的な表示(または研究者の自由度の存在)は、単一の結果と同じくらい簡単に結果セットにバイアスを生じさせる可能性があります。複数の研究論文で示された結果は、これらの研究のすべての予測がすべて真実であったとしても、多くの場合、予想よりはるかにきれいで強いという証拠があります(Francis、2013)。


結論

基本的に、帰無仮説の有意性検定が間違っている可能性があるというあなたの直感に同意します。ただし、偽陽性率が高い真の犯人は、出版バイアスや研究者の自由度の存在などのプロセスであると主張します。実際、多くの科学者はこれらの問題を十分に認識しており、科学の再現性の改善は非常に活発な現在の議論のトピックです(例:Nosek&Bar-Anan、2012 ; Nosek、Spies、Motyl、2012)。それで、あなたはあなたの懸念と良い関係にありますが、私はまた、いくつかの慎重な楽観主義の理由もあると思います。


参照資料

Stern、JM、およびSimes、RJ(1997)。出版バイアス:臨床研究プロジェクトのコホート研究における出版の遅延の証拠。BMJ、315(7109)、640〜645。http://doi.org/10.1136/bmj.315.7109.640

Dwan、K.、Altman、DG、Arnaiz、JA、Bloom、J.、Chan、A.、Cronin、E。、…Williamson、PR(2008)。研究出版バイアスと結果報告バイアスの経験的証拠の体系的レビュー。PLoS ONE、3(8)、e3081。http://doi.org/10.1371/journal.pone.0003081

ローゼンタール、R。(1979)。ファイルドロワーの問題とnull結果の許容範囲。Psychological Bulletin、86(3)、638–641。http://doi.org/10.1037/0033-2909.86.3.638

シモンズ、JP、ネルソン、LD、およびサイモンソン、U。(2011)。偽陽性心理学:データの収集と分析における非公開の柔軟性により、重要なものは何でも提示できます。心理学、22(11)、1359–1366。http://doi.org/10.1177/0956797611417632

マーティンソン、BC、アンダーソン、MS、およびド・フリース、R。(2005)。科学者の振る舞いが悪い。Nature、435、737–738。http://doi.org/10.1038/435737a

ゲルマン、A。、およびローケン、E。(2014)。科学の統計的危機。アメリカの科学者、102、460-465。

フランシスG.(2013)。複製、統計的一貫性、および出版バイアス。Journal of Mathematical Psychology、57(5)、153–169。http://doi.org/10.1016/j.jmp.2013.02.003

Nosek、BA、およびBar-Anan、Y.(2012)。科学的ユートピア:I.科学的コミュニケーションを開く。Psychological Inquiry、23(3)、217–243。http://doi.org/10.1080/1047840X.2012.692215

Nosek、BA、Spies、JR、Motyl、M。(2012)。科学的ユートピア:II。出版性よりも真実を促進するためのインセンティブと実践の再構築。心理学の展望、7(6)、615–631。http://doi.org/10.1177/1745691612459058


1
+1。リンクの素晴らしいコレクション。「研究者の自由度」セクションに非常に関連性の高い論文が1つあります。分岐経路の庭:「釣り遠征」や「pハッキング」がなく、研究仮説があったとしても、多重比較が問題になる理由アンドリュー・ゲルマンとエリック・ローケン(2013)によって事前に作成されました。
アメーバ

@amoeba、その興味深いリファレンスをありがとう。私は特に、Gelman and Loken(2013)が、研究者の自由度を活用することは意識的なプロセスである必要はないという点が気に入っています。回答を編集して、その論文を含めました。
パトリックS.

American Scientistで、Gelman&Loken(2014)の公開版を見つけました。
パトリックS.フォーシャー

10

この質問で提起された重要な問題に関する実質的なチェックは、「科学的真実」は個々の孤立した出版物に基づいていないということです。結果が十分に興味深い場合、他の科学者が結果の意味を追求するよう促します。その作業は、元の発見を確認または反論する傾向があります。個々の研究で真の帰無仮説を棄却する確率は1/20かもしれませんが、連続して2回行うのは1/400だけです。

科学者が単純に「有意性」を見つけるまで実験を繰り返し、その結果を公表した場合、問題はOPが示唆するほど大きくなる可能性があります。しかし、少なくとも50年近くの生物医学研究の経験では、それは科学の仕組みではありません。さらに、出版物は単一の「重要な」実験についてはめったにありませんが、より広範な実質的な仮説を一緒にサポートする相互に関連する実験のセットに基づいています。

はるかに大きな問題は、自分の仮説にコミットしすぎている科学者から生じます。その後、彼らは仮説を裏付けるために個々の実験の意味を過度に解釈し、疑わしいデータ編集(異常値のremoving意的な除去など)に従事するか、または(私が見たし、捕らえたように)データを構成するだけです。

しかし、科学は、象牙の塔に隠れている気違いの科学者に関する神話に関係なく、非常に社会的なプロセスです。他の研究から学んだことに基づいて、彼らの利益を追求する何千人もの科学者の間でのギブアンドテイクは、偽陽性からの究極の制度的保護です。誤った発見は何年も続くことがありますが、問題が十分に重要である場合、プロセスは最終的に誤った結論を特定します。


6
1/400040

2
2,300万件の研究のうち、ノイズが原因でのみ5.000の結果が帰無仮説を拒否するかどうかを判断できませんでしたか?それは本当に規模の問題でもあります。数百万件の研究があれば、タイプ1エラーがよく発生します。
n_mu_sigma

3
23,000,000件の研究のうち、誤った結論が5000件しかない場合、それは本当に珍しいことだと思います!
whuber

3
50年近く科学を行い、他の科学者を知り、「意義」を達成するまで実験を繰り返した人は誰もいません。@whuberによって提起された理論的な可能性は、私の経験では、大きな実際的な問題ではありません。はるかに大きな実際的な問題は、先入観に合わない「外れ値」を捨てて間接的にデータを作成するか、単に「データ」を作成することです。私が直接目にしたこれらの動作は、p値を調整しても修正できません。
-EdM

3
@EdM「個々の研究で真の帰無仮説を棄却する確率は1/20かもしれませんが、連続して2回行うのは1/4000だけです。」2番目の番号はどのようにして取得しましたか?
アクサカル

5

議論に追加するために、ここでは興味深い投稿と、人々がp値を一般的に誤解している方法についてのその後の議論があります。

いずれの場合でも保持されるべきことは、p値が与えられた仮説を拒否する証拠の強さの単なる尺度であるということです。p値は、それ以下では何かが「真」であり、それ以上では偶然によるものであるという厳密なしきい値ではありません。上記の投稿で説明したように:

結果は実際の効果とチャンスの組み合わせであり、どちらでもない


多分これは、p値の理解に貢献します:stats.stackexchange.com/questions/166323/...

4

他の回答でも指摘されているように、これは、帰無仮説が除外されている肯定的な結果を選択的に検討する場合にのみ問題を引き起こします。これが、科学者が以前に公開された研究結果を検討するレビュー記事を書いて、それに基づいて主題のより良い理解を開発しようとする理由です。しかし、それでもいわゆる「出版バイアス」に起因する問題が残っています。つまり、科学者は否定的な結果よりも肯定的な結果に関する記事を書く可能性が高く、否定的な結果に関する論文もあります肯定的な結果に関する論文よりも、出版のために拒否される可能性が高くなります。

特に統計的テストが非常に重要な分野では、これが大きな問題になります。医学の分野は悪名高い例です。これが、臨床試験を実施する前に登録することが義務付けられた理由です(例:ここ)。そのため、試行を開始する前に、設定、統計分析の実行方法などを説明する必要があります。主要な医学雑誌は、登録されていない場所について報告する試験の場合、論文の発行を拒否します。

残念ながら、この対策にもかかわらず、システムはそれほどうまく機能していません


多分これは、p値の理解に貢献します:stats.stackexchange.com/questions/166323/...

3

これは、科学的方法に関する非常に重要な事実に近い:それは偽証性を強調している。今日最も人気のある科学の哲学には、カールポッパーの偽造可能性の概念が礎石としてあります。

したがって、基本的な科学的プロセスは次のとおりです。

  • 誰でもいつでも好きな理論を主張できます。科学は「偽造可能」な理論を認めます。その言葉の最も文字通りの意味は、他の誰かがクレームを好まない場合、その人はクレームを反証するためにリソースを自由に使うことができるということです。アーガイルの靴下が癌を治すと思わないなら、あなたはそれを反証するためにあなた自身の病棟を自由に使うことができます。

  • 入場のこのバーは非常に低いため、文化グループとしての「科学」は、あなた自身の理論を偽造するための「良い努力」をするまで、アイデアを本当に楽しまないことが伝統的です。

  • アイデアの受け入れは段階的に進む傾向があります。1つの研究とかなり低いp値を使用して、概念をジャーナル記事に組み込むことができます。それがあなたを買うのは、宣伝といくらかの信頼性です。科学に工学的応用がある場合など、誰かがあなたのアイデアに興味がある場合、彼らはそれを使いたいかもしれません。その時点で、彼らは改ざんの追加ラウンドに資金を提供する可能性が高くなります。

  • このプロセスは常に同じ姿勢で進められます。あなたが望むものを信じますが、それを科学と呼ぶには、後で反証できるようにする必要があります。

エントリのこの低いバーは、非常に革新的であることができます。理論的には「間違った」ジャーナル記事がたくさんあります。ただし、重要なのは、公開されたすべての記事が理論上は偽造可能であるため、いつでも誰かがそれをテストするためにお金を費やすことができるということです。

これが重要です。ジャーナルには、妥当なpテストに合格するものだけでなく、結果が偽であることが判明した場合に他の人がそれを解体するためのキーも含まれます。


1
これは非常に理想的です。間違った論文が多すぎると、文献のS / N比が低すぎて、科学的プロセスが大幅に遅くなったり、誤った方向に導かれたりすることを懸念する人もいます。
アメーバ

1
@amoeba良い点を挙げてください。理想的なケースをキャプチャしたかったのは、ノイズで失われることが多いためです。それ以上に、文学におけるSNRの問題は有効な問題だと思いますが、少なくともそれはバランスの取れたものでなければなりません。良いジャーナルと悪いジャーナルの概念はすでにあるので、そのバランスを取る行為がしばらくの間進行中であるといういくつかのヒントがあります。
コートアンモン

この科学哲学の理解は、数十年前のものと思われます。Popperian falsifiabilityは、科学がどのように起こるかについての一般的な都市神話であるという意味で「人気」です。
EnergyNumbers

@EnergyNumbers新しい考え方について教えてください。哲学SEはあなたとは非常に異なる意見を持っています。向こうの質問の歴史を見ると、ポペリアンの反証可能性は彼らの声を話した人の大部分にとって科学決定的な特徴です。新しい考え方を学び、そこに持ち込みたい!
コートアンモン

新着?Kuhnは数十年前にPopperに反論しました。Philosophy.seにPopperianを投稿していない場合、それを更新することは失われた原因のように思えます。1950年代にそのままにしておいてください。自分自身を更新したい場合は、科学哲学に関する21世紀の学部入門書から始めてください。
EnergyNumbers

1

これは「科学」がどのように機能するはずなのか

それが多くの社会科学の仕組みです。物理科学ではあまりありません。これを考えてみてください:あなたは質問をコンピューターに入力しました。人々は、物理学、化学、その他の物理科学の分野の知識を使用して、コンピューターと呼ばれるこれらの複雑な獣を構築することができました。状況があなたが説明するほど悪い場合、電子機器はどれも機能しません。または、非常に正確に知られている電子の質量のようなものを考えてください。それらはコンピューターの何十億もの論理ゲートを何度も通過し、コンピューターは何年も動作し続けます。

更新:受け取った下票に対応するために、いくつかの例を挙げたいと思いました。

最初のものは物理学からのものです:Bystritsky、VM、et al。「天体物理学のSファクターと、重水素化ジルコニウムターゲットを使用した超低エネルギー領域でのp(d、γ)3He反応の断面積の測定」Physics of Particles and Nuclei Letters 10.7(2013):717-722。

0.237±0.061

私の次の例は...心理学からです:Paustian-Underdahl、Samantha C.、Lisa Slattery Walker、David J. Woehr。「リーダーシップの有効性の性別と認識:文脈的モデレーターのメタ分析。」Journal of Applied Psychology、2014年、Vol。99、No。6、1129 – 1145。

χ2

次に、論文の表を見て、どの論文からのものかを推測します。

ここに画像の説明を入力してください ここに画像の説明を入力してください

それが、あるケースでは「クールな」統計が必要であり、別のケースでは必要ない理由です。データが安っぽいのかそうでないのか。良いデータがあれば、標準エラーを超える統計は必要ありません。

更新2:@ PatrickS.Forscherはコメントで興味深い声明を発表した:

また、社会科学の理論は物理学の理論よりも「柔らかい」(形式的ではない)ことも事実です。

私は反対しなければなりません。経済学と金融学では、理論はまったく「ソフト」ではありません。これらのフィールドで論文をランダムに検索し、次のようなものを取得できます。

ここに画像の説明を入力してください

等々。

シェルビッシュ、マーク・J、テディ・サイデンフェルド、ジョセフ・B・カダネからです。「期待効用理論の拡張とペアワイズ比較のいくつかの制限。」(2003)。これはあなたには柔らかく見えますか?

ここで、あなたの理論が良くなく、データが安っぽいとき、最も難しい計算を使用しても、安っぽい結果が得られるということを繰り返します。

この論文では、彼らはユーティリティ、幸福と満足のような概念について話している-絶対に観察できない。家を持っていることとチーズバーガーを食べることの効用は何ですか?おそらく、この機能があり、「チーズバーガーを食べる」または「自分の家に住んでいる」をプラグインすることができ、この機能はいくつかのユニットで答えを吐き出します。狂ったように聞こえますが、これが現代のエコノミクスの基盤となっています。フォンノイマンに感謝します。


1
+1これがなぜ二度ダウン投票されたのかわからない。あなたは基本的に、物理学の発見は実験でテストでき、社会科学のほとんどの「発見」はテストできず、メディアの注目を集めるのを止めないことを指摘しています。
ヒラメ

6
ほとんどの実験では、最終的に何らかの統計テストが行​​われますが、タイプ1のエラーやp値フィッシングなどの不正行為の余地が残ります。私は社会科学を単独で取り上げることは少し外れていると思います。
ケンジ

4
@GuilhermeKenjiChihayaが言っていることを少し修正するために、おそらく、誤差の標準偏差を使用して物理実験で統計的検定を実行できます。おそらく、この統計的テストは、著者がグラフをエラーバーで表示したときに到達するのと同じ結論に達するでしょう。物理学論文との主な違いは、実験の根本的なノイズの量であり、 p値の使用の基礎となるロジックは有効または無効です。
パトリックS.フォーシャー

3
また、@ Flounderer、社会科学者は常に「実験」(つまり、ユニットの条件へのランダム化)を行うため、「実験」という用語を私がなじみのない意味で使用しているようです。社会科学実験は、物理実験と同じ程度に制御するのが難しいことは事実です。また、社会科学の理論は物理学の理論よりも「柔らかい」(形式的ではない)ことも事実です。しかし、これらの要因は、特定の研究が「実験」であるかどうかとは無関係です。
パトリックS.フォーシャー

2
@Aksakalは-1には同意しませんが、社会科学に対するあなたの批判にも部分的に同意しません。効用理論を厳密に経済的/統計/数学的概念であるため、経済紙のあなたの例では、社会科学者が日常的に何をすべきかの良い例ではありません(それはすでに持っているそれで数学を)、それはその例えば心理学の理論に似ていません実験的にテストされています...しかし、社会科学を含む多くの研究分野で統計が大まかに使用されていることはよくあることです。
ティム
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.