ニュースの方程式:マルチレベルモデルを一般ユーザーに翻訳する


24

New York Timesは、ニューヨーク市の教育者にフィードバックを提供するために使用されている「付加価値」教師評価システムについて長いコメントを持っています。ledeは、スコアの計算に使用される方程式です-コンテキストなしで表示されます。修辞的な戦略は、数学による脅迫のようです。

代替テキスト

記事の全文は、http//www.nytimes.com/2011/03/07/education/07winerip.htmlで入手できます

著者のMichael Wineripは、方程式の意味は、マット・デイモン以外の誰もが理解できる能力を超えていると主張している。

「Ms. Isaacsonの3.69予測スコアの計算はさらに困難です。32の変数に基づいています。これは、学生が「プレテスト年前に成績を保持した」か、学生が「プレテストまたはポストテスト年。"

これらの32個の変数は、「グッドウィルハンティング」ではマットデイモンだけが解くことができる方程式の1つに見える統計モデルにプラグインされます。

このプロセスは透明に見えますが、教師、校長、ジャーナリストなどの賢い人々にとっても泥だらけです。

アイザックソン氏は2つのアイビーリーグの学位を持っているかもしれませんが、彼女は失われています。「これを理解するのは不可能だと思う」と彼女は言った。

平易な英語で、Ms。Isaacsonは、学科が彼女に何を伝えようとしているのかを最もよく推測しています。66人の学生のうち65人が州のテストで得点しましたが、彼女の3人は4人でした。

しかし、それは推測に過ぎません。」

素人にモデルをどのように説明しますか?参考までに、完全な技術レポートは次の場所にあります。

http://schools.nyc.gov/NR/rdonlyres/A62750A4-B5F5-43C7-B9A3-F2B55CDF8949/87046/TDINYCTechnicalReportFinal072010.pdf

更新:Andrew Gelmanはここで彼の考えを提供しています:http : //www.stat.columbia.edu/~cook/movabletype/archives/2011/03/its_no_fun_bein.html


1
[0 52]

回答:


12

1つの可能性があります。

従来、教師のパフォーマンスを評価することは困難でした。この難しさの一部は、学生ごとに特定の科目に対する関心のレベルが異なることです。特定の学生がAを取得した場合、これは必ずしも教育が優れていることを意味するものではありません-むしろ、非常に才能のある興味のある学生が、教育の質が低くても成功するために最善を尽くしたことを意味する場合があります。逆に、Dを取得する学生は、必ずしも教育が貧弱であることを意味するわけではありません-むしろ、教育とインスピレーションを得るための教師の最善の努力にもかかわらず、無関心な学生がcoast走したことを意味する場合があります。

難易度は、生徒の選択(したがって生徒の興味のレベル)がランダムではないという事実によって悪化します。学校では、ある科目(または科目のグループ)を他の科目よりも強調するのが一般的です。たとえば、学校は人文科学よりも技術的な科目を強調する場合があります。そのような学校の生徒は、おそらく技術分野に非常に興味があるため、最悪の教師でも合格点を取得します。したがって、数学に合格する学生の割合は、教育の良い尺度ではありません-優秀な教師は、学習を熱望している学生よりもはるかに優れていると期待しています。対照的に、それらの同じ学生は芸術に全く興味がないかもしれません。すべての生徒がAを取得できるようにすることは、最高の教師からであっても期待することは困難です。

もう1つの難点は、特定のクラスでのすべての成功がそのクラスの教師に直接起因するわけではないことです。むしろ、成功の理由は、学校(または学区全体)が達成の動機と枠組みを作成したことにあります。

これらの困難をすべて考慮するために、研究者は教師の「付加価値」を評価するモデルを作成しました。本質的に、このモデルは、各生徒の本質的な特性(学習に対する全体的な関心度と成功度)、および生徒の成功に対する学校と地区の貢献度を考慮し、「平均」で期待される生徒の成績を予測しますその環境で教える。次に、モデルは実際の成績を予測された成績と比較し、それに基づいて、他のすべての考慮事項を考慮して、教育が適切か、適切かどうか、または悪いかを判断します。モデルは非数学者には複雑に見えるかもしれませんが、実際には非常にシンプルで標準的です。数学者は、何十年も同様の(さらに複雑な)モデルを使用しています。

要約すると、Ms。Isaacsonの推測は正しい。彼女の66人の生徒のうち65人は州の試験で得点しましたが、犬が教師だったとしても、彼らはまったく同じ得点を持っているでしょう。実際の優秀な教師は、これらの学生が単に「熟練した」だけでなく、同じテストで実際に「良い」スコアを達成できるようにします。


この時点で、モデルに関する私の懸念のいくつかに言及することができました。たとえば、モデル開発者は、授業の質を評価する際のいくつかの困難に対処していると主張しています。それらを信じるのに十分な理由はありますか?低所得人口の地域では、予想される「地区」および「学校」のスコアが低くなります。近所の予想スコアが2.5であるとします。平均3を達成する教師は、良い評価を得ます。これにより、教師は、たとえば4または5のスコアではなく、3のスコアを目指すようになります。言い換えると、教師は、完璧ではなく平凡を目指します。これを実現したいですか?最後に、モデルは数学的には単純ですが、人間の直感の仕組みとは非常に異なる方法で機能します。結果として、モデルを検証または異議を唱える明確な方法はありません」の決定。アイザックソンさんの不幸な例は、これが何につながるかを示しています。そんなに重要なことで、盲目的にコンピューターに頼りたいですか?


これは素人への説明であることに注意してください。ここで、物議を醸す可能性のあるいくつかの問題を回避しました。たとえば、低所得層の学区は貧しい人々のパフォーマンスを低下させると言われたくありません。

また、目標は実際にモデルの合理的に公正な説明を与えることであると想定しました。しかし、これはNYTの目標ではなかったと確信しています。私の意見では、彼らの説明が不十分な理由の少なくとも一部は意図的なFUDです。


おそらく、最後のパラグラフの2番目の文を変更して、「66人の生徒のうち65人が州の試験で「上手」を採点したとしても、彼らは不適切な教師がいたとしても同じ得点だったでしょう」
ウェイン

11

「あなたのティーチングスコアは、生徒の成績と、

  • 事前テストで測定されたように、彼らが事前に知っていたこと、

  • 生徒が個別に知っていること(「特性」)に基づいて、生徒がどれだけ学習できると思うか。

  • そして、あなたの地区、学校、教室で生徒が平均してどれだけうまくいっているか(教室に他の教師がいる場合)。

「言い換えれば、学生の準備と特性、および利用可能なリソースを備えたあなたのような設定でのすべての学生の典型的なパフォーマンスを考慮した後、測定された学習量に基づいて評価しています。

「このようにして、あなたのスコアは、学生のパフォーマンスに貢献したもの反映します。私たちがそれを決定できる限りです。もちろん、すべてを知ることはできません。このスコアは、あなたが教えた程度を不完全に反映する推定値にすぎませんが、事後テストまたはクラスによる生のテストゲインのみに基づくものよりも公正で正確な推定値です。」


2
注意:これらの考えを私に帰さないでください!要求されたとおり、指定されたモデルを明確にし、擁護するために最善を尽くしています。このモデルが適切であるか、適用可能であるか、適切であるかなどは、まったく別の問題です。
whuber

(+1)最後の段落は非常に適切です。
-chl

2

ここで理解すべきことは何もありません。

さて、それは単なる標準の線形回帰モデルです。学生のスコアは、学校や教師の効率係数を含むいくつかの要因の線形関数として記述できると想定しています-したがって、線形モデルのすべての標準的な問題、主に非線形の大きな近似であるという事実を共有しています状況によって、またそれを外挿しようとする程度に応じて、完全にまたは恥ずかしいほどうまく機能しない可能性があります。(ただし、技術担当者の作成者がそれをチェックし、大丈夫だとわかったと期待する必要があります;-))。

しかし、本当の問題は、これは分析ツールであり、人々の成果を評価するために使用されるべきではないということです-この方法(完全にマークが公正であるかどうかに関係なく)彼女/彼のマークを理解しようとするすべての評価この場合のように、絶望的な混乱にのみ会います。


3
「ここで理解することは何もありません。これは単なる標準の線形回帰モデルです」-teehee ....数学恐怖症の慰めのようなものです。社会学や、コミュニケーションを専攻する神のために、学部課程で統計学を教えることの喜びがなかったと思います。
-fabians

@fabiansこれは私のポイントを証明するだけです-カウントより複雑な数学で人々に立ち向かうことは、このアプローチの最大の欠点です=]しかし、私はそれを言い換えようとします。

これは妥当な批判であり、特に線形性の仮定に関する部分ですが、元の質問には実際には反応しません(仮想的な「素人」を怒らせるつもりでない限り)。
whuber
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.