作業環境で正しい統計を行っていますか?


20

この質問がどこに属しているのかわかりません:Cross Validated、またはThe Workplace。しかし、私の質問は漠然と統計に関連しています。

「データサイエンスインターン」として働いている間に、この質問(または私は質問だと思います)が生じました。この線形回帰モデルを構築し、残差プロットを調べていました。異分散性の明確な兆候が見られました。不均一分散性は、信頼区間やt検定などの多くの検定統計量を歪めることを覚えています。そこで、大学で学んだことに従って、重み付き最小二乗法を使用しました。私のマネージャーはそれを見て、「私は物事を複雑にしていた」ので、それをしないように忠告しました。

別の例は、「p値が重要でないため、説明変数を削除する」です。つまり、このアドバイスは論理的な観点からは意味がありません。私が学んだことによると、取るに足りないp値はさまざまな理由による可能性があります:偶然、間違ったモデルの使用、仮定への違反など。

さらに別の例として、k-fold cross validationを使用してモデルを評価しました。結果によると、はよりも優れています。ただし、モデル1のは低く、その理由は切片と関係があります。しかし、私のスーパーバイザーは、モデル2の方がが高いため、モデル2を好むようです。彼の理由(が堅牢である、または相互検証が統計的アプローチではなく機械学習アプローチであるなど)は、私の考えを変えるほど説得力がないようです。CVmodel1 R 2CVmodel2R2R 2R2R2

大学を卒業したばかりの人として、私は非常に混乱しています。私は正しい統計を適用して現実世界の問題を解決することに非常に情熱を注いでいますが、次のどれが当てはまるのかわかりません。

  1. 自分で学んだ統計は間違っているので、間違いを犯しています。
  2. 企業の理論統計とモデルの構築には大きな違いがあります。そして統計理論は正しいが、人々はそれに従わない。
  3. マネージャーは統計を正しく使用していません。

2017年4月17日更新:博士号を取得することにしました。統計で。お返事ありがとうございます。


1
あなたの質問に関連して、この答え以下のコメント(最後に特に)です:stats.stackexchange.com/questions/229193/...

また、この議論は関連しています。実際には、データが必要な仮定(従属変数の単純ベイズなど)に違反するモデルを使用しても、興味深い結果が得られる場合があります。しかし、それからあなたはあなたが描く結論に非常に注意しなければなりません、そしてそれは主な問題です。ほとんどの人はあなたが結果を得る限りあなたの結果の意味を気にしません。公開するか、滅びる...
厄介な

1
「あなたは正しい、彼は間違っている」という答えはおそらく正しいので、あなたのケースに当てはまります。とにかく、時々答えが「彼は間違っているが、彼の間違った方法は彼の目的のために働くことができることに注意してください-多分それは正しい方法がビジネスを運営する彼の非統計的な目的よりもさらにうまくいくかもしれません」それは統計だけでなく、あらゆる種類の科学的知識で頻繁に起こると思います。たぶん、SE Workplaceでは、彼らはあなたに非統計的な例を与えることができます。
ペール

3
@Aksakal:OPが統計的に説明していることから、彼はより正しいと思われます。あなたの個人的な逸話は、単なる逸話です。わずか30サンプルでA / Bテストが行​​われる仕事に移ったと言って、それに反論することができます。基本的なパワー計算を表示することで、サンプルサイズと意思決定に関するチーム全体の考え方が変わりました。OPの質問に戻ると、説明されていることは、OPのスーパーバイザーが間違った電話をしたことを意味するものではないことに同意します。ビジネスワークフローはそれらと「新しい男」に関連した特定の慣性を持っている預言者になる前に説教者としての地位を証明しなければならない...
usεr11852は回復モニック言う

1
@usεr11852、私のコメントは暴言だった:)しかし、それはポイントを持っている、と私は思う:フィールドに新しい人にとっては、上司がより良く知っていると仮定する方が安全です。経験を積むことで、彼はこの仮定を緩めることができ、多分、自分の意見に重点を置き、上司にはあまり重みを与えません。インターンの場合、自分の意見の重みはゼロに近いはずです。
アクサカル

回答:


12

p

この種の状況に直面したときに行うべき唯一のことは、間違った実践について何が悪いのかを、1つまたは2つの例で注意深く説明することだと思います。


3
返信いただきありがとうございます。「次のステップの質問」は、実際に正しい統計を行う仕事がありますか?...私はそのデータ科学は、最近非常に人気があります理解し、何とか私は多くの「データ科学者は」本当に正しい統計をやって気にしないことを、この印象を持っている
3x89g2

1
@Misakovそれは本当に人や組織に依存すると思います。しかし、「データサイエンス」、「分析」、「ビジネスインテリジェンス」などの流行語は危険です。就職面接では、あなたも面接していることを忘れないでください。物事がどのように行われるかについて詳細な質問をすることは、あなたを美しく見せるだけではありません。データ分析に対する彼らの深刻さを確認できます。
-Kodiologist

@Misakovあなたが本当に正しい統計を行いたいのなら、おそらく学界に入る必要があるでしょう。産業利用の大部分(上記の私の回答を参照)は間違っています。
ムック

R2

1
@usεr11852優秀な(つまり、先のとがっていない)マネージャーは、従業員が彼よりもよく知っているとき、従業員に先送りします。「企業がまだ存在していることを考えると、マネージャーの決定はそれほど間違っていませ」—競争は迅速なものではありません。
-Kodiologist

11

コディオロジストは正しい-あなたは正しい、彼は間違っている。しかし悲しいことに、これはあなたが遭遇しているものよりもさらに一般的な場所の問題です。あなたは実際、比較的うまくやっている業界にいます。

mean+3σ

さて、この信頼区間が実際に必要なものを伝えていないという事実(それらの許容区間が必要です)とは別に、これは最大値または最小値の近くでホバリングしているパラメーターで盲目的に行われます(ただし、区間はtは実際にこれらの値を超えています)。Excelは必要なものを計算するので(はい、私はExcelと言いました)、パラメーターが正規分布の近くにないという事実にもかかわらず、それに応じて仕様を設定します。これらの人々は基本的な統計を教えられていますが、qqプロットなどは教えられていません。最大の問題の1つは、不適切に使用された場合でも、統計が数字を提供することです。そのため、ほとんどの人はいつ使用したかを知りません。

言い換えれば、大部分の業界の大部分の製品の仕様はナンセンスです。

統計を盲目的に、理解せずに追跡している最悪の例の1つは、自動車業界でのCpkの使用です。ある会社は、サプライヤが単に不可能なレベルに製品を制御できると考えたため、サプライヤと製品について議論するのに約1年を費やしました。彼らはパラメーターに最大仕様のみを設定し(最小値はなし)、Cpkを使用して主張を正当化しました-計算(理論的な最小レベルを設定するために使用される場合)が指摘されない限り、 )大規模な負の値を意味します。これは、決して0未満にならないパラメーターで、Cpkは正常であると想定し、プロセスは正常に近いデータを提供しませんでした。それが収まるのに長い時間がかかりました。人々は 彼らが計算していることを理解していない-それが気づかなかったらもっと悪いことだったかもしれない。これは、自動車業界で定期的なリコールが発生する理由の要因になる可能性があります!

私自身、科学のバックグラウンドから来ており、率直に言って、科学と工学の統計教育は衝撃的に不十分です。今使用する必要のあるもののほとんどを聞いたことはありませんでした-それはすべて独学であり、(適切な統計学者と比較して)私の知識には今でも大きなギャップがあります。そのため、統計を誤用している人々をgrみません(おそらくまだ定期的に行っています)、それは貧しい教育です。

だから、元の質問に戻って、それは本当に簡単ではありません。正しい統計が使用されるように、これらのことを穏やかに説明しようとするKodiologistの推奨に同意します。しかし、私はそれに追加の警告を追加し、またあなたのキャリアのためにあなたの戦いを賢明に選ぶことを勧めます。

残念なことですが、毎回最高の統計を誰もが得られるようにすることはできないという事実です。最終的な全体的な結論にとって本当に重要な場合に修正することを選択します(これは、2つの異なる方法でチェックすることを意味する場合があります)。「間違った」方法を使用しても同じ結論になる場合があります(たとえば、モデル1,2の例)。あまりにも多くの人を頻繁に修正しないでください。

それは知的にイライラすることであり、世界は異なる方法で動作するはずです-悲しいことに、動作しません。ある程度は、同僚の個々の性格に基づいて戦いを判断することを学ぶ必要があります。あなたの(キャリア)目標は、彼らが本当に助けを必要とするときに彼らが行く専門家になることであり、常にそれらを修正しようとするうるさい人ではありません。そして実際、あなたがその人になれば、それはおそらく、人々が正しいことを聞き、物事を行うようにする最も成功するでしょう。がんばろう。


Excelは、おそらく最も広く使用されているデータ分析ソフトウェアです。「ええ、私はそれを言った!」発言の必要はありません。誰かが学界から出ていない限り(そしておそらく大きな製薬会社でない限り)、彼はあなたの元の声明で目をつぶらないでしょう。(ニース答えは、1)は
usεr11852は回復モニック言う

1
最も広く使用されており、それが私の元のポイントを強調していると思います。Excelには、データ分析に関して大きな欠陥があります。あなたがやっていることがExcelで行われている場合、あなたはそれをデータ分析と呼ぶことはできません-あなたが自分ですべての計算を手動で入力している場合を除きます。スプレッドシートとしてのExcelに対抗するものは何もありませんが、せいぜい初歩的なデータ分析ツールです。しかし、人々はそれ以上良く教えられていないので、それ以上良く知りません。私は統計のバックグラウンドから来たわけではありませんが、より良いグラフを作成してくれた人にRに言及されたのは幸運でした。
ムック

「正しい統計が使用されるようにこれらのことを穏やかに説明しようとするKodiologistの推奨に同意するでしょう。」-私は証人になりたいです。彼の雇用主にビジネスを行う方法を説明するインターン。
アクサカル

1
これが役立ちます、#9を確認してください。この種のリストには常によくあるアドバイスがあります。仕事での最初の100日間:物事を変えることを提案せずに、人々が自分のやり方で物事をしている理由を最初に見つけてください。あなたは自分を馬鹿にするでしょう、そして私はこれが新しい人と何度も起こっているのを見ました。黙って数ヶ月間観察する
-Aksakal

@Aksakalあなたが言ったことは間違いなく理にかなっています。私は主にインターンであり、とにかくすぐに去ることを知っているので、私は私の状況で少し「大胆」に行動しています。
3x89g2

3

説明されていることは、やや悪い経験のように見えます。それにもかかわらず、自分の学歴や監督者/マネージャーの統計的判断に即座に疑問を抱かせるようなものであってはなりません。

R2仕事は、将来のどこかでの漸近的な動作ではなく、あまり意味がありません。人々はそれを受け入れたがらないでしょう。すべてが(ある程度)機能しているのに、なぜエネルギーを変更に費やすのですか?あなたのマネージャーは、ビジネスの観点から必ずしも間違っているわけではありません。彼はあなたの部門の統計的およびビジネス上の決定を担当しています。これらの決定は必ずしも常に一致するわけではなく、短期的な成果物では一致しない可能性が非常に高くなります(時間的制約は、業界のデータ分析において非常に重要な要素です)。

私のアドバイスは、あなたの(統計)銃に固執するが、人々が何をするかにはオープンであり、新しい統計実践から切り離されているかもしれない人々に辛抱強く、尋ねられたらアドバイス/意見を提供し、より厚い皮膚を成長させ、あなたの環境から学ぶことです。あなたが正しいことをしている場合、これはゆっくりと表示され、人々はあなたの意見を求めます。なぜなら彼らはあなたの現在のワークフローでは解決できないソリューションを提供できると認識するからです。最後に、確かに、妥当な時間(少なくとも2〜3か月)を過ぎた後、あなたは過小評価され、軽視されていると感じたら先に進みます。

言うまでもなく、あなたは業界にいるので、じっと座って、統計教育を磨く必要はないと思います。予測モデリング、回帰戦略、クラスタリングアルゴリズムは進化し続けます。たとえば、産業環境でガウス過程回帰を使用することは、10年前のSFに近いものでした。今では、試してみるとすぐに使えるもののように見えます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.