タグ付けされた質問 「terminology」

統計における特定の専門用語/概念の使用法と意味。

15
データサイエンティストとは何ですか?
最近、統計学の博士課程を卒業してから、ここ数か月間、統計学の分野で仕事を探し始めました。私が検討したほとんどすべての会社には、「データサイエンティスト」という肩書きを持つ求人がありました。実際、統計学者や統計学者の役職を見る日々はもうなくなったように感じました。データ科学者であることは、統計学者であることを本当に置き換えたのか、それともタイトルが同義語だったのだろうか? まあ、仕事の資格のほとんどは、統計学者の肩書きの下で資格があるもののように感じました。ほとんどのジョブは、統計学の博士号( checkmark)、実験計画( checkmark)、線形回帰とanova( checkmark )、一般化線形モデル( checkmark )、およびPCA()などの他の多変量法の理解が最も必要でした、およびRやSASなどの統計コンピューティング環境に関する知識()。データサイエンティストのように思えますが、実際は統計学者の単なるコード名です。✓ ✓ ✓ ✓ ✓✓✓\checkmark✓✓\checkmark✓✓\checkmark✓✓\checkmark✓✓\checkmark✓✓\checkmark しかし、私が行ったすべてのインタビューは、「機械学習アルゴリズムに精通していますか?」という質問から始まりました。多くの場合、ビッグデータ、高性能コンピューティング、ニューラルネットワーク、CART、サポートベクターマシン、ブースティングツリー、教師なしモデルなどのトピックに関する質問に答えなければならないことに気づきました。統計的な質問ですが、すべてのインタビューの終わりには、データサイエンティストが何であるかについてだんだんとわからなくなったような気分になります。 私は統計学者ですが、データ科学者ですか?私は科学的な問題に取り組んでいるので、科学者でなければなりません!また、データを扱うので、データサイエンティストでなければなりません!ウィキペディアによると、ほとんどの学者は私に同意するだろう(https://en.wikipedia.org/wiki/Data_science、など) ビジネス環境では「データサイエンス」という用語が爆発的に使用されていますが、多くの学者やジャーナリストは、データサイエンスと統計を区別していません。 しかし、データサイエンティストの立場でこれらの就職面接をすべて行っているのに、なぜ彼らが私に統計的な質問をすることはないように感じるのでしょうか? 前回のインタビューの後、私は良い科学者にやってもらいたいと思ったので、この問題を解決するためにデータを探しました(やっぱり、私はデータ科学者です)。しかし、後で何度も無数のGoogle検索を行った後、データサイエンティストとは何かの定義に再び取り組んでいるかのように感じ始めたところです。それのように多くの定義は、(があったので、私は、データ科学者が正確に何であったか知らなかったhttp://blog.udacity.com/2014/11/data-science-job-skills.html、HTTPを:// WWW -01.ibm.com/software/data/infosphere/data-scientist/)しかし、誰もが私が1人になりたいと言っていたようです: https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century/ http://mashable.com/2014/12/25/data-scientist/#jjgsyhcERZqL など...リストは続きます。 結局のところ、「データサイエンティストとは何か」と答えたのは非常に難しい質問でした。ヘック、Amstatにはこの質問に答えようと時間を割いていた2か月がありました。 http://magazine.amstat.org/blog/2015/10/01/asa-statement-on-the-role-of-statistics-in-data-science/ http://magazine.amstat.org/blog/2015/11/01/statnews2015/ 今のところ、私はデータサイエンティストになるためにセクシーな統計学者にならなければなりませんが、うまくいけば、相互検証されたコミュニティがいくらかの光を放ち、データサイエンティストになることの意味を理解できるようになるかもしれません。すべての統計学者はデータ科学者ではありませんか? (編集/更新) これは会話を盛り上げるかもしれないと思った。米国統計協会から、データサイエンティストを探しているMicrosoftの求人に関するメールを受け取りました。:ここにリンクされたデータ・サイエンティストポジション。ポジションの役割は私たちが話している多くの特定の特性に影響を与えるため、これは興味深いと思いますが、それらの多くは統計の非常に厳格な背景を必要とし、また以下に掲載された多くの答えと矛盾しています。リンクが機能しなくなった場合に、Microsoftがデータサイエンティストに求めている特性は次のとおりです。 コアジョブの要件とスキル: Analyticsを使用したビジネスドメインエクスペリエンス 大規模な実世界のビジネスデータセットで高度な分析を使用して、複雑なビジネス問題とそのソリューションを概念化するためのクリティカルシンキングスキルの活用に関するいくつかの関連ビジネスドメインでの経験が必要 候補者は、独自に分析プロジェクトを実行し、社内クライアントが調査結果を理解し、ビジネスに利益をもたらす行動に変換できるようにする必要があります。 予測モデリング 予測モデリングにおける業界全体の経験 重要な関係を引き出し、システムスコープを定義するためのクライアントとのビジネス問題の定義および概念モデリング 統計/計量経済学 連続データおよびカテゴリデータの探索的データ分析 企業および消費者の行動、生産コスト、要因需要、個別の選択、および必要に応じたその他の技術関係の構造モデル方程式の仕様と推定 連続データおよびカテゴリデータを分析するための高度な統計手法 時系列分析と予測モデルの実装 複数の変数の問題を扱う知識と経験 モデルの正確性を評価し、診断テストを実施する能力 統計または経済モデルを解釈する能力 個別のイベントシミュレーションと動的シミュレーションモデルの構築に関する知識と経験 データ管理 データ変換のためのT-SQLおよび分析の使用と、非常に大規模な実世界のデータセットに対する探索的データ分析手法の適用に関する知識 データの冗長性、データの正確性、異常値または極端な値、データの相互作用、欠損値などのデータ整合性への注意。 コミュニケーションとコラボレーションのスキル 独立して作業し、困難なビジネス問題に対する革新的なソリューションを研究する仮想プロジェクトチームと連携できる パートナーとのコラボレーション、批判的思考スキルの適用、分析プロジェクトのエンドツーエンドの推進 …

4
ニューラルネットワークのバッチサイズとは何ですか?
Python Keras packageニューラルネットワークに使用しています。これがリンクです。であるがbatch_size、試験サンプルの数に等しいですか?ウィキペディアから次の情報があります。 ただし、他の場合では、sum-gradientを評価するには、すべてのsummand関数からの勾配の高価な評価が必要になる場合があります。トレーニングセットが膨大で、単純な公式が存在しない場合、勾配の評価にはすべての加数関数の勾配を評価する必要があるため、勾配の合計の評価は非常に高価になります。すべての反復で計算コストを節約するために、確率的勾配降下では、すべてのステップで被加数関数のサブセットをサンプリングします。これは、大規模な機械学習の問題の場合に非常に効果的です。 上記の情報はテストデータを説明していますか?これbatch_sizeはkeras(勾配更新ごとのサンプル数)と同じですか?

16
どのような誤った統計用語を修正する価値がありますか?
統計はどこにでもあります。ただし、統計用語の一般的な使用法はしばしば不明確です。 確率とオッズという用語は、明確に定義されたさまざまな数式にもかかわらず、一般英語では交換可能に使用されます。 尤度という用語を確率と区別しないと、陽性マンモグラフィが与えられたときに乳がんの確率を定量化しようとする医師を日常的に混乱させます。これはできません。私の娘をテストしてください。彼女は医学を勉強しています。」 同様に普及しているのは、関連付けではなく相関の使用です。または、因果関係を意味する相関。 アルゴアの有名なドキュメンタリー「不便な真実」では、スライドが氷のコアと温度の相関関係を示しており、議論から因果関係を証明するためのより技術的な作業を残しています。CO2CO2\small \text{CO}_2 質問:数学的な厳密さなしで使用した場合、どの統計用語が解釈の問題を引き起こしますか。したがって、修正する価値がありますか?
103 terminology 



11
線形回帰はいつ「機械学習」と呼ばれるべきですか?
最近のコロキウムでは、講演者の要約は、彼らが機械学習を使用していると主張しました。講演中、機械学習に関連する唯一のことは、データに対して線形回帰を実行することでした。5Dパラメーター空間で最適な係数を計算した後、あるシステムのこれらの係数を他のシステムの最適な係数と比較しました。 線形回帰の機械学習は、単に最適な線を見つけるのではなく、いつ行われますか?(研究者の抽象的な誤解を招くものでしたか?) 最近、機械学習が注目を集めているため、このような区別をすることが重要だと思われます。 私の質問はこれに似ていますが、その質問は「線形回帰」の定義を求めますが、私の質問は線形回帰(多数のアプリケーションを持っています)が適切に「機械学習」と呼ばれる場合を尋ねます。 明確化 線形回帰が機械学習と同じであるかどうかは問いません。一部の人が指摘したように、単一のアルゴリズムは研究分野を構成しません。使用しているアルゴリズムが単なる線形回帰であるときに、機械学習を行っていると言ってもいいのかどうかを尋ねています。 1つは、彼らがされていない場合、あなたの名前にいくつかの金の星を追加するために機械学習を行っていると言うことは非倫理的であるため、わきすべてのジョーク(コメントを参照してください)、私はこれを頼む理由の一つは、実際に機械学習を行います。(多くの科学者は自分の仕事に最適なラインを計算しますが、これは機械学習を行っているという意味ではありません。)一方、機械学習の一部として線形回帰が使用されている状況は明らかにあります。これらの状況を分類するのに役立つ専門家を探しています。;-)

30
タイプIおよびタイプIIエラーの定義を覚える方法はありますか?
私は教育の統計学者ではなく、ソフトウェアエンジニアです。しかし、統計はたくさん出てきます。実際、タイプIおよびタイプIIのエラーに関する質問は、Certified Software Development Associate試験の勉強中にたくさん出てきます(数学と統計は試験の10%です)。タイプIとタイプIIのエラーの正しい定義を常に考え出すのに苦労しています-今それらを覚えていますが(ほとんどの場合それらを覚えています)、私は本当にこの試験で凍結したくありません違いが何であるかを思い出そうとしています。 タイプIエラーは偽陽性であること、または帰無仮説を拒否して実際に真であり、タイプIIエラーが偽陰性であること、または帰無仮説を受け入れて実際に偽であることがわかっています。 ニーモニックなど、違いが何であるかを覚える簡単な方法はありますか?専門の統計学者はどのようにそれをしますか-それは彼らがそれを頻繁に使用したり議論したりすることで知っていることですか (サイドノート:この質問はおそらくより良いタグを使用できます。私が作成したかったのは「用語」でしたが、それを行うには十分な評判がありません。誰かがそれを追加できれば素晴らしいです。

5
「クローズドフォームソリューション」とはどういう意味ですか?
「クローズドフォームソリューション」という用語に出くわすことがよくあります。閉じた形式のソリューションとはどういう意味ですか?特定の問題に対して厳密な形式の解決策が存在するかどうかをどのように判断しますか?オンラインで検索すると、いくつかの情報が見つかりましたが、統計的または確率的モデル/ソリューションを開発するという文脈では何も見つかりませんでした。 私は回帰を非常によく理解しているので、だれかが回帰またはモデルのあてはめを参照して概念を説明できるなら、それは使いやすいでしょう。:)



9
計量経済学と他の統計分野との間の主要な哲学的、方法論的、および用語的な違いは何ですか?
計量経済学は、従来の統計とかなり重複していますが、多くの場合、さまざまなトピック(「識別」、「外生」など)について独自の専門用語を使用します。私はかつて、用語は異なるが概念は同じであるという別のフィールドのコメントで応用統計の教授を聞いたことがあります。しかし、独自の方法と哲学的区別もあります(ヘックマンの有名なエッセイが思い浮かびます)。 計量経済学と主流の統計学との間にはどのような用語の違いがありますか?また、用語は単なる用語ではなく、どこに分かれて異なるようになりますか?

4
確率分布の「モーメント」についての「モーメント」とは何ですか?
モーメントとは何か、それらを計算する方法、およびモーメント生成関数を使用して高次のモーメントを取得する方法を知っています。はい、私は数学を知っています。 統計知識を仕事のために潤滑する必要があるので、私はこの質問をするのもいいと思った-大学に戻って、教授は答えを知らなかった、または単に質問を無視するだろう(正直に) 。 この場合、「モーメント」という言葉はどういう意味ですか?なぜこの単語の選択ですか?それは私には直観的に聞こえません(または大学でそのように聞いたことはありません:)それについて考えると、私は「慣性のモーメント」での使用にも等しく興味があります;)今のところそれに焦点を合わせません。 それで、分布の「瞬間」とは何を意味し、何をしようとしているのか、なぜその言葉なのか!:)なぜ誰かが瞬間を気にするのですか?この瞬間、私はその瞬間についてそうでないと感じています;) PS:はい、おそらく分散について同様の質問をしたことがありますが、「本を見て調べて」という直観的な理解を大切にします:)


6
「ネストされた」モデルと「ネストされていない」モデルの違いは何ですか?
階層/マルチレベルモデルに関する文献では、「ネストされたモデル」と「ネストされていないモデル」についてよく読んでいますが、これはどういう意味ですか?誰かが私にいくつかの例を与えるか、このフレージングの数学的な意味について教えてもらえますか?


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.