タグ付けされた質問 「definition」

このタグは、統計用語の定義に関する質問を示します。統計的な用語について、特に定義についてではない質問には、より一般的なタグ[用語]を使用します。

22
なぜ標準偏差の絶対値を取るのではなく、差を二乗するのですか?
標準偏差の定義で、平均(E)を取得し、最後に平方根を取り戻すために、平均との差を2乗する必要があるのはなぜですか?代わりに、単に差の絶対値を取得し、それらの期待値(平均)を取得することはできませんか?また、データの変動も表示されませんか?数値は二乗法とは異なります(絶対値法は小さくなります)が、データの広がりを示す必要があります。この正方形のアプローチを標準として採用している理由は誰にもわかりますか? 標準偏差の定義: σ=E[(X−μ)2]−−−−−−−−−−−√.σ=E[(X−μ)2].\sigma = \sqrt{E\left[\left(X - \mu\right)^2\right]}. 代わりに絶対値を取得し、それでも適切な測定値を取得することはできませんか? σ=E[|X−μ|]σ=E[|X−μ|]\sigma = E\left[|X - \mu|\right]


15
データサイエンティストとは何ですか?
最近、統計学の博士課程を卒業してから、ここ数か月間、統計学の分野で仕事を探し始めました。私が検討したほとんどすべての会社には、「データサイエンティスト」という肩書きを持つ求人がありました。実際、統計学者や統計学者の役職を見る日々はもうなくなったように感じました。データ科学者であることは、統計学者であることを本当に置き換えたのか、それともタイトルが同義語だったのだろうか? まあ、仕事の資格のほとんどは、統計学者の肩書きの下で資格があるもののように感じました。ほとんどのジョブは、統計学の博士号( checkmark)、実験計画( checkmark)、線形回帰とanova( checkmark )、一般化線形モデル( checkmark )、およびPCA()などの他の多変量法の理解が最も必要でした、およびRやSASなどの統計コンピューティング環境に関する知識()。データサイエンティストのように思えますが、実際は統計学者の単なるコード名です。✓ ✓ ✓ ✓ ✓✓✓\checkmark✓✓\checkmark✓✓\checkmark✓✓\checkmark✓✓\checkmark✓✓\checkmark しかし、私が行ったすべてのインタビューは、「機械学習アルゴリズムに精通していますか?」という質問から始まりました。多くの場合、ビッグデータ、高性能コンピューティング、ニューラルネットワーク、CART、サポートベクターマシン、ブースティングツリー、教師なしモデルなどのトピックに関する質問に答えなければならないことに気づきました。統計的な質問ですが、すべてのインタビューの終わりには、データサイエンティストが何であるかについてだんだんとわからなくなったような気分になります。 私は統計学者ですが、データ科学者ですか?私は科学的な問題に取り組んでいるので、科学者でなければなりません!また、データを扱うので、データサイエンティストでなければなりません!ウィキペディアによると、ほとんどの学者は私に同意するだろう(https://en.wikipedia.org/wiki/Data_science、など) ビジネス環境では「データサイエンス」という用語が爆発的に使用されていますが、多くの学者やジャーナリストは、データサイエンスと統計を区別していません。 しかし、データサイエンティストの立場でこれらの就職面接をすべて行っているのに、なぜ彼らが私に統計的な質問をすることはないように感じるのでしょうか? 前回のインタビューの後、私は良い科学者にやってもらいたいと思ったので、この問題を解決するためにデータを探しました(やっぱり、私はデータ科学者です)。しかし、後で何度も無数のGoogle検索を行った後、データサイエンティストとは何かの定義に再び取り組んでいるかのように感じ始めたところです。それのように多くの定義は、(があったので、私は、データ科学者が正確に何であったか知らなかったhttp://blog.udacity.com/2014/11/data-science-job-skills.html、HTTPを:// WWW -01.ibm.com/software/data/infosphere/data-scientist/)しかし、誰もが私が1人になりたいと言っていたようです: https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century/ http://mashable.com/2014/12/25/data-scientist/#jjgsyhcERZqL など...リストは続きます。 結局のところ、「データサイエンティストとは何か」と答えたのは非常に難しい質問でした。ヘック、Amstatにはこの質問に答えようと時間を割いていた2か月がありました。 http://magazine.amstat.org/blog/2015/10/01/asa-statement-on-the-role-of-statistics-in-data-science/ http://magazine.amstat.org/blog/2015/11/01/statnews2015/ 今のところ、私はデータサイエンティストになるためにセクシーな統計学者にならなければなりませんが、うまくいけば、相互検証されたコミュニティがいくらかの光を放ち、データサイエンティストになることの意味を理解できるようになるかもしれません。すべての統計学者はデータ科学者ではありませんか? (編集/更新) これは会話を盛り上げるかもしれないと思った。米国統計協会から、データサイエンティストを探しているMicrosoftの求人に関するメールを受け取りました。:ここにリンクされたデータ・サイエンティストポジション。ポジションの役割は私たちが話している多くの特定の特性に影響を与えるため、これは興味深いと思いますが、それらの多くは統計の非常に厳格な背景を必要とし、また以下に掲載された多くの答えと矛盾しています。リンクが機能しなくなった場合に、Microsoftがデータサイエンティストに求めている特性は次のとおりです。 コアジョブの要件とスキル: Analyticsを使用したビジネスドメインエクスペリエンス 大規模な実世界のビジネスデータセットで高度な分析を使用して、複雑なビジネス問題とそのソリューションを概念化するためのクリティカルシンキングスキルの活用に関するいくつかの関連ビジネスドメインでの経験が必要 候補者は、独自に分析プロジェクトを実行し、社内クライアントが調査結果を理解し、ビジネスに利益をもたらす行動に変換できるようにする必要があります。 予測モデリング 予測モデリングにおける業界全体の経験 重要な関係を引き出し、システムスコープを定義するためのクライアントとのビジネス問題の定義および概念モデリング 統計/計量経済学 連続データおよびカテゴリデータの探索的データ分析 企業および消費者の行動、生産コスト、要因需要、個別の選択、および必要に応じたその他の技術関係の構造モデル方程式の仕様と推定 連続データおよびカテゴリデータを分析するための高度な統計手法 時系列分析と予測モデルの実装 複数の変数の問題を扱う知識と経験 モデルの正確性を評価し、診断テストを実施する能力 統計または経済モデルを解釈する能力 個別のイベントシミュレーションと動的シミュレーションモデルの構築に関する知識と経験 データ管理 データ変換のためのT-SQLおよび分析の使用と、非常に大規模な実世界のデータセットに対する探索的データ分析手法の適用に関する知識 データの冗長性、データの正確性、異常値または極端な値、データの相互作用、欠損値などのデータ整合性への注意。 コミュニケーションとコラボレーションのスキル 独立して作業し、困難なビジネス問題に対する革新的なソリューションを研究する仮想プロジェクトチームと連携できる パートナーとのコラボレーション、批判的思考スキルの適用、分析プロジェクトのエンドツーエンドの推進 …


11
線形回帰はいつ「機械学習」と呼ばれるべきですか?
最近のコロキウムでは、講演者の要約は、彼らが機械学習を使用していると主張しました。講演中、機械学習に関連する唯一のことは、データに対して線形回帰を実行することでした。5Dパラメーター空間で最適な係数を計算した後、あるシステムのこれらの係数を他のシステムの最適な係数と比較しました。 線形回帰の機械学習は、単に最適な線を見つけるのではなく、いつ行われますか?(研究者の抽象的な誤解を招くものでしたか?) 最近、機械学習が注目を集めているため、このような区別をすることが重要だと思われます。 私の質問はこれに似ていますが、その質問は「線形回帰」の定義を求めますが、私の質問は線形回帰(多数のアプリケーションを持っています)が適切に「機械学習」と呼ばれる場合を尋ねます。 明確化 線形回帰が機械学習と同じであるかどうかは問いません。一部の人が指摘したように、単一のアルゴリズムは研究分野を構成しません。使用しているアルゴリズムが単なる線形回帰であるときに、機械学習を行っていると言ってもいいのかどうかを尋ねています。 1つは、彼らがされていない場合、あなたの名前にいくつかの金の星を追加するために機械学習を行っていると言うことは非倫理的であるため、わきすべてのジョーク(コメントを参照してください)、私はこれを頼む理由の一つは、実際に機械学習を行います。(多くの科学者は自分の仕事に最適なラインを計算しますが、これは機械学習を行っているという意味ではありません。)一方、機械学習の一部として線形回帰が使用されている状況は明らかにあります。これらの状況を分類するのに役立つ専門家を探しています。;-)

9
正確には、信頼区間とは何ですか?
信頼区間とは何かを大まかに非公式に知っています。しかし、かなり重要な詳細に頭を包み込むようには思えません。ウィキペディアによると: 信頼区間は、実際に取得されたデータが与えられた場合、パラメーターの真の値が信頼区間にある特定の確率を持っているとは予測しません。 また、このサイトのいくつかの場所で同様の指摘がありました。ウィキペディアからのより正確な定義は次のとおりです。 繰り返された(および場合によっては異なる)実験の多くの別個のデータ分析にわたって信頼区間が構築される場合、パラメーターの真の値を含むそのような区間の割合は、信頼レベルとほぼ一致します。 繰り返しになりますが、私はこのサイトのいくつかの場所で同様の指摘をしました。わかりません。繰り返し実験の下で、真のパラメーターを含む計算された信頼区間の割合がである場合、実際の実験で計算されたが信頼区間にある確率は?私は答えで次を探しています:(1 - α )θ (1 - α )θθ\theta(1−α)(1−α)(1 - \alpha)θθ\theta(1−α)(1−α)(1 - \alpha) 上記の誤った定義と正しい定義の区別の明確化。 最初の定義が間違っている理由を明確に示す、信頼区間の正式で正確な定義。 基礎となるモデルが正しい場合でも、最初の定義が劇的に間違っている場合の具体例。



4
コントラストマトリックスとは
どのような正確に対比行列は(用語、カテゴリ予測と分析に関係する)で、どのように正確にコントラスト行列が指定されていますか?すなわち、列jとiは何ですか、行とは何ですか、そのマトリックスの制約は何ですか?列と行の数は何を意味しますか?私はドキュメントとウェブを調べようとしましたが、誰もがそれを使用しているようですが、どこにも定義はありません。利用可能な定義済みのコントラストをバックワードエンジニアリングできますが、定義はそれなしでも利用できるはずです。 > contr.treatment(4) 2 3 4 1 0 0 0 2 1 0 0 3 0 1 0 4 0 0 1 > contr.sum(4) [,1] [,2] [,3] 1 1 0 0 2 0 1 0 3 0 0 1 4 -1 -1 -1 > contr.helmert(4) [,1] [,2] [,3] 1 -1 …

8
外れ値の厳密な定義?
多くの場合、統計で異常値を扱うことについて話します。これについて私を悩ませているのは、私が知る限り、外れ値の定義は完全に主観的であるということです。たとえば、あるランダム変数の真の分布が非常に裾が大きく、または二峰性である場合、外れ値を検出するための標準の視覚化または要約統計は、サンプリングしたい分布の部分を誤って削除します。異常値が存在する場合、その異常値の厳密な定義とは何ですか?また、分析に不当な量の主観性を導入することなく、異常値にどのように対処できますか?

3
事後予測分布と事後予測分布の違いは何ですか?
後部が何であるかは理解していますが、後部の意味がわかりませんか? 2はどう違いますか? Kevin P Murphyは、彼の教科書であるMachine Learning:a Probabilistic Perspectiveで、「内部の信念状態」であることを示しました。それはどういう意味ですか?プライアーはあなたの内なる信念や偏見を表しているという印象を受けましたが、どこが間違っているのでしょうか?

9
推定量と統計量の違いは何ですか?
統計はサンプルから取得できる属性であることを学び、同じサイズの多くのサンプルを取得し、それらすべてについてこの属性を計算し、pdfをプロットすると、対応する属性の分布または対応する統計の分布が得られます。 また、統計は推定量になるように作られていると聞きましたが、これら2つの概念はどのように異なるのですか


2
変動は分散と同じですか?
これは、ここでのクロス検証に関する最初の質問ですので、些細なことでも手伝ってください。それにもかかわらず、ここにあります: 人口統計では、変動と分散は同じ用語ですか?そうでない場合、2つの違いは何ですか? 分散は標準偏差の二乗であることを知っています。また、データがどの程度スパースであるかを示す尺度であり、その計算方法も知っています。 しかし、私は「モデル思考」と呼ばれるCoursera.orgのコースをフォローしており、講師は明らかに変化を説明しましたが、常にそれを変化と呼んでいました。それで少し混乱しました。 公平を期すために、彼は常に母集団内の特定のインスタンスのバリエーションの計算について話しました。 それらが交換可能である場合、またはおそらく私が何かを見逃している場合、誰かが私にそれを明確にすることができますか?

17
統計を1つの文で記述する方法は?
統計の学習を始めたとき、t検定、ANOVA、カイ2乗、線形回帰などの手順は、それぞれ非常に異なる生き物であるように見えました。しかし今では、これらの手順がそれぞれほぼ同じことをしていることに気付きました。同様に、分散、残差、標準誤差、平均などの値も、ほぼ同じことを測定します。 したがって、これらのすべての手順と値、そして実際にはすべての統計は、たった1つの簡単な文で説明できます。 期待される値は何ですか?また、この値の周りの変動は何ですか? 予想される単語は、これらの単語のいずれかに置き換えることができます:仮説、予測、中心 他の人は統計を1つの文でどのように説明しますか?
27 definition 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.