統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

30
一般的な統計上の罪とは何ですか?
私は心理学の大学院生であり、統計学でますます独立した研究を進めるにつれて、正式な訓練が不十分であることにますます驚いています。個人的な経験と中古の経験の両方は、学部および大学院の訓練における統計的厳密性の不足が心理学のどこにでもあることを示唆しています。そのため、私のような独立した学習者にとっては、「統計的罪」のリストを作成し、卒業生に標準的な実践として教えられた統計的実践を表にし、実際には優れた(より強力な、または柔軟な、または堅牢な、など)現代の方法または率直に無効であることが示されています。他の分野でも同様の状況が発生する可能性があることを予想して、分野間の統計的な罪のリストを収集できるコミュニティwikiを提案します。
227 fallacy 

11
AICまたはBICを他よりも好む理由はありますか?
AICとBICは両方とも、推定されたパラメーターの数に対してペナルティが課されるモデル適合を評価する方法です。私が理解しているように、BICはAICよりも無料のパラメーターに対してモデルに多くのペナルティを科します。基準の厳格さに基づく選好以外に、BICよりもAICを好む理由、またはその逆の理由はありますか?

5
ニューラルネットワークをトレーニングするためのトレードオフバッチサイズと反復回数
ニューラルネットワークをトレーニングする場合、設定するとどのような違いがありますか? バッチサイズを、反復回数をaaabbb vs.バッチサイズ、反復回数cccddd ここで、?ab=cdab=cd ab = cd 別の言い方をすれば、同じ量のトレーニング例でニューラルネットワークをトレーニングすると仮定して、最適なバッチサイズと反復回数を設定する方法は?(ここで、バッチサイズ*反復数=ニューラルネットワークに表示されるトレーニング例の数、同じトレーニング例が複数回表示される可能性があります) バッチサイズが大きいほど、必要なメモリスペースが多くなり、多くの場合計算が速くなることを認識しています。しかし、訓練されたネットワークのパフォーマンスに関して、それはどのような違いをもたらしますか?

14
因子分析と主成分分析の違いは何ですか?
私が使用する統計パッケージの多くは、これら2つの概念をまとめているようです。ただし、一方を他方に対して使用するために真実でなければならない異なる仮定またはデータの「形式」があるのではないかと思っています。実際の例は信じられないほど便利です。

12
データマイニング、統計、機械学習、AIの違いは何ですか?
データマイニング、統計、機械学習、AIの違いは何ですか? 非常によく似た問題を解決しようとする4つの分野であるが、異なるアプローチであると言うのは正確でしょうか?彼らは正確に何を共有していて、どこで違うのですか?それらの間に何らかの階層がある場合、それは何でしょうか? 同様の質問が以前に聞かれましたが、まだわかりません。 データマイニングと統計分析 二つの文化:統計と機械学習?

3
機械学習の問題が絶望的であることを知る方法は?
標準的な機械学習シナリオを想像してください: 大規模な多変量データセットに直面しており、それについてかなり曖昧な理解を持っています。あなたがする必要があるのは、あなたが持っているものに基づいていくつかの変数について予測することです。いつものように、データを消去し、記述統計を調べ、いくつかのモデルを実行し、それらを相互検証しますが、何度か試行した後、前後に行って複数のモデルを試しても何も機能しないようで、結果は悲惨です。このような問題に数時間、数日、または数週間費やすことができます... 問題は、いつ停止するかです。データが実際に絶望的であり、すべての派手なモデルがすべてのケースまたは他の些細な解決策の平均結果を予測するよりも良いことをしないことをどのように知っていますか? もちろん、これは予測可能性の問題ですが、私が知る限り、多変量データの予測可能性を評価するのは困難です。それとも私は間違っていますか? 免責事項:この質問はこの質問に触発され ました。いつモデルを探すのをやめなければなりませんか?それはあまり注目されませんでした。このような質問に対する詳細な回答を参考にしていただければ幸いです。

10
平均のみを理解している人に共分散をどのように説明しますか?
...分散についての知識を直感的に増やすことができると仮定して(「分散」を直感的に理解する)、または「平均」からのデータ値の平均距離であり、分散は平方であるため単位、平方根を使用して単位を同じに保ちます。これは標準偏差と呼ばれます。 これが「レシーバー」によって明確に表現され、(できれば)理解されると仮定しましょう。共分散とは何ですか?数学用語/式を使用せずに単純な英語でどのように説明しますか?(つまり、直感的な説明。;) 注意してください:私は概念の背後にある式と数学を知っています。私は、数学を含めずに、同じことを分かりやすい方法で「説明」できるようにしたいと考えています。すなわち、「共分散」とはどういう意味ですか?

5
使用する「意味」とは?
したがって、算術平均(AM)、幾何平均(GM)、調和平均(HM)があります。それらの数学的定式化は、関連するステレオタイプの例とともによく知られています(例えば、調和平均と「速度」関連問題への応用)。 ただし、常に興味をそそられる質問は、「どのコンテキストが特定のコンテキストで使用するのに最も適切であるかをどのように判断するのですか?」です。適用可能性を理解するために、少なくともある程度の経験則がなければなりませんが、私が出くわした最も一般的な答えは、「それは依存します」(しかし何に依存しますか?)です。 これはかなり些細な質問のように思えるかもしれませんが、高校のテキストでさえこれを説明できませんでした-彼らは数学的な定義のみを提供します! 数学的な説明よりも英語の説明の方が好きです。簡単なテストは「お母さん/子供が理解できるでしょうか?」
197 mean 

8
自動モデル選択のアルゴリズム
自動モデル選択のアルゴリズムを実装したいと思います。私は段階的な回帰を行うことを考えていますが、何でもできます(ただし、線形回帰に基づいている必要があります)。 私の問題は、方法論やオープンソースの実装を見つけることができないことです(Javaで目が覚めています)。私が念頭に置いている方法論は次のようなものです。 すべての因子の相関行列を計算する 互いに相関の低い要因を選択する t-statが低い因子を削除する 他の要素を追加します(2。 いくつかの基準(AICなど)が特定のしきい値を超えるか、それ以上にならないか、より大きな値が見つからなくなるまで、何度も繰り返します。 このためのR実装(stepAIC)があることはわかっていますが、コードを理解するのは非常に困難です。また、段階的回帰を説明する記事を見つけることができませんでした。


12
ゼロを含む非負のデータを変換するにはどうすればよいですか?
正のデータに大きな偏りがある場合、ログを取得することがよくあります。しかし、ゼロを含む非常に歪んだ非負データではどうすればよいですか?私は2つの変換が使用されているのを見ました: ログ(x + 1 )log⁡(x+1)\log(x+1)0が0にマッピングされるというきちんとした機能を持つ。 ログ(x + c )log⁡(x+c)\log(x+c)ここで、cは推定されるか、非常に小さな正の値に設定されます。 他のアプローチはありますか?あるアプローチを他のアプローチよりも好む理由はありますか?

4
ニューラルネットワークの隠れ層は何を計算しますか?
多くの人々が「あなたのためにグーグルにさせてください」へのリンクで応答すると確信しているので、私はこれを理解しようとしたと言いたいので、ここでの私の理解不足を許してください、しかし、私はどのようにニューラルネットワークの実際の実装は実際に機能します。 入力レイヤーとデータの正規化方法、バイアスユニットも理解していますが、非表示レイヤーについては、実際の計算はそのレイヤーで行われ、出力にどのようにマッピングされるかは少しぼやけています。非表示レイヤーに疑問符、AND / OR / XORなどのブール関数、アクティベーション関数、すべての非表示ユニットにマップする入力ノード、および各非表示ユニットのみにマップする入力ノードを含む図を見てきました私は実際的な面でいくつか質問があります。もちろん、子供に説明するようなニューラルネットワークプロセス全体の簡単な説明は素晴らしいでしょう。 隠れ層でどのような計算が行われますか? これらの計算は出力レイヤーにどのようにマッピングされますか? 出力層はどのように機能しますか?非表示層からのデータの非正規化? 入力層の一部の層が非表示層に接続されていて、一部が接続されていない理由

9
Rのグループごとにデータを要約するには?[閉まっている]
次のようなRデータフレームがあります。 age group 1 23.0883 1 2 25.8344 1 3 29.4648 1 4 32.7858 2 5 33.6372 1 6 34.9350 1 7 35.2115 2 8 35.2115 2 9 35.2115 2 10 36.7803 1 ... 次の形式でデータフレームを取得する必要があります。 group mean sd 1 34.5 5.6 2 32.3 4.2 ... グループ番号は異なる場合がありますが、名前と数量は levels(factor(data$group)) 結果を得るには、データをどのように操作する必要がありますか?

15
データサイエンティストとは何ですか?
最近、統計学の博士課程を卒業してから、ここ数か月間、統計学の分野で仕事を探し始めました。私が検討したほとんどすべての会社には、「データサイエンティスト」という肩書きを持つ求人がありました。実際、統計学者や統計学者の役職を見る日々はもうなくなったように感じました。データ科学者であることは、統計学者であることを本当に置き換えたのか、それともタイトルが同義語だったのだろうか? まあ、仕事の資格のほとんどは、統計学者の肩書きの下で資格があるもののように感じました。ほとんどのジョブは、統計学の博士号( checkmark)、実験計画( checkmark)、線形回帰とanova( checkmark )、一般化線形モデル( checkmark )、およびPCA()などの他の多変量法の理解が最も必要でした、およびRやSASなどの統計コンピューティング環境に関する知識()。データサイエンティストのように思えますが、実際は統計学者の単なるコード名です。✓ ✓ ✓ ✓ ✓✓✓\checkmark✓✓\checkmark✓✓\checkmark✓✓\checkmark✓✓\checkmark✓✓\checkmark しかし、私が行ったすべてのインタビューは、「機械学習アルゴリズムに精通していますか?」という質問から始まりました。多くの場合、ビッグデータ、高性能コンピューティング、ニューラルネットワーク、CART、サポートベクターマシン、ブースティングツリー、教師なしモデルなどのトピックに関する質問に答えなければならないことに気づきました。統計的な質問ですが、すべてのインタビューの終わりには、データサイエンティストが何であるかについてだんだんとわからなくなったような気分になります。 私は統計学者ですが、データ科学者ですか?私は科学的な問題に取り組んでいるので、科学者でなければなりません!また、データを扱うので、データサイエンティストでなければなりません!ウィキペディアによると、ほとんどの学者は私に同意するだろう(https://en.wikipedia.org/wiki/Data_science、など) ビジネス環境では「データサイエンス」という用語が爆発的に使用されていますが、多くの学者やジャーナリストは、データサイエンスと統計を区別していません。 しかし、データサイエンティストの立場でこれらの就職面接をすべて行っているのに、なぜ彼らが私に統計的な質問をすることはないように感じるのでしょうか? 前回のインタビューの後、私は良い科学者にやってもらいたいと思ったので、この問題を解決するためにデータを探しました(やっぱり、私はデータ科学者です)。しかし、後で何度も無数のGoogle検索を行った後、データサイエンティストとは何かの定義に再び取り組んでいるかのように感じ始めたところです。それのように多くの定義は、(があったので、私は、データ科学者が正確に何であったか知らなかったhttp://blog.udacity.com/2014/11/data-science-job-skills.html、HTTPを:// WWW -01.ibm.com/software/data/infosphere/data-scientist/)しかし、誰もが私が1人になりたいと言っていたようです: https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century/ http://mashable.com/2014/12/25/data-scientist/#jjgsyhcERZqL など...リストは続きます。 結局のところ、「データサイエンティストとは何か」と答えたのは非常に難しい質問でした。ヘック、Amstatにはこの質問に答えようと時間を割いていた2か月がありました。 http://magazine.amstat.org/blog/2015/10/01/asa-statement-on-the-role-of-statistics-in-data-science/ http://magazine.amstat.org/blog/2015/11/01/statnews2015/ 今のところ、私はデータサイエンティストになるためにセクシーな統計学者にならなければなりませんが、うまくいけば、相互検証されたコミュニティがいくらかの光を放ち、データサイエンティストになることの意味を理解できるようになるかもしれません。すべての統計学者はデータ科学者ではありませんか? (編集/更新) これは会話を盛り上げるかもしれないと思った。米国統計協会から、データサイエンティストを探しているMicrosoftの求人に関するメールを受け取りました。:ここにリンクされたデータ・サイエンティストポジション。ポジションの役割は私たちが話している多くの特定の特性に影響を与えるため、これは興味深いと思いますが、それらの多くは統計の非常に厳格な背景を必要とし、また以下に掲載された多くの答えと矛盾しています。リンクが機能しなくなった場合に、Microsoftがデータサイエンティストに求めている特性は次のとおりです。 コアジョブの要件とスキル: Analyticsを使用したビジネスドメインエクスペリエンス 大規模な実世界のビジネスデータセットで高度な分析を使用して、複雑なビジネス問題とそのソリューションを概念化するためのクリティカルシンキングスキルの活用に関するいくつかの関連ビジネスドメインでの経験が必要 候補者は、独自に分析プロジェクトを実行し、社内クライアントが調査結果を理解し、ビジネスに利益をもたらす行動に変換できるようにする必要があります。 予測モデリング 予測モデリングにおける業界全体の経験 重要な関係を引き出し、システムスコープを定義するためのクライアントとのビジネス問題の定義および概念モデリング 統計/計量経済学 連続データおよびカテゴリデータの探索的データ分析 企業および消費者の行動、生産コスト、要因需要、個別の選択、および必要に応じたその他の技術関係の構造モデル方程式の仕様と推定 連続データおよびカテゴリデータを分析するための高度な統計手法 時系列分析と予測モデルの実装 複数の変数の問題を扱う知識と経験 モデルの正確性を評価し、診断テストを実施する能力 統計または経済モデルを解釈する能力 個別のイベントシミュレーションと動的シミュレーションモデルの構築に関する知識と経験 データ管理 データ変換のためのT-SQLおよび分析の使用と、非常に大規模な実世界のデータセットに対する探索的データ分析手法の適用に関する知識 データの冗長性、データの正確性、異常値または極端な値、データの相互作用、欠損値などのデータ整合性への注意。 コミュニケーションとコラボレーションのスキル 独立して作業し、困難なビジネス問題に対する革新的なソリューションを研究する仮想プロジェクトチームと連携できる パートナーとのコラボレーション、批判的思考スキルの適用、分析プロジェクトのエンドツーエンドの推進 …

4
ニューラルネットワークのバッチサイズとは何ですか?
Python Keras packageニューラルネットワークに使用しています。これがリンクです。であるがbatch_size、試験サンプルの数に等しいですか?ウィキペディアから次の情報があります。 ただし、他の場合では、sum-gradientを評価するには、すべてのsummand関数からの勾配の高価な評価が必要になる場合があります。トレーニングセットが膨大で、単純な公式が存在しない場合、勾配の評価にはすべての加数関数の勾配を評価する必要があるため、勾配の合計の評価は非常に高価になります。すべての反復で計算コストを節約するために、確率的勾配降下では、すべてのステップで被加数関数のサブセットをサンプリングします。これは、大規模な機械学習の問題の場合に非常に効果的です。 上記の情報はテストデータを説明していますか?これbatch_sizeはkeras(勾配更新ごとのサンプル数)と同じですか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.