統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

4
ヒストグラムに基づくデータのおおよその分布の評価
ヒストグラムに基づいてデータが指数関数である(つまり、右に歪んでいる)かどうかを確認するとします。 データをグループ化またはビン化する方法に応じて、大幅に異なるヒストグラムを取得できます。 ヒストグラムのセットの1つは、データが指数関数的であるように思われます。別のセットでは、データは指数関数ではないように見えます。適切に定義されたヒストグラムから分布を決定するにはどうすればよいですか?


2
勾配ブースティングツリーとランダムフォレスト
Friedmanが提案する勾配ツリーブースティングでは、決定木をベース学習器として使用します。基本決定ツリーを可能な限り複雑にする(完全に成長させる)か、もっと単純にするべきか疑問に思っています。選択の説明はありますか? ランダムフォレストは、決定木を基本学習器として使用する別のアンサンブル手法です。私の理解に基づいて、通常、各反復でほぼ完全に成長した決定木を使用します。私は正しいですか?

8
顔画像のデータベースで特定の顔を検出する
私は、Twitterユーザーのプロフィール写真を使用した小さなプロジェクトに取り組んでいます。 私が遭遇した問題は、鮮明なポートレート写真である画像を除くすべてを除外した後、Twitterユーザーのごく少数のかなりの割合がジャスティンビーバーの写真をプロフィール画像として使用することです。 それらを除外するために、写真がジャスティンビーバーのものかどうかをプログラムでどのように判断できますか?

3
残差が正規分布しているが、yが分布していない場合はどうなりますか?
奇妙な質問があります。単純な線形モデルで分析する従属変数が大きく左に歪んでいる小さなサンプルがあると仮定します。したがって、uuuは正規分布していないと仮定します。これは、が正規分布になるためyyyです。しかし、QQ-Normalプロットを計算すると、残差が正規分布しているという証拠があります。したがって、はそうではありませんが、エラー項は正規分布していると誰でも想定できます。エラー用語が正規分布しているように見えるが、はそうではない場合、それはどういう意味ですか?yyyyyyy


6
相関と共分散の違いをどのように説明しますか?
この質問に続いて、平均のみを理解している人に共分散をどのように説明しますか?、素人に共分散を説明する問題に対処し、私の心の中で同様の質問を持ち出しました。 共分散と相関の違いを統計初心者にどのように説明しますか?どちらも別の変数にリンクされている1つの変数の変更を参照しているようです。 言及された質問と同様に、式の欠如が望ましいでしょう。

15
2016年の米国選挙結果:予測モデルで何が問題になったのですか?
最初はBrexitで、現在は米国の選挙です。多くのモデル予測は大きく外れていましたが、ここで学ぶべき教訓はありますか?昨日午後4時(PST)になっても、ベッティングマーケットはヒラリー4対1を好んでいました。 私は、実際のお金が出回っている賭け市場は、利用可能なすべての予測モデルのアンサンブルとして機能するはずだと考えています。そのため、これらのモデルが非常に良い仕事をしなかったと言うのは決して大げさではありません。 1つの説明は、有権者が自分自身をトランプ支持者として特定したがらないということでした。モデルにそのような効果をどのように組み込むことができますか? 私が読んだマクロの説明の1つはポピュリズムの上昇です。問題は、統計モデルがそのようなマクロトレンドをどのようにキャプチャできるかということです。 これらの予測モデルは世論調査や感情からのデータを重視しすぎており、100年の展望で国が立っている場所からは十分ではありませんか?友達のコメントを引用しています。

5
サポートベクターマシン(SVM)はどのように機能しますか?
サポートベクターマシン(SVM)の仕組みと、線形パーセプトロン、線形判別分析、ロジスティック回帰などの他の線形分類器との違いは何ですか?* (* アルゴリズム、最適化戦略、一般化機能、および実行時の複雑さの根本的な動機の観点から考えています)


6
データ行列の直感的な解釈はありますか?
特定のデータ行列(列に変数があり、行にデータポイントがある)について、が統計において重要な役割を果たすようです。たとえば、それは通常の最小二乗法の分析解の重要な部分です。または、PCAの場合、その固有ベクトルはデータの主成分です。AAAATAATAA^TA 計算方法は理解していますが、このマトリックスが表すものの直感的な解釈があり、それがその重要な役割につながるかどうか疑問に思っていましたか?ATAATAA^TA

5
大規模な統計分析を実行するには、どのようなスキルが必要ですか?
多くの統計業務では、大規模データの経験が求められます。大規模なデータセットを操作するために必要な統計および計算スキルの種類は何ですか。たとえば、1,000万サンプルのデータセットが与えられた場合に回帰モデルを構築するのはどうでしょうか。


7
精度が分類モデルを評価するための最良の尺度ではないのはなぜですか?
これは、ここで間接的に複数回尋ねられた一般的な質問ですが、信頼できる答えは1つありません。参照のためにこれに対する詳細な答えを持っていることは素晴らしいことです。 すべての分類の中で正しい分類の割合である精度は、非常に単純で非常に「直感的な」尺度ですが、不均衡なデータには不十分な尺度になる場合があります。なぜ私たちの直感がここで私たちを誤った方向に導き、この測定に他の問題がありますか?

6
ニューラルネットワークでの1x1畳み込みの意味
現在、Udacity Deep Learning Tutorialを行っています。レッスン3では、1x1畳み込みについて説明します。この1x1コンボリューションは、Google Inception Moduleで使用されます。1x1コンボリューションとは何かを理解できません。 Yann Lecunによるこの投稿も見ました。 誰かが親切にこれを私に説明できますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.