統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

12
把握するのが最も難しい統計的概念は何ですか?
これはここの質問と似たような質問ですが、十分に異なっているので、質問する価値があると思います。 スターターにしたいと思ったのは、最も把握しにくいと思うことです。 私は確率と頻度の差です。1つは「現実の知識」(確率)のレベルにあり、もう1つは「現実そのもの」(頻度)のレベルにあります。これについて考えすぎると、ほとんどいつも混乱します。 エドウィン・ジェーンズは、これらの事柄を混同することを説明するために、「マインドプロジェクションの誤 "」と呼ばれる用語を作成しました。 他に把握するのが難しい概念についての考えはありますか?
32 teaching 

8
この人が女性である確率はどのくらいですか?
カーテンの後ろに人がいます-私はその人が女性か男性かを知りません。 私はその人が長い髪を持っていること、そして長い髪を持つすべての人々の90%が女性であることを知っています 私はその人が希少な血液型AX3を持っていること、そしてこの血液型を持つすべての人々の80%が女性であることを知っています。 人が女性である確率はどのくらいですか? 注:この元の定式化は、さらに2つの仮定を加えて拡張されました。1。血液型と髪の長さは独立しています。 (ここでの特定のシナリオはそれほど適切ではありません-むしろ、私はこれに答えるための正しいアプローチを心に留める必要がある緊急のプロジェクトを持っています。異なる統計理論による複数の議論のできる答えを持つものよりも)

2
AlphaGoに似た、チェス用の深層強化学習エンジンがないのはなぜですか?
コンピュータは長い間、「ブルートフォース」技術を使用してチェスをプレイし、特定の深さまで検索してから位置を評価することができました。ただし、AlphaGoコンピューターはANNのみを使用して位置を評価します(私が知る限り、深さ検索は行いません)。AlphaGoがGoをプレイするのと同じ方法でチェスをプレイするチェスエンジンを作成することは可能ですか?なぜ誰もこれをしなかったのですか?このプログラムは、今日のトップチェスエンジン(およびチェスプレイヤー)よりも優れたパフォーマンスを発揮しますか?

1
PCAはk-meansクラスタリング分析でどのように役立ちますか?
背景:住宅のユニット密度、人口密度、緑地面積、住宅価格、学校/保健センター/デイケアセンターの数など、社会経済的特性に基づいて都市の住宅地をグループに分類したい住宅地をいくつのグループに分けることができるか、そしてそれらのユニークな特性は何かを理解したいと思います。この情報は、都市計画を促進する可能性があります。 いくつかの例に基づいて(このブログの投稿:Delta AircraftのPCAとK-meansクラスタリングを参照)、分析を行う方法は次のとおりです。 最初にPCA分析を行います。 PCAの結果に基づいて一意のグループ(クラスター)の数を決定します(たとえば、「エルボ」法、または全分散の80〜90%を説明するコンポーネントの数を使用)。 クラスターの数を決定したら、k-meansクラスタリングを適用して分類を行います。 私の質問: PCAコンポーネントの数はクラスター分析に関係しているようです。たとえば、5つのPCAコンポーネントがすべての機能のバリエーションの90%以上を説明している場合、k-meansクラスタリングを適用して5つのクラスターを取得します。それでは、PCA分析の5つのコンポーネントに正確に対応する5つのグループでしょうか? 別の言葉で言えば、私の質問は、PCA分析とk-meansクラスタリングの関係は何ですか? 更新: Emre、xeon、およびKirillの入力に感謝します。したがって、現在の答え: クラスタリング分析の前にPCAを実行することは、特徴抽出機能としての次元削減とクラスターの視覚化/表示にも役立ちます。 クラスタリング後にPCAを実行すると、クラスタリングアルゴリズムを検証できます(参照:カーネル主成分分析)。 PCAは、クラスタリングの前にデータセットの次元を減らすために時々適用されます。ただし、Yeung&Ruzzo(2000)は、元の変数の代わりにPCを使用してクラスタリングしても、クラスターの品質が必ずしも向上しないことを示しました。特に、最初の数台のPC(データの変動の大部分を含む)は、必ずしもクラスター構造の大部分をキャプチャーするわけではありません。 Yeung、Ka Yee、およびWalter L. Ruzzo。遺伝子発現データをクラスタリングするための主成分分析に関する実証的研究。技術レポート、ワシントン大学、2000年コンピューター科学工学科(pdf) 2段階のクラスタリング分析の前に、PCAが必要と思われました。Ibes(2015)に基づき、PCAで特定された要因を使用してクラスター分析が実行されました。 Ibes、Dorothy C. 都市公園システムの多次元分類と公平性分析:新しい方法論とケーススタディアプリケーション。 景観と都市計画、第137巻、2015年5月、122〜137ページ。

2
OLS線形回帰のコスト関数
Andrew NgがCourseraで機械学習について行った線形回帰に関する講義と少し混同されています。そこで、彼は平方和を最小化するコスト関数を次のように与えました。 12 メートル∑i = 1m(hθ( X(i ))− Y(i ))212m∑i=1m(hθ(X(i))−Y(i))2 \frac{1}{2m} \sum _{i=1}^m \left(h_\theta(X^{(i)})-Y^{(i)}\right)^2 がどこから来たのか理解しています。彼は、二乗項で微分を実行したときに、二乗項の2が半分でキャンセルされるようにしたと思います。しかし、がどこから来たのかわかりません。 11212\frac{1}{2}1m1m\frac{1}{m} なぜを行う必要があるのですか?標準線形回帰では、それはありません。単に残差を最小化します。ここで必要なのはなぜですか?1m1m\frac{1}{m}

4
真の値がゼロのときに相対誤差を計算する方法は?
真の値がゼロのときに相対誤差を計算するにはどうすればよいですか? 私は言うと。相対誤差を次のように定義すると:xtrue=0xtrue=0x_{true} = 0xtestxtestx_{test} relative error=xtrue−xtestxtruerelative error=xtrue−xtestxtrue\text{relative error} = \frac{x_{true}-x_{test}}{x_{true}} その場合、相対誤差は常に未定義です。代わりに定義を使用する場合: relative error=xtrue−xtestxtestrelative error=xtrue−xtestxtest\text{relative error} = \frac{x_{true}-x_{test}}{x_{test}} その場合、相対誤差は常に100%です。どちらの方法も役に立たないようです。別の選択肢はありますか?

1
PCA目的関数:分散の最大化とエラーの最小化の関係は何ですか?
PCAアルゴリズムは、相関行列の観点から定式化できます(データはすでに正規化されており、最初のPCへの投影のみを検討していると仮定します)。目的関数は次のように記述できます。XXX maxw(Xw)T(Xw)s.t.wTw=1.maxw(Xw)T(Xw)s.t.wTw=1. \max_w (Xw)^T(Xw)\; \: \text{s.t.} \: \:w^Tw = 1. これは問題ありません。ラグランジュ乗数を使用して解決します。つまり、次のように書き換えます。 maxw[(Xw)T(Xw)−λwTw],maxw[(Xw)T(Xw)−λwTw], \max_w [(Xw)^T(Xw) - \lambda w^Tw], これは maxw(Xw)T(Xw)wTw,maxw(Xw)T(Xw)wTw, \max_w \frac{ (Xw)^T(Xw) }{w^Tw}, そのため(ここでMathworldを参照)は\ max_w \ sum_ {i = 1} ^ n \ text {(ポイント$ x_i $からライン$ w $までの距離)} ^ 2と等しいようmaxw∑i=1n(distance from point xi to line w)2.maxw∑i=1n(distance from point xi …
32 pca  optimization 

3
相関または共分散に関するPCA:相関に関するPCAは意味をなしますか?[閉まっている]
主成分分析(PCA)では、共分散行列または相関行列のいずれかを選択して、(それぞれの固有ベクトルから)成分を見つけることができます。両方の行列間の固有ベクトルが等しくないため、これらは異なる結果(PCの負荷とスコア)を与えます。私の理解では、これは生データベクトルとその標準化が直交変換を介して関連付けられないという事実によって引き起こされるということです。数学的には、類似した行列(つまり、直交変換によって関連付けられた行列)は同じ固有値を持ちますが、必ずしも同じ固有ベクトルを持つとは限りません。XXXZZZ これは私の心にいくつかの困難を引き起こします: PCAは、同じ開始データセットに対して2つの異なる答えを得ることができ、両方とも同じことを達成しようとする場合(=最大分散の方向を見つける)、実際に意味がありますか? 相関行列アプローチを使用する場合、PCを計算する前に、各変数は独自の標準偏差によって標準化(スケーリング)されます。それでは、データが事前に異なる方法でスケーリング/圧縮されている場合、最大分散の方向を見つけることは依然としてどのように意味がありますか?相関ベースのPCAは非常に便利です(標準化された変数は無次元なので、線形結合を追加できます。他の利点も実用性に基づいています)が正しいのでしょうか。 (変数の分散が大きく異なる場合でも)共分散ベースのPCAのみが真に正しいものであり、このバージョンを使用できない場合は、相関ベースのPCAも使用すべきではないようです。 私はこのスレッドがあることを知っています:相関または共分散のPCA?-しかし、それは実用的な解決策を見つけることにのみ焦点を当てているようです。

1
「決定係数」と「平均二乗誤差」の違いは何ですか?
回帰問題については、「決定係数」(別名Rの2乗)を使用して、モデルの選択(正則化に適切なペナルティ係数を見つけるなど)を実行する人々を見てきました。 ただし、回帰精度の尺度として「平均二乗誤差」または「二乗平均平方根誤差」を使用することも一般的です。 では、これら2つの主な違いは何ですか?それらは「正規化」タスクと「回帰」タスクに交換可能に使用できますか?また、機械学習、データマイニングタスクなど、実際のそれぞれの主な用途は何ですか?

2
SVMの最適なCおよびガンマパラメータを決定するための検索範囲は?
分類にSVMを使用しており、線形カーネルとRBFカーネルの最適なパラメーターを決定しようとしています。線形カーネルの場合、交差検証されたパラメーター選択を使用してCを決定し、RBFカーネルの場合、グリッド検索を使用してCおよびガンマを決定します。 私は20(数値)機能と70のトレーニング例を7つのクラスに分類する必要があります。 Cおよびガンマパラメータの最適値を決定するために、どの検索範囲を使用する必要がありますか?


4
過剰分散ポアソン結果のマルチレベルモデルをどのように適合させるのですか?
Rを使用して、多レベルGLMMをポアソン分布(過剰分散)に適合させたいと思っています。現時点では、lme4を使用していますが、最近quasipoissonファミリーが削除されたことに気付きました。 他の場所で、観測ごとに1レベルのランダム切片を追加することで、二項分布の加法的な過分散をモデル化できることを見てきました。これはポアソン分布にも当てはまりますか? それを行うより良い方法はありますか?推奨する他のパッケージはありますか?

3
Rはlmの欠損値をどのように処理しますか?
行列Aの各列に対してベクトルBを回帰させたいと思います。欠損データがない場合、これは簡単ですが、行列Aに欠損値が含まれている場合、Aに対する回帰はすべての行のみを含むように制限されます値が存在します(デフォルトのna.omit動作)。これにより、欠落データのない列に対して誤った結果が生成されます。列行列Bを行列Aの個々の列に対して回帰することはできますが、何千回も回帰を行う必要があり、これは非常に遅く、洗練されていません。na.exclude機能は、このような場合のために設計されているように見えるが、私はそれを動作させることはできません。ここで何が間違っていますか?重要な場合、OSXでR 2.13を使用します。 A = matrix(1:20, nrow=10, ncol=2) B = matrix(1:10, nrow=10, ncol=1) dim(lm(A~B)$residuals) # [1] 10 2 (the expected 10 residual values) # Missing value in first column; now we have 9 residuals A[1,1] = NA dim(lm(A~B)$residuals) #[1] 9 2 (the expected 9 residuals, given na.omit() is the default) # …

3
凝集階層クラスタリングのどのようなストップ基準が実際に使用されていますか?
私は、あらゆる種類の基準を提案する広範な文献を見つけました(例えば、Glenn et al。1985(pdf)およびJung et al。2002(pdf))。ただし、これらのほとんどは実装がそれほど容易ではありません(少なくとも私の観点からは)。私が使用していますscipy.cluster.hierarchyをクラスタ階層を得るために、私は今、それからフラットなクラスターを形成する方法を決定しようとしています。私の目標は、観測結果に共通のパターンを発見することです。そのため、取得したクラスタリングと比較するための参照はありません。誰でも実用的な解決策を提案できますか?
32 clustering 

2
畳み込みニューラルネットワークの「機能マップ」(別名「活性化マップ」)の定義は何ですか?
イントロの背景 たたみ込みニューラルネットワーク内では、通常、次のような一般的な構造/フローがあります。 入力画像(つまり、2Dベクトルx) (最初の畳み込み層(Conv1)はここから始まります...) w12D画像に沿ってフィルターのセット()を畳み込みます(つまり、z1 = w1*x + b1内積の乗算を行います)。ここz1で3D b1はバイアスです。 アクティベーション関数(ReLuなど)を適用して、z1非線形(egなどa1 = ReLu(z1))を作成しa1ます。ここで3Dです。 (2番目の畳み込み層(Conv2)はここから始まります...) 新しく計算されたアクティベーションに沿って一連のフィルターを畳み込みます(つまり、z2 = w2*a1 + b2内積の乗算を行います)。ここでz2は3Dであり、b2バイアスです。 アクティベーション関数(ReLuなど)を適用して、z2非線形(egなどa2 = ReLu(z2))を作成しa2ます。ここで3Dです。 質問 「機能マップ」という用語の定義は、文学ごとに異なるようです。具体的に: 1番目の畳み込み層の場合、「機能マップ」は入力ベクトルx、または出力ドット積z1、または出力アクティベーションa1、またはに変換xする「プロセス」a1、または他の何かに対応しますか? 同様に、2番目の畳み込み層の場合、「機能マップ」は入力アクティベーションa1、または出力ドット積z2、または出力アクティベーションa2、またはに変換a1する「プロセス」a2、または他の何かに対応しますか? また、「機能マップ」という用語が「アクティベーションマップ」とまったく同じというのは本当ですか?(または、実際には2つの異なる意味ですか?) 追加の参照: ニューラルネットワークとディープラーニングのスニペット-章6: *ここで命名法は大まかに使用されています。特に、「機能マップ」を使用して、畳み込み層によって計算された関数ではなく、層から出力される隠されたニューロンの活性化を意味しています。このような命名法の軽度の乱用は、研究文献ではかなり一般的です。 Matt Zeilerによる畳み込みネットワークの視覚化と理解からの抜粋: このペーパーでは、モデル内の任意のレイヤーで個々の機能マップを励起する入力刺激を明らかにする視覚化手法を紹介します。[...]これとは対照的に、アプローチは不変量のノンパラメトリックビューを提供し、トレーニングセットのどのパターンが機能マップをアクティブにするかを示します。[...]フィーチャマップ全体の応答を正規化するローカルコントラスト操作。[...]指定されたconvnetアクティベーションを調べるために、レイヤー内の他のすべてのアクティベーションをゼロに設定し、接続されたdeconvnetレイヤーへの入力として機能マップを渡します。[...] convnetは、relu非線形性を使用します。これにより、フィーチャマップが修正され、フィーチャマップが常に正であることが保証されます。[...] convnetは、学習したフィルターを使用して、前のレイヤーの機能マップを畳み込みます。[...]図6 これらの視覚化は、モデル内の特定の機能マップを刺激する入力パターンの正確な表現です。パターンに対応する元の入力画像の部分が遮られると、機能マップ内のアクティビティが明確に低下します。[...] 備考:図1に「機能マップ」と「修正された機能マップ」という用語も導入されています スニペットCNNのスタンフォードCS231n章: [...]この視覚化で簡単に気付かれる危険な落とし穴の1つは、いくつかのアクティベーションマップが多くの異なる入力に対してすべてゼロになる可能性があることです。猫の写真を見ている訓練を受けたAlexNetの最初のCONVレイヤー(左)と5番目のCONVレイヤー(右)の典型的な外観のアクティベーション。すべてのボックスには、フィルターに対応するアクティベーションマップが表示されます。アクティベーションがまばらであり(この視覚化では黒で示されているように、ほとんどの値はゼロです)、ほとんどローカルであることに注意してください。 A-Beginner's-Guide-To-Understanding-Convolutional-Neural-Networksのスニペット [...]入力ボリューム上の一意の場所ごとに番号が生成されます。すべての場所でフィルターをスライドすると、残っているのは28 x 28 x 1の数字の配列であり、これをアクティベーションマップまたはフィーチャマップと呼びます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.