統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

3
Kフォールドとモンテカルロクロス検証
主に教師付き多変量解析手法に適用することを意図して、さまざまな相互検証方法を学習しようとしています。私が出会った2つは、Kフォールドとモンテカルロの相互検証技術です。私は、Kフォールドがモンテカルロのバリエーションであることを読みましたが、モンテカルロの定義を構成するものが完全に理解されているかどうかはわかりません。誰かがこれら2つの方法の違いを説明してもらえますか?

2
機械学習分類器のパフォーマンスを統計的に比較する方法は?
推定された分類精度に基づいて、ある分類子が別の分類子よりもベースセットで統計的に優れているかどうかをテストします。各分類子について、トレーニングとテストのサンプルを基本セットからランダムに選択し、モデルをトレーニングして、モデルをテストします。これを各分類子に対して10回行います。したがって、各分類器について10個の推定分類精度測定値があります。ベースデータセットで、がよりも優れた分類器であるかどうかを統計的にテストするにはどうすればよいですか。どのt検定を使用するのが適切ですか?classifier1classifier1classifier 1classifier2classifier2classifier 2

2
カーネル密度推定量の帯域幅の選択
単変量カーネル密度推定量(KDE)の場合、Silvermanのルールを使用してを計算します。hhh 0.9 分(s d、私Q R / 1.34 )× n− 0.20.9分(sd、私QR/1.34)×n−0.2\begin{equation} 0.9 \min(sd, IQR/1.34)\times n^{-0.2} \end{equation} 多変量KDEの標準ルールは何ですか(通常のカーネルを想定)。

3
R:データセットにNaNがないにもかかわらず、「Forest function call」エラーでNaN / Infをスローするランダムフォレスト[非公開]
キャレットを使用して、データセットに対してクロス検証されたランダムフォレストを実行しています。Y変数は要因です。データセットにNaN、Inf、またはNAはありません。ただし、ランダムフォレストを実行すると、 Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) In addition: There were 28 warnings (use warnings() to see them) Warning messages: 1: In data.matrix(x) : NAs introduced by coercion 2: In data.matrix(x) : NAs introduced by coercion 3: In data.matrix(x) : NAs introduced by …

4
Andrew NgがPCAを行うために共分散行列のEIGではなくSVDを使用することを好むのはなぜですか?
Andrew NgのCourseraコースのPCAと他の資料を勉強しています。スタンフォードNLPコースcs224nの最初の課題、およびAndrew Ngの講義ビデオでは、共分散行列の固有ベクトル分解の代わりに特異値分解を行い、NgはSVDが固有分解よりも数値的に安定しているとさえ述べています。 私の理解では、PCAの場合、(m,n)サイズの共分散行列ではなく、サイズのデータ行列のSVDを行う必要があり(n,n)ます。そして、共分散行列の固有ベクトル分解。 なぜデータ行列ではなく共分散行列のSVDを行うのですか?

4
ロジスティック回帰のコスト関数はどのように導出されますか
Courseraで機械学習のスタンフォードコースを受講しています。 ロジスティック回帰の章では、コスト関数は次のとおりです。 次に、ここから派生します。 コスト関数の導関数を取得しようとしましたが、まったく異なるものが得られました。 導関数はどのように取得されますか? 中間ステップはどれですか?

1
sklearnの分類レポートの数字はどういう意味ですか?
以下に、sklearnのsklearn.metrics.classification_reportドキュメントから抜粋した例を示します。 私が理解していないのは、クラスが予測ラベルであると信じる各クラスにf1スコア、精度、リコール値がある理由です。f1スコアはモデルの全体的な精度を示していると思います。また、サポート列は何を教えてくれますか?私はそれに関する情報を見つけることができませんでした。 print(classification_report(y_true, y_pred, target_names=target_names)) precision recall f1-score support class 0 0.50 1.00 0.67 1 class 1 0.00 0.00 0.00 1 class 2 1.00 0.67 0.80 3 avg / total 0.70 0.60 0.61 5

2
glmを実行しているときのエラー「システムは計算上特異」
glm推定を実行するために、robustbaseパッケージを使用しています。しかし、それを行うと、次のエラーが表示されます。 Error in solve.default(crossprod(X, DiagB * X)/nobs, EEq) : system is computationally singular: reciprocal condition number = 1.66807e-16 これはどういう意味ですか?そして、どうすればデバッグできますか? PS。答えるために何か(式/仕様またはデータ)が必要な場合は、喜んで提供します。

3
なぜ、より正確な分類器よりも精度の低い分類器の方がAUCが高いのですか?
私は2つの分類器を持っています A:ナイーブベイジアンネットワーク B:ツリー(単一接続)ベイジアンネットワーク 精度およびその他の尺度の点では、AはBよりも比較的パフォーマンスが劣ります。ただし、RパッケージROCRおよびAUCを使用してROC分析を実行すると、AのAUCがBのAUCよりも高いことがわかります。これはなぜですかハプニング? 真陽性(tp)、偽陽性(fp)、偽陰性(fn)、真陰性(tn)、感度(sen)、特異性(spec)、陽性予測値(ppv)、陰性予測値(npv)、およびAおよびBの精度(acc)は次のとおりです。 +------+---------+---------+ | | A | B | +------+---------+---------+ | tp | 3601 | 769 | | fp | 0 | 0 | | fn | 6569 | 5918 | | tn | 15655 | 19138 | | sens | 0.35408 | 0.11500 | | spec …

4
分布の不均一性をどのように測定しますか?
私が実行している実験の分布の不均一性を測定するためのメトリックを考えています。ほとんどの場合、均一に分布するランダム変数があり、変数が一定のマージン内で均一に分布していないデータセットの例を識別(および場合によってはその程度を測定)できるようにしたいと思います。 私が測定している何かの発生頻度を表す10の測定値を持つ3つのデータシリーズの例は、次のようなものです。 a: [10% 11% 10% 9% 9% 11% 10% 10% 12% 8%] b: [10% 10% 10% 8% 10% 10% 9% 9% 12% 8%] c: [ 3% 2% 60% 2% 3% 7% 6% 5% 5% 7%] <-- non-uniform d: [98% 97% 99% 98% 98% 96% 99% 96% 99% 98%] cのような分布をaやbのような分布と区別し、均一な分布からのcの偏差を測定できるようにしたいと思います。同様に、分布がどの程度均一であるか(標準偏差がゼロに近い?)のメトリックがある場合は、おそらくそれを使用して分散の大きいものを区別できます。ただし、上記のcの例のように、データには1つまたは2つの外れ値しかない場合があり、そのように簡単に検出できるかどうかはわかりません。 …

2
Statistics.comは間違った答えを公開しましたか?
Statistics.comは今週の問題を発表しました: 住宅保険詐欺の率は10%です(10件の請求のうち1件が不正です)。コンサルタントは、機械学習システムを提案して、クレームをレビューし、それらを詐欺または詐欺に分類しました。このシステムは、不正請求の検出には90%の効果がありますが、詐欺ではない請求を正しく分類するには80%しか効果がありません(誤って5分の1を「詐欺」と分類します)。システムがクレームを不正と分類する場合、実際に不正である可能性はどのくらいですか? https://www.statistics.com/news/231/192/Conditional-Probability/?showtemplate=true 私の同僚と私は両方とも独立して同じ答えを思いつきましたが、公開されているソリューションとは一致しません。 私たちのソリューション: (.9 * .1)/((。9 * .1)+(。2 * .9))= 1/3 彼らの解決策: これは条件付き確率の問題です。(これはベイジアンの問題でもありますが、ベイズ規則に式を適用すると、何が起こっているのかわかりにくくなります。)100件のクレームを検討してください。10は不正であり、システムはそれらのうち9を正しく「詐欺」とラベル付けします。不正であるが、実際に不正であるのはそのうちの9%(11%)のみです。 誰が正しかった

2
SVMアルゴリズムの背後にある統計モデルとは何ですか?
モデルベースのアプローチを使用してデータを扱う場合、最初のステップはデータモデルを統計モデルとしてモデル化することであることを学びました。次のステップは、この統計モデルに基づいた効率的/高速な推論/学習アルゴリズムの開発です。それでは、どの統計モデルがサポートベクターマシン(SVM)アルゴリズムの背後にあるのかを聞きたいのですが。

3
2つの正規分布変数の混合が、それらの平均が一般的な標準偏差の少なくとも2倍異なる場合に、二峰性のみになるのはなぜですか?
2つの正規分布が混在する場合: https://en.wikipedia.org/wiki/Multimodal_distribution#Mixture_of_two_normal_distributions 「2つの正規分布の混合には、推定する5つのパラメーターがあります。2つの平均、2つの分散、および混合パラメーター。標準偏差が等しい2つの正規分布の混合は、平均が標準偏差の少なくとも2 」 これが本当である理由についての派生物または直観的な説明を探しています。私はそれが2サンプルのt検定の形で説明できるかもしれないと信じています: μ1- μ2σpμ1−μ2σp\frac{\mu_1-\mu_2}{\sigma_p} ここで、はプールされた標準偏差です。σpσp\sigma_p
28 bimodal 

1
順序データまたはバイナリデータの因子分析またはPCAはありますか?
主成分分析(PCA)、探索的因子分析(EFA)、および確認的因子分析(CFA)を完了し、リッカートスケール(5レベルの応答:なし、少し、いくつか、..)変数。次に、Lavaanを使用して、変数をカテゴリカルとして定義するCFAを繰り返しました。 データが通常の順序である場合、どのタイプの分析が適切で、PCAおよびEFAに相当するかを知りたいと思います。そして、バイナリのとき。 また、このような分析のために簡単に実装できる特定のパッケージまたはソフトウェアの提案も歓迎します。

3
多様体とは何ですか?
主成分分析、LDAなどの次元削減手法では、多くの場合、マニホールドという用語が使用されます。技術用語ではない多様体とは何ですか?ポイントが次元を削減したい球体に属し、ノイズyがあり、xとyが無相関の場合、実際のポイントxはノイズのため互いに遠く離れます。したがって、ノイズフィルタリングが必要になります。したがって、次元削減はz = x + yで実行されます。したがって、ここでxとyは異なる多様体に属しますか?バツxxyyyバツxxyyyバツxxz= x + yz=x+yz = x+yバツxxyyy 私はロボットビジョンでよく使用されるポイントクラウドデータに取り組んでいます。取得時のノイズのために点群はノイズが多く、次元を減らす前にノイズを減らす必要があります。そうしないと、誤った次元削減が行われます。それでは、ここでの多様体とは何ですか?また、ノイズは属する同じ多様体の一部ですか?バツxx

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.