統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

1
t-SNE目的関数でクロスエントロピーではなく、Kullback-Leibler発散を使用する理由
私の考えでは、サンプル分布から真の分布へのKLの相違は、単純にクロスエントロピーとエントロピーの違いです。 多くの機械学習モデルでクロスエントロピーをコスト関数として使用するのに、t-sneでKullback-Leibler発散を使用するのはなぜですか?学習速度に違いはありますか?

5
LDA対word2vec
単語の類似性を計算するためのLatent Dirichlet Allocationとword2vecの類似性を理解しようとしています。 私が理解しているように、LDAは単語を潜在トピックの確率のベクトルにマッピングし、word2vecはそれらを実数のベクトルにマッピングします(点ごとの相互情報の特異値分解に関連します。O。Levy 、Y. Goldberg、 "Neural Word Embedding暗黙的な行列因子分解として」 ; word2vecの仕組みも参照してください)。 理論的な関係(一方を他方の一般化、またはバリエーションと見なすことができます)と実用(一方を使用して他方を使用しない場合)の両方に興味があります。 関連: ドキュメント間の距離を計算する標準的な方法は何ですか?-DataScience.SE

5
二乗誤差の最小化は絶対誤差の最小化と同等ですか?なぜ二乗誤差が後者よりも一般的ですか?
一連のデータポイントに合うように線形回帰を実行すると、従来のアプローチは平方誤差を最小化します。二乗誤差を最小化すると絶対誤差を最小化するのと同じ結果が得られるという質問に長い間戸惑っていました。そうでない場合、なぜ二乗誤差を最小化するのが良いのでしょうか?「目的関数は微分可能」以外の理由はありますか?(X 1、Y 1)、(X 2、Y 2)、。。。、(x n、y n)y= a x + by=aバツ+by=ax+b(x1、y1)、(x2、y2)、。。。、(xn、yn)(バツ1、y1)、(バツ2、y2)、。。。、(バツn、yn)(x_1,y_1),(x_2,y_2),...,(x_n,y_n) 二乗誤差もモデルのパフォーマンスを評価するために広く使用されていますが、絶対誤差はあまり一般的ではありません。絶対誤差よりも二乗誤差が一般的に使用されるのはなぜですか?導関数を取る必要がない場合、絶対誤差の計算は平方誤差の計算と同じくらい簡単です。その有病率を説明できるユニークな利点はありますか? ありがとうございました。

4
RでStataの「堅牢な」オプションを複製する
robustR のStataオプションの結果を複製しようとしています。MASSパッケージrlmのコマンドlmrobとパッケージ「robustbase」のコマンドを使用しました。どちらの場合も、結果はStataの「堅牢な」オプションとはまったく異なります。誰でもこの文脈で何かを提案できますか? Stataで堅牢なオプションを実行したときに得られた結果は次のとおりです。 . reg yb7 buildsqb7 no_bed no_bath rain_harv swim_pl pr_terrace, robust Linear regression Number of obs = 4451 F( 6, 4444) = 101.12 Prob > F = 0.0000 R-squared = 0.3682 Root MSE = .5721 ------------------------------------------------------------------------------ | Robust yb7 | Coef. Std. Err. t P>|t| [95% Conf. Interval] …

3
交差検証を使用する場合の1つの標準エラールールの経験的正当化
par約を支持する1つの標準エラールールの使用を正当化する実証研究はありますか?明らかに、データのデータ生成プロセスに依存しますが、データセットの大規模なコーパスを分析するものは非常に興味深い読み物です。 「1つの標準エラールール」は、相互検証(またはより一般的にはランダム化ベースの手順)を通じてモデルを選択するときに適用されます。 場合、がよりも「より複雑」であるように、複雑さパラメーターによってインデックス付けされたモデルを考慮すると仮定します。さらに、クロス検証などのランダム化プロセスによってモデル品質を評価するとします。してみましょうの「平均」の品質表す例えば、多くのクロスバリデーションの実行間の平均のアウトバッグ予測誤差を。この量を最小限に抑えたい。MτMτM_\tauτ∈Rτ∈R\tau\in\mathbb{R}MτMτM_\tauMτ′Mτ′M_{\tau'}τ>τ′τ>τ′\tau>\tau'MMMq(M)q(M)q(M)MMM ただし、品質尺度はランダム化手順に基づいているため、ばらつきがあります。ましょ品質の標準誤差を表すランダム実行横切って、例えば、のアウトオブバッグ予測誤差の標準偏差クロスバリデーション実行オーバー。s(M)s(M)s(M)MMMMMM 次に、モデルを選択します。ここで、は次のような最小のです。MτMτM_\tauττ\tauττ\tau q(Mτ)≤q(Mτ′)+s(Mτ′),q(Mτ)≤q(Mτ′)+s(Mτ′),q(M_\tau)\leq q(M_{\tau'})+s(M_{\tau'}), ここで、は(平均して)最良のモデルインデックスを付けます。τ′τ′\tau'q(Mτ′)=minτq(Mτ)q(Mτ′)=minτq(Mτ)q(M_{\tau'})=\min_\tau q(M_\tau) つまり、ランダム化手順の中で、最良のモデルM _ {\ tau '}よりも1つの標準誤差だけ悪い、最も単純なモデル(最小の ττ\tau)を選択します。Mτ′Mτ′M_{\tau'} この「1つの標準エラールール」が次の場所で参照されていることを発見しましたが、明示的に正当化することはありません。 Breiman、Friedman、Stone&Olshenによる分類および回帰木の 80ページ(1984年) Tibshirani、Walther&Hastieによるギャップ統計によるデータセット内のクラスター数の推定のページ415 (JRSS B、2001)(Breiman et al。を参照) Hastie、Tibshirani、Friedmanによる統計学習の要素のページ61および244 (2009) Hastie、Tibshirani、Wainwrightによる統計的学習のスパース性のページ13 (2015)

3
ロジスティック回帰をフィッティングする前に標準化が必要ですか?
私の質問は、ロジスティック回帰を当てはめる前に、すべての変数が[0,1]の間で同じスケールを持っていることを確認するためにデータセットを標準化する必要があるかどうかです。式は次のとおりです。 xi−min(xi)max(xi)−min(xi)xi−min(xi)max(xi)−min(xi)\frac{x_i-\min(x_i)}{\max(x_i)-\min(x_i)} 私のデータセットには2つの変数があり、2つのチャネルについて同じことを記述していますが、ボリュームは異なります。これは、2つの店舗での顧客の訪問数です。ここで、顧客が購入するかどうかを示します。顧客は両方の店、または最初の店を2回、2番目の店を1回訪れてから購入できます。しかし、1店舗目の顧客の合計訪問数は2店舗目の10倍です。標準化せずにこのロジスティック回帰に適合すると coef(store1)=37, coef(store2)=13、私はその後、データを標準化する場合coef(store1)=133, coef(store2)=11。このようなもの。どのアプローチがより理にかなっていますか? 決定木モデルをフィッティングしている場合はどうなりますか?モデル自体が何らかの形でモデルを調整するため、ツリー構造モデルは標準化を必要としません。しかし、すべての人に確認してください。

1
Rのランク-降順[終了]
場合によっては、大きい値のランクが1であるデータをランク付けしようとしています。Rには比較的慣れていませんが、ランク関数でこの設定を調整する方法がわかりません。 x <- c(23,45,12,67,34,89) rank(x) 生成: [1] 2 4 1 5 3 6 欲しい時は: [1] 5 3 6 2 4 1 これは非常に基本的なことだと思いますが、あなたが提供できる助けは大歓迎です。
39 r 

5
AICcの負の値(赤池情報量基準の修正)
2つの一般的な線形混合モデルを比較するために、AICとAICcを計算しました。AICは、モデル1がモデル2よりも低いAICである場合、正です。ただし、AICcの値は両方とも負です(モデル1は依然として<モデル2です)。負のAICc値を使用して比較することは有効ですか?

11
統計や機械学習に関する人気の高い科学の本はありますか?
本物の科学だけでなく、現在の理論の背後にある歴史と理由を扱った非常に優れた人気の科学書がたくさんありますが、読むことは非常に楽しいままです。たとえば、ジェームズ・グレイクによる「カオス」(カオス、フラクタル、非線形性)、スティーブン・ホーキングによる「時間の短い歴史」(物理学、宇宙の起源、時間、ブラックホール)、リチャード・ドーキンスによる「利己的な遺伝子」 (進化と自然選択)。これらの本の中には、議論を提示するもの(Dawkins)と提示しないもの(Gleick)があります。しかし、それらはすべて、綿密な科学教育を受けていない私たちにとって、そうでなければ難しい概念を理解しやすくするのに役立ちます。 主に統計や機械学習に焦点を当てた本はありますか? 各本がカバーする内容の要約を含めてください。

1
2つのガウス分布の加重混合の分散とは何ですか?
平均およびと分散および 2つの正規分布AおよびBがあるとします。私は重み使用して、これらの二つの分布の重み付き混合物を取りたいとと。この混合の平均はます。μ B σ A σ B P qは0 ≤ P ≤ 1 、Q = 1 - P μ A B = (P × μ A)+ (Q × μ B)μAμA\mu_AμBμB\mu_BσAσA\sigma_AσBσB\sigma_Bpppqqq0≤p≤10≤p≤10\le p \le 1q=1−pq=1−pq = 1-pμAB=(p×μA)+(q×μB)μAB=(p×μA)+(q×μB)\mu_{AB} = (p\times\mu_A) + (q\times\mu_B) 分散はどうなりますか? 具体的な例は、男性と女性の身長の分布のパラメーターを知っていた場合です。男性が60%の人の部屋がある場合、部屋全体の予想平均身長を算出できますが、分散はどうでしょうか。


3
決定木が計算コストが高くないのはなぜですか?
でRにおけるアプリケーションとの統計的学習への入門、著者は、フィッティングことを書き決定木は非常に高速ですが、これは私には意味がありません。アルゴリズムは、最適な分割を見つけるために、すべての機能を通過し、可能な限りあらゆる方法で分割する必要があります。観測値を持つ数値フィーチャの場合、これにより各フィーチャにn個のパーティションが作成される可能性があります。nnnnnn バイナリ分割の仕組みを誤解していますか?または、このアルゴリズムに時間がかからない理由はありますか?
38 cart 

6
なぜ100%の精度の決定木が得られるのですか?
意思決定ツリーの精度は100%です。何が間違っていますか? これは私のコードです: import pandas as pd import json import numpy as np import sklearn import matplotlib.pyplot as plt data = np.loadtxt("/Users/Nadjla/Downloads/allInteractionsnum.csv", delimiter=',') x = data[0:14] y = data[-1] from sklearn.cross_validation import train_test_split x_train = x[0:2635] x_test = x[0:658] y_train = y[0:2635] y_test = y[0:658] from sklearn.tree import DecisionTreeClassifier tree = …


4
Rでプロットする場合、ggplot2またはggvisを学習する必要がありますか?
Rでプロットする場合、ggplot2またはggvisを学習する必要がありますか?どちらかが優れているのであれば、必ずしも両方を学びたいとは思わない。Rコミュニティが機能が重複する新しいパッケージを作成し続けるのはなぜですか?紹介ブログ記事は ggvisは、洗練されたプロットパッケージggplot2がすでに存在していることを考えると作成された理由の単語を言及していません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.