統計とビッグデータ

4

まず、私は統計学者ではありません。しかし、私は博士号の統計ネットワーク分析を行っています。ネットワーク分析の一環として、ネットワーク度の相補累積分布関数（CCDF）をプロットしました。私が見つけたのは、従来のネットワーク分布（WWWなど）とは異なり、分布は対数正規分布に最も適しているということです。私はそれをべき法則に適合させようとしましたが、Clauset et alのMatlabスクリプトを使用して、曲線の尾部がカットオフのあるべき法則に従うことがわかりました。点線はべき乗則を表します。紫色の線は、対数正規フィットを表します。緑の線は指数近似を表します。私が理解するのに苦労しているのは、これがすべて意味するものですか？このトピックについて少し触れているNewmanのこの論文を読んだことがあります：http : //arxiv.org/abs/cond-mat/0412004 以下に私の推測を示します。次数の分布がべき法則の分布に従う場合、リンクとネットワークの次数の分布に線形の優先的アタッチメントがあることを理解します（豊かになるほど豊かな効果またはユールプロセス）。私が目撃している対数正規分布では、曲線の始まりに準線形の優先的付着があり、べき乗則によって適合することができる尾部に向かってより線形になると言うのは正しいですか？また、対数正規分布は確率変数の対数（Xなど）が正規分布しているときに発生するため、対数正規分布ではXの値が小さく、Xの値が小さいべき法則分布に従うランダム変数はさらに重要なことは、ネットワーク度の分布に関して、対数正規の優先添付ファイルはまだスケールフリーネットワークを示唆していますか？私の本能は、曲線の尾部がべき法則で適合できるため、ネットワークはスケールフリー特性を示すと結論付けることができることを教えてくれます。

22 curve-fitting networks lognormal power-law

2

弱い学習者の「強さ」について

アンサンブル学習（ブースティングなど）の弱学習者に関するいくつかの密接に関連した質問があります。これは愚かに聞こえるかもしれませんが、強力な学習者とは対照的に、弱者を使用する利点は何ですか？（たとえば、「強力な」学習方法で強化しないのはなぜですか？）弱い学習者に何らかの「最適な」強度がありますか（たとえば、他のすべてのアンサンブルパラメーターを固定したまま）。彼らの強さになると「スイートスポット」はありますか？結果のアンサンブル法の強度に関して、弱学習器の強度をどのように測定できますか。アンサンブルを使用することの限界利益をどのように定量的に測定しますか？いくつかの弱学習アルゴリズムを比較して、特定のアンサンブルメソッドに使用するアルゴリズムを決定するにはどうすればよいですか？特定のアンサンブルメソッドが強力な分類器よりも弱い分類器を支援する場合、特定の分類器が既に「強すぎる」と判断して、ブースト時に重要なゲインを得るにはどうすればよいでしょうか。

22 machine-learning boosting ensemble

2

さまざまな条件下での2つの数値変数間の関連性をグラフ化するためのヒントを含む優れたオンラインリソース

コンテキスト：その間、2つの数値変数間の関連を効果的にプロットする方法に関する一連のヒューリスティックを取得しました。データを扱うほとんどの人が同様のルールを持っていると思います。このようなルールの例は次のとおりです。変数の1つが正に歪んでいる場合、その軸を対数目盛でプロットすることを検討してください。多数のデータポイントがある場合（たとえば、n> 1000）、何らかの形式の部分透過性の使用やデータのサンプリングなど、別の戦略を採用します。変数の1つが限られた数の離散カテゴリをとる場合、ジッターまたはヒマワリプロットの使用を検討してください。 3つ以上の変数がある場合、散布図行列の使用を検討してください。何らかの形のトレンドラインを当てはめることはしばしば有用です。プロット文字のサイズをサンプルサイズに調整します（nが大きい場合は、より小さいプロット文字を使用します）。等々。質問：おそらく例を挙げて、2つの数値変数間の関連性を効果的にプロットするためのこれらおよびその他のトリックを説明するWebページまたはサイトを生徒に紹介できるようにしたいと思います。インターネット上でこれをうまく機能させるページやサイトはありますか？

22 data-visualization correlation teaching rule-of-thumb scatterplot

4

変数間の相互作用を考慮する場合、線形回帰とANOVAが異なる値を与えるのはなぜですか？

回帰モデルを使用して、1つの時系列データ（複製なし）を近似しようとしました。データは次のようになります。 > xx.2 value time treat 1 8.788269 1 0 2 7.964719 6 0 3 8.204051 12 0 4 9.041368 24 0 5 8.181555 48 0 6 8.041419 96 0 7 7.992336 144 0 8 7.948658 1 1 9 8.090211 6 1 10 8.031459 12 1 11 8.118308 24 1 …

22 r regression statistical-significance anova p-value

3

多変量時系列予測のサポートベクトル回帰

サポートベクトル回帰を使用して時系列予測を試みた人はいますか？サポートベクターマシンを理解し、サポートベクター回帰を部分的に理解していますが、時系列、特に多変量時系列をモデル化するためにそれらを使用する方法を理解していません。私はいくつかの論文を読み込もうとしましたが、レベルが高すぎます。特に多変量時系列に関連して、誰もが彼らがどのように機能するかを簡単に説明できますか？編集：少し詳しく説明するために、株価の例で説明してみましょう。 N日間の株価があるとします。次に、毎日、特徴ベクトルを作成できます。特徴ベクトルは、単純な場合、前日の価格と当日の価格になります。各特徴ベクトルの応答は、翌日の価格になります。したがって、昨日の価格と今日の価格を考えると、目的は翌日の価格を予測することです。私が理解していないのは、6か月のトレーニングデータがあるとします。最近の特徴ベクトルをどのように重視するのでしょうか。

22 time-series machine-learning svm

2

2つのポアソン確率変数の比率の分布は何ですか？

ランダム変数に関する質問があります。2つのランダム変数とがあると仮定しましょう。さんが言ってみましょうポアソンのパラメータと一緒に配布され、およびポアソンのパラメータと一緒に配布されている。XXXYYYXXXλ1λ1\lambda_1YYYλ2λ2\lambda_2 から骨折を構築し、これをランダム変数と呼ぶと、これはどのように分布し、平均はどうなりますか？それは？X/YX/YX/YZZZλ1/λ2λ1/λ2\lambda_1/\lambda_2

22 random-variable poisson-distribution

1

太い尾と太い尾の分布の違い

太い尾=太い尾だと思っていましたが、読んだ記事の中にはそうではないという感覚がありました。それらの1つは言う：重い尾は、分布が整数jに対して無限のj番目のモーメントを持つことを意味します。さらに、パレートdfの引力のポット領域内のすべてのdfは、尾が重いです。密度の中央ピークが高く、裾が長い場合、尖度は通常大きくなります。尖度が3より大きいdfは、ファットテールまたはレプトクルティックです。私はまだ、これら2つ（太い尾と太い尾）の間に明確な区別はありません。関連する記事への考えやポインタをいただければ幸いです。

22 distributions

1

特定のデータセットのピアソン相関とスピアマン相関の相関係数に大きな違いを引き起こす原因は何ですか？

2つの変数間のピアソンの係数は非常に高い（r = .65）。しかし、変数値をランク付けしてスピアマンの相関を実行すると、係数値ははるかに低くなります（r = .30）。これの解釈は何ですか？

22 correlation spearman-rho

1

R関数「princomp」と「prcomp」が異なる固有値を与えるのはなぜですか？

これを再現するには、十種競技データセット{FactoMineR}を使用できます。問題は、計算された固有値が共分散行列の固有値と異なる理由です。を使用した固有値はprincomp次のとおりです。 > library(FactoMineR);data(decathlon) > pr <- princomp(decathlon[1:10], cor=F) > pr$sd^2 Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 1.348073e+02 2.293556e+01 9.747263e+00 1.117215e+00 3.477705e-01 1.326819e-01 Comp.7 Comp.8 Comp.9 Comp.10 6.208630e-02 4.938498e-02 2.504308e-02 4.908785e-03 そして同じを使用してPCA： > res<-PCA(decathlon[1:10], scale.unit=FALSE, ncp=5, graph = FALSE) > res$eig eigenvalue percentage of variance cumulative percentage of variance comp …

22 r pca

2

帰無仮説が仮説検定の範囲ではなく常にポイント値であるのはなぜですか？

これは、私が尋ねた別の質問に多少関連しています。私が持っている疑問は、仮説検定を行うとき、対立仮説が範囲であるとき、帰無仮説はまだポイント値であるということです。例として、相関係数が0.5より大きいかどうかをテストする場合、帰無仮説は「correlation <= 0.5」ではなく「correlation = 0.5」です。これはなぜですか？（または私はそれを間違えましたか？）

22 hypothesis-testing

2

確率と統計のチートシートを改善するための提案

コンテキスト：確率論と統計学で出会った中心部分を構築するために、数学的要点に焦点を当てたリファレンスドキュメントを作成しました（こちらから入手できます）。このドキュメントを共有することで、統計学の学生に、これらのトピックについて大学院コースで教えられているコア資料の包括的な要約を提供したいと考えています。主に教育リソースとして意図されたものですが、人々は個人的な参照としても役立つかもしれません。例えば、一般的なPDFの配布関係やイラストを調べるためです。また、更新プログラムと修正プログラムのページを維持しています。フィードバックは常に大歓迎です。質問：インスピレーションに使用できるお気に入りの統計チートシート、リファレンス、または料理本は何ですか？この分野で知識を構築するのに何が役立ちましたか？長期的には、私の計画は、理論と実践のギャップを埋めるために、このドキュメントをRの例で充実させる（または別のドキュメントを作成する）ことです。これは価値ある拡張だと思いますか？

22 teaching

4

最尤法を使用して多変量正規モデルを近似するときに共分散行列のプロパティを保証する方法は？

私は次のモデルを持っているとします yi=f(xi,θ)+εiyi=f(xi,θ)+εiy_i=f(x_i,\theta)+\varepsilon_i ここで、、は説明変数のベクトル、は非線形関数およびのパラメーターです。ここで当然行列。X I θ F ε I〜N （0 、Σ ）Σ K × Kyi∈RKyi∈RKy_i\in \mathbb{R}^Kxixix_iθθ\thetafffεi∼N(0,Σ)εi∼N(0,Σ)\varepsilon_i\sim N(0,\Sigma)ΣΣ\SigmaK×KK×KK\times K 目標は、およびを推定することです。明白な選択は最尤法です。このモデルの対数尤度（サンプルがあると仮定）は次のようになりますΣ （Y iは、X I）、iは= 1 、。。。、nθθ\thetaΣΣ\Sigma(yi,xi),i=1,...,n(yi,xi),i=1,...,n(y_i,x_i),i=1,...,n l(θ,Σ)=−n2log(2π)−n2logdetΣ−∑i=1n(yi−f(xi,θ))′Σ−1(y−f(xi,θ)))l(θ,Σ)=−n2log⁡(2π)−n2log⁡detΣ−∑i=1n(yi−f(xi,θ))′Σ−1(y−f(xi,θ)))l(\theta,\Sigma)=-\frac{n}{2}\log(2\pi)-\frac{n}{2} \log\det\Sigma-\sum_{i=1}^n(y_i-f(x_i,\theta))'\Sigma^{-1}(y-f(x_i,\theta))) これは簡単に思えますが、対数尤度が指定され、データが入力され、非線形最適化のために何らかのアルゴリズムが使用されます。問題は、ΣΣ\Sigmaが正定であることを確認する方法です。たとえばoptimR（またはその他の非線形最適化アルゴリズム）で使用しても、ΣΣ\Sigmaが正定であることは保証されません。質問は、ΣΣ\Sigmaが確実に正定値を維持するようにする方法ですか？次の2つの解決策があります。 Rが上三角行列または対称行列である場合、RRとしてΣΣ\Sigmaを再設定します。その場合、\ Sigmaは常に正定値になり、Rは制約なしになります。RR′RR′RR'RRRΣΣ\SigmaRRR プロファイル尤度を使用します。およびの式を導き出します。いくつかのから開始して、、収束するまで。θ^(Σ)θ^(Σ)\hat\theta(\Sigma)Σ^(θ)Σ^(θ)\hat{\Sigma}(\theta)θ0θ0\theta_0Σ^j=Σ^(θ^j−1)Σ^j=Σ^(θ^j−1)\hat{\Sigma}_j=\hat\Sigma(\hat\theta_{j-1})θ^j=θ^(Σ^j−1)θ^j=θ^(Σ^j−1)\hat{\theta}_j=\hat\theta(\hat\Sigma_{j-1}) 他の方法はありますか？これらの2つのアプローチはどうですか？それらは機能しますか？それらは標準ですか？これはかなり標準的な問題のように思えますが、クイック検索では何の指針も得られませんでした。ベイジアン推定も可能であることは知っていますが、当面はそれを行いたくありません。

22 maximum-likelihood optimization covariance

4

複数の変数から品質のインデックスを作成してランクの順序付けを可能にする

4つの数値変数があります。それらはすべて土壌の品質の尺度です。変数が大きいほど、品質が高くなります。それらすべての範囲は異なります： 1から10までのVar1 1000から2000までのVar2 150から300までのVar3 0から5までのVar4 4つの変数を組み合わせて、順序を正常にランク付けする単一の土壌品質スコアにする必要があります。私の考えはとても簡単です。4つの変数すべてを標準化し、それらを合計します。得られるものは、ランク付けする必要があるスコアです。このアプローチの適用に問題はありますか？あなたがお勧めする他の（より良い）アプローチはありますか？ありがとう編集：みんなありがとう。「ドメインの専門知識」については多くの議論が行われました...農業関連...一方で、より多くの統計情報が期待されていました。私が使用するテクニックに関しては、おそらく実験として単純なzスコアの合計+ロジスティック回帰になります。サンプルの大部分の品質が90％低いため、3つの品質カテゴリを1つにまとめ、基本的にバイナリの問題（品質が同じか品質が低いか）を考えます。私は1つの石で2羽の鳥を殺します。イベントレートの観点からサンプルを増やし、サンプルを分類してもらうことで専門家を活用しています。その後、専門家の分類されたサンプルを使用して、log-regモデルに適合させ、専門家との一致/不一致のレベルを最大化します。

22 ranking valuation

2

生成モデルと判別モデル（ベイジアンコンテキスト）

生成モデルと識別モデル（判別モデル）の違いは何ですか（ベイジアン学習と推論のコンテキストで）。そして、予測、決定理論、または教師なし学習に関係するものは何ですか？

22 bayesian predictive-models unsupervised-learning

6

グラフ理論—分析と可視化

被験者がCrossValidatedの利益を得るかどうかはわかりません。教えてくれます。私は（グラフ理論から）グラフを研究する必要があります。特定の数のドットが接続されています。すべてのドットと各ドットが依存しているドットを含むテーブルがあります。（私も含意を持つ別のテーブルを持っています）私の質問は次のとおりです。それを簡単に研究するための優れたソフトウェア（またはRパッケージ）はありますか？グラフを表示する簡単な方法はありますか？

22 r data-visualization graph-theory