統計とビッグデータ matlab

2

私は相関行列で計算集合 MATLAB関数を使用してデータ（観察します）。PPP(n×n)(n×n)(n \times n)PPP(m×n)(m×n)(m \times n)corrcoef これらの相関行列を相互に比較および分析するにはどうすればよいですか？PPP テスト、メソッド、チェックポイントは何ですか？

10 correlation matlab matrix

3

ランダム化トレース技術

M. Seegerで次のランダム化トレース手法に出会いました。「コレスキー分解の低ランク更新」、カリフォルニア大学バークレー校、Tech。担当者、2007年。 tr(A)=E[xTAx]tr⁡(A)=E[xTAx]\operatorname{tr}(\mathbf{A}) = {E[\mathbf{x}^T \mathbf{A} \mathbf{x}]} どこx∼N(0,I)x∼N(0,I)\mathbf{x} \sim N(\mathbf{0},\mathbf{I})。数学の知識がない人として、どうやってこの平等を実現できるのか。さらに、たとえば幾何学的にをどのように解釈できxTAxxTAx\mathbf{x}^T \mathbf{A} \mathbf{x}ますか？ベクトルとその範囲の値の内積を取ることの意味を理解するためにどこを見ればよいですか？なぜ平均が固有値の合計に等しいのですか？理論的な特性に加えて、その実用的な重要性は何ですか？機能するかどうかを確認するために、MATLABコードスニペットを作成しました #% tr(A) == E[x'Ax], x ~ N(0,I) N = 100000; n = 3; x = randn([n N]); % samples A = magic(n); % any n by n matrix A y = zeros(1, N); for i = …

10 normal-distribution matlab

3

MCMCを使用して高次元関数の期待値を評価する

私は最適化に関連する研究プロジェクトに取り組んでおり、最近この設定でMCMCを使用することを考えていました。残念ながら、私はMCMCメソッドにかなり慣れていないため、いくつか質問がありました。問題を説明し、質問をすることから始めます。問題は、コスト関数の期待値を推定することになります。ここで、は、密度次元確率変数です。ω = （ω 1、ω 2、。。。ω H）時間F （ω ）c(ω)c(ω)c(\omega)ω=(ω1,ω2,...ωh)ω=(ω1,ω2,...ωh)\omega = (\omega_1,\omega_2,...\omega_h)hhhf(ω)f(ω)f(\omega) 私たちの場合、閉じた形式のバージョンは存在しません。つまり、期待値を近似するにはモンテカルロ法を使用する必要があります。残念ながら、MCまたはQMCメソッドを使用して生成された推定値は、実際の設定で使用するには分散が大きすぎることがわかります。E [ c （ω ）]c(ω)c(ω)c(\omega)E[c(ω)]E[c(ω)]E[c(\omega)] 低分散推定を生成するサンプルポイントを生成するために重要度サンプリング分布を使用する必要があったという1つのアイデア。私たちの場合、理想的な重要度のサンプリング分布、ほぼ比例している必要があります。どのように見て定数まで知られている、私は私が提案配布とともにMCMCを使用できるかどうかを疑問に思って、最終的にサンプルを生成するために。g （ω ）c （ω ）f （ω ）g （ω ）c （ω ）f （ω ）g （ω ）E[c(ω)]E[c(ω)]E[c(\omega)]g(ω)g(ω)g(\omega)c(ω)f(ω)c(ω)f(ω)c(\omega)f(\omega)g(ω)g(ω)g(\omega)c(ω)f(ω)c(ω)f(ω)c(\omega)f(\omega)g(ω)g(ω)g(\omega) ここに私の質問は次のとおりです。この設定でMCMCを使用できますか？もしそうなら、どのMCMC法が適切でしょうか？私はMATLABで作業しているので、MATLABが既に実装されているものを優先します。 MCMCのバーンイン期間を短縮するために使用できるテクニックはありますか？そして、どのように私は定常分布に達したことを知ることができますか？この場合、実際には、特定のを計算するのにかなりの時間がかかります。ωc(ω)c(ω)c(\omega)ωω\omega

10 sampling mcmc matlab expected-value

4

Ross QuinlanのC5.0へのMATLABおよびRインターフェースの構築

私はMATLABおよびRインターフェイスを構築検討しているロス・クインランのC5.0（それに慣れていない方のために、C5.0は決定木アルゴリズムおよびソフトウェアパッケージである;の延長C4.5）、そして私がしようとしています作成する必要があるコンポーネントの感覚をつかんでください。私がC5.0について見つけた唯一のドキュメントはこちらです。これはSee5（C5.0へのWindowsインターフェース？）のチュートリアルです。タールファイルはMakefileの、ないのReadmeファイルまたは任意の追加のドキュメントが付属しています。上記のチュートリアルで読んだ内容から、C5.0はASCIIベースの表現を使用して入力と出力を処理します。また、MATLABまたはRとC5.0の間でバイナリデータを直接渡すインターフェイスの構築も検討しています。C5.0のデータ表現は他の機械学習/分類ソフトウェアで使用されていますか？以前にID3、C4.5、またはC5.0へのMATLABまたはRインターフェイスを構築しようとした人はいますか？ありがとう

10 r machine-learning matlab

3

残差のブートストラップ：私はそれを正しく行っていますか？

まず、私が理解したことから、残差のブートストラップは次のように機能します。モデルをデータに合わせる残差を計算する残差を再サンプリングし、それらを1に追加します。モデルを3からの新しいデータセットに適合させます。 n時間を繰り返しますが、常にリサンプリングされた残差を1からの近似に追加します。これまでのところ正しいですか？私がやりたいことは少し違うものです：環境変数を推定するアルゴリズムのパラメーターと予測の不確実性を推定したい。私が持っているのは、その変数の（シミュレーションからの）エラーのない時系列です。合成データセットを生成するために、x_trueそれにノイズを追加します。次に、アルゴリズムを二乗和（！ではなく！）を目的関数としてフィッティングして、最適なパラメーターを見つけようとします。アルゴリズムの動作を確認し、パラメーターの分布のサンプルを作成するために、を再サンプリングし、それをに追加し、モデルを再度フィッティングし、リンスして繰り返します。それはパラメータの不確実性を評価するための有効なアプローチですか？ブートストラップされたデータセットへの適合を予測の不確実性として解釈できますか、それとも上に投稿した手順に従う必要がありますか？x_noisexsum((x_estimate - x_true)^2)x_estimate - xx_noisex_true / edit：私は自分のモデルが何をしているのか明確にしていないと思います。それは本質的にノイズ除去方法のようなものと考えてください。これは予測モデルではなく、ノイズの多い時系列の環境データの根本的な信号を抽出しようとするアルゴリズムです。 / edit ^ 2：そこにいるMATLAB-Usersのために、私が何を意味するのかについての簡単で汚い線形回帰の例を書き留めました。これは、「通常の」残差のブートストラップが正しいと私が信じていることです（間違っている場合は修正してください）：http : //pastebin.com/C0CJp3d1 これは私がしたいことです：http：//pastebin.com/mbapsz4c

10 time-series matlab bootstrap residuals

4

Rの離散時間イベント履歴（生存）モデル

Rに離散時間モデルを適合させようとしていますが、その方法がわかりません。従属変数を時間監視ごとに1つずつ異なる行に編成し、glm関数をlogitまたはcloglogリンクで使用できることを読みました。この意味で、私は3つの列があります：ID、Event（各time-obsで1または0）およびTime Elapsed（観測の開始以降）、および他の共変量。モデルに合うようにコードを書くにはどうすればよいですか？従属変数はどれですか？Event従属変数として使用できTime Elapsed、共変量に含めることができると思います。しかし、どうなりIDますか？必要ですか？ありがとう。

10 r survival pca sas matlab neural-networks r logistic spatial spatial-interaction-model r time-series econometrics var statistical-significance t-test cross-validation sample-size r regression optimization least-squares constrained-regression nonparametric ordinal-data wilcoxon-signed-rank references neural-networks jags bugs hierarchical-bayesian gaussian-mixture r regression svm predictive-models libsvm scikit-learn probability self-study stata sample-size spss wilcoxon-mann-whitney survey ordinal-data likert group-differences r regression anova mathematical-statistics normal-distribution random-generation truncation repeated-measures variance variability distributions random-generation uniform regression r generalized-linear-model goodness-of-fit data-visualization r time-series arima autoregressive confidence-interval r time-series arima autocorrelation seasonality hypothesis-testing bayesian frequentist uninformative-prior correlation matlab cross-correlation

2

QQプロットの参照線が45°ではありません

qqplot()正規分布の理論的な分位数に対して、MATLABで（標準化された）リターンデータをプロットしていました。ただし、QQプロットの線には45度の角度はありませんが、少し回転しています。 QQプロットの概念を誤解しているかもしれませんが、正確に45度の線であるとは思われませんか？私は問題を説明するためにプロットを入れました。

10 matlab qq-plot

2

2つの信号が一緒に正規分布しているかどうかを確認するにはどうすればよいですか？

このウィキペディアのページで説明されているように、2つの確率変数XとYが無相関で、一緒に正規分布している場合、それらは統計的に独立しています。 XとYが相関しているかどうかを確認する方法を知っていますが、それらが一緒に正規分布しているかどうかを確認する方法がわかりません。私は統計をほとんど知りません（数週間前に正規分布が何であるかを学びました）ので、いくつかの説明的な答え（そしておそらくチュートリアルへのリンク）が本当に役立つでしょう。だから私の質問はこれです：2つの信号を有限回数N回サンプリングした場合、2つの信号サンプルが一緒に正規分布しているかどうかを確認するにはどうすればよいですか？例：次の画像は、2つの信号s1とs2の推定された同時分布を示しています。 x=0.2:0.2:34; s1 = x*sawtooth(x); %Sawtooth s2 = randn(size(x,2)); %Gaussian ジョイントpdfは、この2Dカーネル密度推定器を使用して推定されました。画像から、接合部pdfがほぼ原点を中心とする丘のような形状であることがわかります。これは、それらが実際に共同で正規分布していることを示していると思います。ただし、数学的に確認する方法を教えてください。使用できる数式はありますか？ありがとうございました。

10 distributions normal-distribution multivariate-analysis matlab

1

観測されたイベントと期待されたイベントを比較する方法は？

4つの可能なイベントの頻度の1つのサンプルがあるとします。 Event1 - 5 E2 - 1 E3 - 0 E4 - 12 そして、私は自分のイベントの発生が予想される確率を持っています： p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 4つのイベントの観測頻度の合計（18）を使用して、イベントの予想頻度を計算できますか？ expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …

9 r statistical-significance chi-squared multivariate-analysis exponential joint-distribution statistical-significance self-study standard-deviation probability normal-distribution spss interpretation assumptions cox-model reporting cox-model statistical-significance reliability method-comparison classification boosting ensemble adaboost confidence-interval cross-validation prediction prediction-interval regression machine-learning svm regularization regression sampling survey probit matlab feature-selection information-theory mutual-information time-series forecasting simulation classification boosting ensemble adaboost normal-distribution multivariate-analysis covariance gini clustering text-mining distance-functions information-retrieval similarities regression logistic stata group-differences r anova confidence-interval repeated-measures r logistic lme4-nlme inference fiducial kalman-filter classification discriminant-analysis linear-algebra computing statistical-significance time-series panel-data missing-data uncertainty probability multivariate-analysis r classification spss k-means discriminant-analysis poisson-distribution average r random-forest importance probability conditional-probability distributions standard-deviation time-series machine-learning online forecasting r pca dataset data-visualization bayes distributions mathematical-statistics degrees-of-freedom

4

自己相関およびニューラルネットワークにMatlabを使用する場合、時系列データのギャップ/ NaNを処理する方法は？

時系列の測定（高さ-1次元シリーズ）があります。観測期間中、いくつかの時点で測定プロセスがダウンしました。したがって、結果のデータは、データにギャップがあったNaNのベクトルです。これは、MATLABを使用して、自己相関の計算（autocorr）とニューラルネットワークの適用（）の際に問題を引き起こしていますnnstart。これらのギャップ/ NaNはどのように処理されるべきですか？これらをベクターから削除するだけですか？または、それらのエントリを補間された値に置き換えますか？（もしそうなら、MATLABでどうやって）

9 time-series dataset matlab autocorrelation missing-data

2

データのROC曲線を計算する

そのため、ハミング距離を使用して生体認証特性から個人を認証しようとしている16のトライアルがあります。しきい値は3.5に設定されています。私のデータは以下であり、トライアル1のみが真陽性です。 Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 私の混乱のポイントは、このデータからROC曲線（FPR対TPR OR FAR対FRR）を作成する方法が本当にわからないということです。どちらでもかまいませんが、どうやって計算するのか混乱しています。任意の助けいただければ幸いです。

9 mathematical-statistics roc classification cross-validation pac-learning r anova survival hazard machine-learning data-mining hypothesis-testing regression random-variable non-independent normal-distribution approximation central-limit-theorem interpolation splines distributions kernel-smoothing r data-visualization ggplot2 distributions binomial random-variable poisson-distribution simulation kalman-filter regression lasso regularization lme4-nlme model-selection aic r mcmc dlm particle-filter r panel-data multilevel-analysis model-selection entropy graphical-model r distributions quantiles qq-plot svm matlab regression lasso regularization entropy inference r distributions dataset algorithms matrix-decomposition regression modeling interaction regularization expected-value exponential gamma-distribution mcmc gibbs probability self-study normality-assumption naive-bayes bayes-optimal-classifier standard-deviation classification optimization control-chart engineering-statistics regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

1

相関行列Bと比較して、相関行列Aに含まれる「より多くの相関」の量の定量化

私は2つの相関行列とを持っています（Matlabのcorrcoef（）によるピアソンの線形相関係数を使用）。と比較して含まれる「より多くの相関」の量を定量化したいと思います。そのための標準的なメトリックまたはテストはありますか？B A BあAABBBあAABBB たとえば、相関行列「より多くの相関」を含む私はボックスのM検定を知っています。これは、2つ以上の共分散行列が等しいかどうかを決定するために使用されます（相関行列は標準化された確率変数の共分散行列と同じであるため、相関行列にも使用できます）。現在、非対角要素の絶対値の平均を介してとを比較しています。つまり、。（この式では、相関行列の対称性を使用しています）。いくつかのより巧妙なメトリックスがあるかもしれないと思います。B 2あAABBB2ん2− nΣ1 ≤ I < J ≤ n個| バツ私、j|2ん2−んΣ1≤私<j≤ん|バツ私、j|\frac{2}{n^2-n}\sum_{1 \leq i < j \leq n } \left | x_{i, j} \right | アンディWの行列式に関するコメントに続いて、メトリックを比較する実験を行いました。非対角要素の絶対値の平均：メトリック平均（）メトリック平均（）\text{metric}_\text{mean}() 行列式：：メトリック行列式（）メトリック行列式（）\text{metric}_\text{determinant}() ましょうとの次元の対角線上のものと2つのランダム対称行列を。上三角（対角線を除く） 0から1までのランダムなフロートが取り込まれの上三角（対角線を除く） 0から0.9までのランダムなフロートが取り込まれています。私はそのような行列を10000生成し、いくつかのカウントを行います：B 10 × 10 A BああABBB10 × 1010×1010 \times 10ああABBB メトリック平均（B ）≤ メトリック平均（A ）メトリック平均（B）≤メトリック平均（あ）\text{metric}_\text{mean}(B) \leq \text{metric}_\text{mean}(A) …

9 correlation matlab correlation-matrix

5

共分散行列の平方根を正定にする（Matlab）

動機：私は、MATLAB（無香料カルマンフィルター）で状態推定器を書いています。これは、反復ごとに（つまり、共分散行列に対して）共分散行列の（上三角）平方根の更新を要求します。、）であることは事実です。必要な計算を実行するには、MATLAB 関数を使用して、ランク1のコレスキー更新とダウンデートを行う必要があります。P P = S S TSSSPPPP= SSTP=SSTP=SS^{T}cholupdate 問題：残念ながら、反復の過程で、この行列は正定性を失う場合があります。コレスキーのダウンデートは、非PDマトリックスでは失敗します。SSS 私の質問は、MATLABで正定にする簡単で信頼できる方法はありますか？SSS （またはより一般的には、任意の共分散行列を正定にする良い方法はありますか？バツXX）注： SSSはフルランクです私は固有分解アプローチを試しました（これは機能しませんでした）。これは基本的に見つけ、すべての負の要素を設定し、新しいを再構築することを含み、ここでは正の要素のみをもつ行列です。 V 、D = 1 × 10 − 8 S ′ = V ′ D ′ V ′ T V ′、D ′S= VD VTS=VDVTS = VDV^{T}V、D = 1 × 10− 8V,D=1×10−8V,D = 1 \times 10^{-8}S』= V』D』V′ TS′=V′D′V′TS' …

9 matlab covariance-matrix numerics

1

-2対数尤度は1つのモデルのみで計算できますか？

このglmfit関数をMATLABで使用しています。この関数は、逸脱度のみを返し、対数尤度は返しません。逸脱は基本的にモデルの対数尤度の違いの2倍であることを理解していますがglmfit、1つのモデルを作成するためだけに使用しているのではなく、どういうわけか逸脱が発生しています。 -2対数尤度の計算には2つのモデルが必要ですか？モデルが1つしかない場合、逸脱をどのように分析できますか？私が持っているもう1つの質問は、2つのモデルがあり、対数尤度検定を使用してそれらを比較していたということです。帰無仮説は最初のモデルであり、対立仮説は2番目のモデルです。対数尤度検定の統計を取得した後、それをカイ二乗cdfと照合してp値を決定しますか？アルファレベルよりも小さい場合はnullを拒否し、それよりも大きい場合はnullを拒否できません。

9 matlab p-value likelihood-ratio deviance

2

実際の（デモではない）問題に対してGPML Matlabコードを正しく使用するにはどうすればよいですか？

最新のGPML MatlabコードGPML Matlabコードをダウンロードし、ドキュメントを読み、問題なく回帰デモを実行しました。しかし、私が直面している回帰問題にそれを適用する方法を理解するのに苦労しています。回帰問題は次のように定義されます。ましょうである入力ベクトルとであり、それに対応するターゲット。個の入力のセットは行列配置され、対応するターゲットは行列格納されます、はの平均目標値です。バツ私∈R20xi∈R20\mathbf{x}_i \in \mathbb{R}^{20}y私∈R25yi∈R25\mathbf{y}_i \in \mathbb{R}^{25}MMMX =[バツ1、… 、バツM]⊤X=[x1,…,xM]⊤\mathbf{X} = [\mathbf{x}_1, \dots, \mathbf{x}_M]^\topY =[y1−y¯、… 、yM−y¯]⊤Y=[y1−y¯,…,yM−y¯]⊤\mathbf{Y} = [\mathbf{y}_1 - \mathbf{\bar{y}}, \dots, \mathbf{y}_M-\mathbf{\bar{y}}]^\topy¯y¯\mathbf{\bar{y}}YY\mathbf{Y} 二乗指数関数を使用して、GPRモデルをトレーニングしたいと思います。G= { X、Y、θ }G={X,Y,θ}\mathcal{G} = \lbrace \mathbf{X}, \mathbf{Y}, \theta \rbrace k （バツ私、バツj）=α2exp （ −12β2（バツ私−バツj）2） +γ2δ私はjk(xi,xj)=α2exp(−12β2(xi−xj)2)+γ2δijk(\mathbf{x}_i, \mathbf{x}_j) = \alpha^2 \text{exp} \left( - \frac{1}{2\beta^2}(\mathbf{x}_i - \mathbf{x}_j)^2\right) + \gamma^2\delta_{ij}、ここでに等しい場合と、さもなければ。ハイパーパラメーターは、はトレーニングデータの想定ノイズレベルで、は長さスケールです。δ私はjδij\delta_{ij}111i=ji=ji …

9 regression machine-learning matlab gaussian-process

タグ付けされた質問 「matlab」

タグ付けされた質問「matlab」