タグ付けされた質問 「matlab」

プログラミング言語/環境。このタグは、(a)MATLABが質問の重要な部分または予想される回答として含まれているトピックに関する質問に使用します。&(b)は、MATLABの使い方だけではありません。

1
Error In Variables Modelの偏りのない推定値よりも良い結果を達成する回帰のバイアス推定器
私はいくつかの研究のために、Error In Variableモデルのいくつかの合成データに取り組んでいます。現在、単一の独立変数があり、従属変数の真の値の分散を知っていると仮定しています。 したがって、この情報を使用して、従属変数の係数の不偏推定量を実現できます。 モデル: x~=x+e1x~=x+e1\tilde{x} = x + e_1 y=0.5x−10+e2y=0.5x−10+e2y = 0.5x -10 + e_2 ここで、 e1~N(0,σ2)e1~N(0,σ2)e_1\text{~}N(0,\sigma^2)のためのいくつかのσσ\sigma e2~N(0,1)e2~N(0,1)e_2\text{~}N(0,1) 値はここでy,x~y,x~y,\tilde{x}唯一各サンプル、またの真の値の標準偏差のために知られているxxxのサンプルのために知られている:σxσx\sigma_x。 私は偏っ(取得β OLSを使用して)係数をした後、使用して調整を行います。β^β^\hat{\beta} β′=β^∗σ^2x~σ2xβ′=β^∗σ^x~2σx2\beta' = \hat{\beta} * \frac{\hat{\sigma}_\tilde{x}^2}{\sigma_x^2} このモデルでは、係数の新しい不偏推定量がはるかに優れている(実際の値に近い)ことがわかりますが、バイアス推定量を使用するよりもMSEが悪化しています。 何が起こっている?偏った推定器よりも、偏った推定器よりも良い結果が得られると期待していました。 Matlabコード: reg_mse_agg = []; fixed_mse_agg = []; varMult = 1; numTests = 60; for dataNumber=1:8 reg_mses = []; fixed_mses = []; …

4
Gaussian Processes:GPMLを多次元出力に使用する方法
GPMLを使用して多次元出力(おそらく相関)でガウスプロセス回帰を実行する方法はありますか? でデモスクリプト 私は1Dの例を見つけることができます。 同様の質問 CV上の多次元入力のタックルケース。 私は彼らの本を読み、何かを見つけることができるかどうかを確認しました。で第九章この本(9.1節)の、彼らは、複数の出力のこのケースを言及しています。彼らはこれに対処するためのいくつかの方法について言及しました。1つは相関ノイズプロセスを使用し、2つはCokriging(事前相関)を使用します。 これらのアイデアをどのようにしてGPMLフレームワークに組み込むことができるのか、まだわかりません。 また、多次元出力をサポートする他のGPライブラリ/フレームワークはありますか?

5
非常に多数のデータポイントで値の代入を実行する方法は?
非常に大きなデータセットがあり、約5%のランダムな値が欠落しています。これらの変数は互いに相関しています。次のRデータセットの例は、ダミーの相関データを使用した単なるおもちゃの例です。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

2
与えられたデータセットの確率分布を自動的に決定する
データセットが与えられた場合: x <- c(4.9958942,5.9730174,9.8642732,11.5609671,10.1178216,6.6279774,9.2441754,9.9419299,13.4710469,6.0601435,8.2095239,7.9456672,12.7039825,7.4197810,9.5928275,8.2267352,2.8314614,11.5653497,6.0828073,11.3926117,10.5403929,14.9751607,11.7647580,8.2867261,10.0291522,7.7132033,6.3337642,14.6066222,11.3436587,11.2717791,10.8818323,8.0320657,6.7354041,9.1871676,13.4381778,7.4353197,8.9210043,10.2010750,11.9442048,11.0081195,4.3369520,13.2562675,15.9945674,8.7528248,14.4948086,14.3577443,6.7438382,9.1434984,15.4599419,13.1424011,7.0481925,7.4823108,10.5743730,6.4166006,11.8225244,8.9388744,10.3698150,10.3965596,13.5226492,16.0069239,6.1139247,11.0838351,9.1659242,7.9896031,10.7282936,14.2666492,13.6478802,10.6248561,15.3834373,11.5096033,14.5806570,10.7648690,5.3407430,7.7535042,7.1942866,9.8867927,12.7413156,10.8127809,8.1726772,8.3965665) ..パラメータの推定により、最も適切な確率分布(ガンマ、ベータ、正規、指数、ポアソン、カイ2乗など)を決定したいと思います。Rを使用して解決策が提供されている次のリンクの質問をすでに知っています:https : //stackoverflow.com/questions/2661402/given-a-set-of-random-numbers-drawn-from-a-連続一変量分布-f 最適な提案ソリューションは次のとおりです。 > library(MASS) > fitdistr(x, 't')$loglik #$ > fitdistr(x, 'normal')$loglik #$ > fitdistr(x, 'logistic')$loglik #$ > fitdistr(x, 'weibull')$loglik #$ > fitdistr(x, 'gamma')$loglik #$ > fitdistr(x, 'lognormal')$loglik #$ > fitdistr(x, 'exponential')$loglik #$ そして、loglik値が最小の分布が選択されます。ただし、ベータ分布などの他の分布では、fitdistr()関数でいくつかの追加パラメーターを指定する必要があります。 fitdistr(x, 'beta', list(shape1 = some value, shape2= some value)). 事前情報なしで最適な分布を決定しようとしていることを考えると、各分布のパラメーターの値がどのようになる可能性があるのか​​わかりません。この要件を考慮に入れる別のソリューションはありますか?Rにある必要はありません。

1
PRの値が1つしかない場合、精度-再現率曲線を作成するにはどうすればよいですか?
コンテンツベースの画像検索システムを作成するデータマイニングの割り当てがあります。5匹の動物の画像が20枚あります。つまり、合計100枚の画像になります。 私のシステムは、最も関連性の高い10個の画像を入力画像に返します。次に、Precision-Recall曲線を使用してシステムのパフォーマンスを評価する必要があります。しかし、私はプレシジョンリコール曲線の概念を理解していません。私のシステムがゴリラ画像に対して10個の画像を返すとしましょう。ただし、ゴリラは4つだけです。返される他の6つの画像は他の動物のものです。したがって、 精度は4/10 = 0.4(関連性が返される)/(すべて返される) 再現率は4/20 = 0.2(関連性が返される)/(すべての関連) つまり<0.2,0.4>、カーブではなくポイントしかありません。曲線(つまり、ポイントのセット)はどのように作成しますか?返される画像の数を変更する必要がありますか(これは私の場合10に固定されています)?

1
フィッシャーの厳密検定と超幾何分布
私はフィッシャーの正確なテストをよりよく理解したかったので、次のおもちゃの例を考案しました。ここで、fとmは男性と女性に対応し、nとyは次のように「ソーダ消費」に対応します。 > soda_gender f m n 0 5 y 5 0 明らかに、これは大幅な簡略化ですが、コンテキストが邪魔になりたくありませんでした。ここで私は男性がソーダを飲まず、女性がソーダを飲まないと仮定し、統計手順が同じ結論になるかどうかを確認したかっただけです。 Rでフィッシャーの正確検定を実行すると、次の結果が得られます。 > fisher.test(soda_gender) Fisher's Exact Test for Count Data data: soda_gender p-value = 0.007937 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: 0.0000000 0.4353226 sample estimates: odds ratio 0 ここでは、p値が0.007937であるため、性別とソーダ消費が関連付けられていると結論付けます。 フィッシャーの正確な検定が超幾何分布に関連していることを知っています。だから私はそれを使って同様の結果を得たいと思った。つまり、この問題は次のように表示できます。10個のボールがあり、5個が「男性」、5個が「女性」とラベル付けされており、交換せずに5つのボールをランダムに描画すると、0個の男性ボールが表示されます。 。この観察の可能性は何ですか?この質問に答えるために、次のコマンドを使用しました。 …

2
PCAの交差検証を実行して主成分の数を決定する方法は?
主成分分析用の独自の関数であるPCAを記述しようとしています(もちろん、既に多くの記述がありますが、自分で実装することに興味があります)。私が遭遇した主な問題は、交差検証ステップと予測二乗和(PRESS)の計算です。どの交差検証を使用するかは関係ありません。これは主に背後にある理論についての質問ですが、Leave-one-out交差検証(LOOCV)を検討してください。理論から、LOOCVを実行するには次のことが必要であることがわかりました。 オブジェクトを削除する 残りをスケール いくつかのコンポーネントでPCAを実行する (2)で取得したパラメーターに従って削除されたオブジェクトをスケーリングする PCAモデルに従ってオブジェクトを予測する このオブジェクトのPRESSを計算します 同じアルゴリズムを他のオブジェクトに再実行する すべてのPRESS値を合計します 利益 私はこの分野で非常に新しいので、私が正しいことを確認するために、結果を私が持っているいくつかのソフトウェアからの出力と比較します(また、いくつかのコードを書くために、ソフトウェアの指示に従います)。残差二乗和とを計算するとまったく同じ結果が得られますが、R2R2R^2PRESSの計算は問題です。 相互検証ステップで実装することが正しいかどうか教えてください。 case 'loocv' % # n - number of objects % # p - number of variables % # vComponents - the number of components used in CV dataSets = divideData(n,n); % # it is just a variable responsible …

5
機械学習の問題のプロトタイプを作成するには、どのプログラミング言語をお勧めしますか?
現在Octaveで作業していますが、ドキュメントが不十分なため、進捗は非常に遅くなっています。 どの言語が学習および使用が簡単で、機械学習の問題を解決するために十分に文書化されていますか?私は小さなデータセット(数千の例)のプロトタイプを探しているので、速度は重要ではありません。 編集:私は推奨エンジンを開発しています。したがって、私は正則化線形回帰、ニューラルネット、SVN、または協調フィルタリングの使用に興味があります。

2
非二項名目変数と順序変数または数値変数の相関係数
私は問題の答えを見つけるためにこのサイトのすべてのページをすでに読んでいますが、誰も私から正しいものではないようです... まず、私が扱っているデータの種類について説明します... 300人のユーザーごとに1つずつ、複数の都市名を持つ配列ベクトルがあるとします。また、別の配列ベクトルを使用して、各ユーザーの調査に対するスコアの応答または各ユーザーの継続的な値を取得しています。 これらの2つの変数の相関関係を計算する相関係数が存在するかどうかを知りたいので、名義変数と数値変数 私はインターネットで検索しましたが、いくつかのページでは、偶発係数またはCramerのVまたはLambda係数またはEtaを使用するように提案されています。この測定値のそれぞれについて、名目変数と区間変数または数値変数があるようなデータに適用できると言ってください。問題は、検索して検索し、それらのすべてを理解しようとすることですが、Cramer's Vを除いて、二項公称変数がある場合にそれらを使用するのが合理的である例が書かれている、または見られていることもあります。データのタイプ。他の多くのページでは、代わりに回帰を適用するのが正しいと言っていますが、そうですが、この種類のデータにピアソン/スピアマンのような係数があるかどうかを知りたいだけです。 また、都市はソートできないため、Spearman Correlation coeffを使用するのはそれほど適切ではないと思います。 私はCramer'sVとEtaの関数も自分で作成しました(私はMatlabを使用しています)が、Etaについては係数が統計的に有意であるかどうかを確認するためにp値について話しません... matlabWorksサイトには、eta ^ 2を計算するように指示する素晴らしいツールボックスもありますが、必要な入力の種類は理解できません。 ここに私のようなテストをした人はいますか?私が使用しているデータの種類を理解するためにさらに詳細が必要な場合は、私に尋ねてください。私はあなたをよりよく説明しようとします。

8
高次元データの視覚化
高次元空間のベクトルである2つのクラスのサンプルがあり、それらを2Dまたは3Dでプロットしたい。 次元削減の手法については知っていますが、本当にシンプルで使いやすいツール(MATLAB、Python、またはビルド済みの.exe)が必要です。 また、2Dでの表現は「意味のある」ものになるのでしょうか。(たとえば、2つのクラスがどのように交差するか、または分離可能か)。

3
共分散行列が正定でないときに因子分析を行う方法は?
33の変数(列)によって記述される717の観測(行)で構成されるデータセットがあります。データは、すべての変数をzスコアリングすることによって標準化されます。2つの変数が線形従属ではありません()。また、分散が非常に小さい(0.1未満)すべての変数を削除しました。以下の図は、対応する相関行列(絶対値)を示しています。r = 1r=1r=10.10.10.1 factoranMatlabで次のように使用して因子分析を実行しようとすると: [Loadings1,specVar1,T,stats] = factoran(Z2,1); 次のエラーが表示されます。 The data X must have a covariance matrix that is positive definite. 問題がどこにあるか教えていただけませんか?使用されている変数間の相互依存性が低いためですか?また、どうすればいいですか? 私の相関行列:

3
相互検証された分類精度の信頼区間
2つの入力X線画像間の類似性メトリックを計算する分類問題に取り組んでいます。画像が同じ人物の場合(「右」のラベル)、より高いメトリックが計算されます。2人の異なる人物の画像(「間違った」というラベル)を入力すると、メトリックが低くなります。 階層化された10分割交差検証を使用して、誤分類の確率を計算しました。私の現在のサンプルサイズは約40の正しい一致と80の誤った一致で、各データポイントは計算されたメトリックです。私は0.00の誤分類確率を取得していますが、これについてある種の信頼区間/エラー分析が必要です。 私は二項比率信頼区間の使用を検討していました(相互検証の結果を、成功の数に対する正しいラベル付けまたは誤ったラベル付けとして使用しました)。ただし、二項分析の背後にある仮定の1つは、各試行で成功する確率が同じであり、交差検証での「正しい」または「間違った」の分類の背後にある方法が、同じ成功の確率。 私が考えることができる他の唯一の分析は、クロス検証をX回繰り返し、分類エラーの平均/標準偏差を計算することですが、私のデータを再利用しているので、これが適切かどうかはわかりません数回の比較的小さなサンプルサイズ。 何かご意見は?すべての分析にMATLABを使用していますが、統計ツールボックスがあります。すべての支援に感謝します!

4
カーネル密度推定からランダムに値を取得するにはどうすればよいですか?
いくつかの観察結果があり、これらの観察結果に基づいてサンプリングを模倣したいと思います。ここでは、ノンパラメトリックモデルについて検討します。具体的には、カーネル平滑化を使用して、制限された観測からCDFを推定します。次に、取得したCDFからランダムに値を描画します。以下は私のコードです(アイデアは累積的にランダムに取得することです)均一分布を使用した確率、および確率値に関してCDFの逆数をとります) x = [randn(100, 1); rand(100, 1)+4; rand(100, 1)+8]; [f, xi] = ksdensity(x, 'Function', 'cdf', 'NUmPoints', 300); cdf = [xi', f']; nbsamp = 100; rndval = zeros(nbsamp, 1); for i = 1:nbsamp p = rand; [~, idx] = sort(abs(cdf(:, 2) - p)); rndval(i, 1) = cdf(idx(1), 1); end figure(1); hist(x, …

1
Anova()とdrop1()がGLMMに異なる回答を提供したのはなぜですか?
次の形式のGLMMがあります。 lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 私が使用している場合drop1(model, test="Chi")、私は私が使用している場合とは異なる結果を得るAnova(model, type="III")車のパッケージからかsummary(model)。後者の2つは同じ答えを与えます。 大量の偽造データを使用して、これらの2つの方法は通常違いがないことがわかりました。それらは、平衡線形モデル、不平衡線形モデル(異なるグループでnが等しくない場合)、および平衡一般化線形モデルに対して同じ答えを示しますが、平衡一般化線形混合モデルに対しては同じ答えを与えません。したがって、ランダムな要素が含まれている場合にのみ、この不一致が現れます。 これらの2つの方法の間に違いがあるのはなぜですか? GLMMを使用する場合は必要がありますAnova()かdrop1()使用できますか? これらの2つの違いは、少なくとも私のデータでは、かなりわずかです。どちらを使用するかは問題ですか?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

3
Matlabでの相互情報量を使用した特徴選択
これらの講義ノート(5ページ)で説明されているように、相互情報のアイデアを機能選択に適用しようとしています。 私のプラットフォームはMatlabです。経験的データから相互情報量を計算するときに私が見つける1つの問題は、数値が常に上向きにバイアスされることです。Matlab CentralでMIを計算するために約3〜4種類のファイルを見つけましたが、独立したランダム変数を入力すると、それらはすべて大きな数値(> 0.4など)を示します。 私は専門家ではありませんが、MIを計算するために単に結合密度と限界密度を使用する場合、MIは定義上正であるため、プロセスにバイアスが導入されるという問題があるようです。相互情報を正確に推定する方法について実用的なアドバイスはありますか? 関連する質問は、実際には、実際にMIを使用して機能を選択する方法ですか。MIは理論上無制限なので、しきい値をどのように考案するかは私には明らかではありません。または、人々は単にMIによって機能をランク付けし、上位kの機能を採用しますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.