タグ付けされた質問 「matlab」

プログラミング言語/環境。このタグは、(a)MATLABが質問の重要な部分または予想される回答として含まれているトピックに関する質問に使用します。&(b)は、MATLABの使い方だけではありません。

3
SVDを実行して欠損値を代入する方法、具体例
SVDを適用する前に欠損値を処理する方法に関する素晴らしいコメントを読みましたが、簡単な例でどのように機能するか知りたいです。 Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 上記のマトリックスを考えると、NAの値を削除すると、User2とUser5しかなくなります。これは、私のUが2×kになることを意味します。しかし、欠損値を予測する場合、Uは5×kである必要があります。これは、特異値とVで乗算できます。 上記のマトリックスで、最初に欠損値のあるユーザーを削除してからSVDを適用して、欠損値を記入する人はいますか?数学記号を使いすぎずに、適用した手順の非常に簡単な説明を提供し、答えを実用的なものにしてください(つまり、数値に別の数値を掛けると答えが得られます)。 次のリンクを読みました。 stats.stackexchange.com/q/33142 stats.stackexchange.com/q/31096 stats.stackexchange.com/q/33103
8 r  missing-data  data-imputation  svd  sampling  matlab  mcmc  importance-sampling  predictive-models  prediction  algorithms  graphical-model  graph-theory  r  regression  regression-coefficients  r-squared  r  regression  modeling  confounding  residuals  fitting  glmm  zero-inflation  overdispersion  optimization  curve-fitting  regression  time-series  order-statistics  bayesian  prior  uninformative-prior  probability  discrete-data  kolmogorov-smirnov  r  data-visualization  histogram  dimensionality-reduction  classification  clustering  accuracy  semi-supervised  labeling  state-space-models  t-test  biostatistics  paired-comparisons  paired-data  bioinformatics  regression  logistic  multiple-regression  mixed-model  random-effects-model  neural-networks  error-propagation  numerical-integration  time-series  missing-data  data-imputation  probability  self-study  combinatorics  survival  cox-model  statistical-significance  wilcoxon-mann-whitney  hypothesis-testing  distributions  normal-distribution  variance  t-distribution  probability  simulation  random-walk  diffusion  hypothesis-testing  z-test  hypothesis-testing  data-transformation  lognormal  r  regression  agreement-statistics  classification  svm  mixed-model  non-independent  observational-study  goodness-of-fit  residuals  confirmatory-factor  neural-networks  deep-learning 

1
ランダム分布からの逸脱の背後にある力学
私たちが取り組んでいるシステムは生物学的であり、より具体的には、プログラムされたDNA損傷イベントが染色体全体に分布しています。これは、ポイントを選択できる1Dアレイ(染色体)と考えることができます(意図的な損傷の部位)。これらのイベントの位置を実験的にマッピングし、ランダムな分布に当てはまるかどうかを最初に質問しました。つまり、染色体に沿った任意のポイントで等確率で損傷が発生する可能性があり、特定の損傷部位は互いに独立しています。MATLAB(randi)でランダム分布を生成することにより、これは事実ではないことがわかりました。 実際のデータとモデル化されたデータの両方からポイント間距離(IPD)を分析すると、実際のデータは、特定のIPDサイズ以下でのみランダム分布から逸脱し、その後、その上にランダム分布に再結合します。実際のデータで偶然に予想されるよりも短いIPD。 IPD結果の例: Red = random modelled distribution Blue = real data Y-axis = IPD size (log-scale) X-axis = IPD number (IPDs are just plotted in numerical order) ここでは、IPDが対数Y軸にプロットされ、ヒストグラムのように昇順でプロットされます。特定のIPDサイズ(Y軸)の下を見るとわかるように、青い線は赤い線からずれています。 私たちがテストしている仮説(これは健全な生物学的根拠を持っています)は、1つのイベントの位置がすでに形成されたイベントに依存するというものです。具体的には、サイトが選択されるとすぐに、周囲の抑圧ゾーンが呼び出され、周囲の領域が次のサイトとして選択される可能性が低くなります。これにより、イベントが効果的に分離され、より短いIPDがないことが説明されます。このゾーンは、選択したポイントから離れるほど強度が徐々に低下します。これは、特定のIPD距離を超えると独立に戻ることを示しています。 質問:ランダムなデータセットと実際のデータセットのみからこのゾーンの形状を導出できる数学的な方法はありますか?たとえば、その効果が見えなくなるまで、各ポイントでその強さ(ランダム性から逸脱する能力)を計算することによって? 上の図の三角形の形状とスケールは、私が得ようとしている主なものです(必ずしも三角形ではありません)。 この仮説をシミュレートする2番目のモデルがあります-有望な結果を提供しますが、抑圧ゾーンの形状、スケールなどについてのガイダンスが必要です。それ以外の場合は試行錯誤で、複数の異なるウィンドウ+パラメーターが適合する可能性があります。 IPDをヒストグラムにビニングし、ガンマ確率関数をフィッティングし、これをハザード関数に変換することで、以前に同様のことを行ったことがありますが、私は数学者ではないので、これが正しい方法であるかどうか、またどうすればよいかわかりませんそれ。 私は主にMATLABで働いているので、誰かがMATLABの形で何らかの助けを提供できればそれは素晴らしいことですが、どんな助けでも最も高く評価されます。 プロットで使用されるデータ: Real IPDs: 7126.5 11311.5 12582.25 21499 25429.25 28876.5 29178.5 35545.25 37498.75 37881.5 38152 45464 …


3
逆共分散行列の計算の数値的不安定性
21次元データの65サンプル(ここに貼り付け)があり、それから共分散行列を構築しています。C ++で計算すると、ここに共分散行列が貼り付けられます。そして、データからMATLABで計算すると(以下に示すように)、ここに共分散行列が貼り付けられます データからcovを計算するためのMatlabコード: data = csvread('path/to/data'); matlab_cov = cov(data); 共分散行列の違いがわかるように(〜e-07)、これはおそらく浮動小数点演算を使用するコンパイラーの数値の問題が原因です。 ただし、matlabによって生成された共分散行列とC ++コードによって生成された共分散行列から疑似逆共分散行列を計算すると、大きく異なる結果が得られます。私はそれらを同じ方法で計算しています: data = csvread('path/to/data'); matlab_cov = cov(data); my_cov = csvread('path/to/cov_file'); matlab_inv = pinv(matlab_cov); my_inv = pinv(my_cov); 違いが非常に大きいため、サンプル(ここに貼り付け)から65サンプルの分布までのマハラノビス距離を次のように計算しています。 (65/642)×((sample−mean)×∑−1×(sample−mean)′)(65/642)×((sample−mean)×∑−1×(sample−mean)′)(65/64^2) \times ((sample-mean)\times {\sum}^{-1} \times (sample-mean)') 異なる逆共分散行列()を使用すると、大きく異なる結果が得られます。∑−1∑−1{\sum}^{-1} (65/(64^2))*((sample-sample_mean)*my_inv*(sample-sample_mean)') ans = 1.0167e+05 (65/(64^2))*((sample-sample_mean)*matlab_inv*(sample-sample_mean)') ans = 109.9612 共分散行列の小さな(e-7)差が疑似逆行列の計算にそのような影響を与えるのは正常ですか?もしそうなら、この影響を緩和するために私は何ができますか? これに失敗すると、逆共分散を含まない、使用できる他の距離メトリックスはありますか?私はマハラノビス距離を使用します。これは、n個のサンプルについてはベータ分布に従うため、仮説検定に使用します。 事前に感謝します EDIT:以下、共分散行列を計算するためのC ++コードを追加:vector<vector<double> >貼り付けたファイルからの行の集合を表します。 Mat …

2
Rの2因子反復測定ANOVA後の事後検定?
Rで2因子(両方とも被験者内)のANOVAを繰り返し測定した後、事後テスト(Tukey HSD)を実行する方法に関する解決策を見つけるのに問題があります。ANOVAには、aov -functionを使用しました。 summary(aov(dv ~ x1 * x2 + Error(subject/(x1*x2)), data=df1)) 他の質問への回答を読んだ後、他の機能(lmeなど)を使用してANOVAを再実行する必要があることを知りました。これが私が思いついたものです。 Lme.mod <- lme(dv ~ x1*x2, random=list(subject=pdBlocked(list(~1, pdIdent(~x1-1), pdIdent(~x2-1)))), data=df1) anova(Lme.mod) 主な効果はどちらも有意でしたが、相互作用の効果はありませんでした。次に、これらの関数を事後比較に使用しました。 summary(glht(Lme.mod, linfct=mcp(x1="Tukey"))) summary(glht(Lme.mod, linfct=mcp(x2="Tukey"))) しかし、いくつかの問題がありました: まず、Rヘルプファイルには、「双方向ANOVAまたはANCOVAモデル(...)multcompバージョン1.0-0以降で対象のパラメーターを定義する場合、mcp関数は注意して使用する必要があります。主な効果の比較が生成されます。のみ、共変量と交互作用を無視します(古いバージョンは交互作用項で自動的に平均化されました)警告が表示されます。そして確かに、私は次の警告メッセージを受け取りました: Warning message: In mcp2matrix(model, linfct = linfct) : covariate interactions found -- default contrast might be inappropriate もう1つの不可解な点は、両方の主要な効果は有意でしたが、要因の1つ(x1)の事後比較に有意差はなかったということです。これに出会ったことはありません。スクリプト/分析は正しい/適切ですか、それとも欠けているものはありますか?どんな助けでも大歓迎です!

1
RまたはMATLABでキャリブレーションされたブーストされた決定木
で教師付き学習アルゴリズムのアン実証的比較(2006 ICML)著者(リッチカルアナとアレクサンドル・ニクレスク-Mizil)は、いくつかの分類アルゴリズム(SVMを、ANN、KNN、ランダムフォレスト、決定木など)を評価した、と報告した校正ブースト木々こと8つの異なるメトリック(Fスコア、ROC面積、平均精度、クロスエントロピーなど)全体で最高の学習アルゴリズムとしてランク付けされています。 キャリブレーションされたブーストされた決定木をテストしたい私のプロジェクトの1つでと思います。誰かがこれに適したRパッケージまたはMATLABライブラリを提案できるかどうか疑問に思っていました。 私はRに比較的慣れていませんが、MATLABおよびPythonでの経験は豊富です。私はRさんについて読んだことがGBM、木、およびRPARTが、これらのパッケージが調整されたブーストされた決定木を実装しているかどうか、またはそれらを実装している他のパッケージがあるかどうかはません。 ありがとう

6
統計的推論のためのプログラミング言語は何ですか?
好奇心のためだけに...ここで最も使用される言語は何ですか?R?MATLAB?Python?Java? プロトタイプまたはプロダクションはどうですか?たとえば、MATLABは主にプロトタイピングに、Pythonは両方のプロトタイプに使用されていると思います。そして生産...
8 r  matlab  python  java 

3
スカラー入力の標本分散をどのように定義すべきですか?
Matlabがスカラー入力の標本分散に対してを返すことを最近知り、私は恐怖に思いました。000 >> var(randn(1),0) %the '0' here tells var to give sample variance ans = 0 >> var(randn(1),1) %the '1' here tells var to give population variance ans = 0 どういうわけか、この場合、サンプル分散はで除算されていません。RはスカラーのNaNを返します。0 = n − 10=n−10 = n-1 > var(rnorm(1,1)) [1] NA スカラーの母集団標本分散を定義する賢明な方法は何だと思いますか?NaNの代わりにゼロを返すと、どのような影響がありますか? 編集:Matlabのヘルプからvar: VAR normalizes Y by N-1 if N>1, where …
8 r  variance  matlab 

4
FA:「単純構造基準」に基づく回転行列の選択
因子分析を使用する上で最も重要な問題の1つは、その解釈です。因子分析では、解釈を強化するために因子ローテーションがよく使用されます。満足のいく回転の後、回転した因子負荷行列L 'は相関行列を表す同じ機能を持ち、回転していない行列Lの代わりに因子負荷行列として使用できます。 回転の目的は、回転した因子負荷行列にいくつかの望ましい特性を持たせることです。使用される方法の1つは、回転する行列が単純な構造になるように因子負荷行列を回転させることです。 LL Thurstoneは、因子回転の一般的なガイドとして、単純構造の原理を導入しました。 単純な構造基準: 因子行列の各行には少なくとも1つのゼロが含まれている必要があります 共通因子がm個ある場合、因子行列の各列には少なくともm個のゼロが必要です 因子行列の列のすべてのペアについて、1つの列ではエントリがゼロに近づくが、他の列ではエントリに近づかない変数がいくつかあるはずです。 因子行列のすべての列のペアについて、4つ以上の因子がある場合、変数の大部分は両方の列でゼロに近いエントリを持つ必要があります 因子行列の列のペアごとに、両方の列にゼロ以外のエントリを持つ少数の変数のみが存在する必要があります 理想的なシンプルな構造は次のようなものです。 各アイテムには、1つの要素のみで高い、または意味のある負荷があり、 各要素には、一部の項目のみの高い、または意味のある負荷があります。 問題は、回転メソッドのいくつかの組み合わせと、それぞれが受け入れるパラメーター(特に、斜めのパラメーターの場合)を試すと、候補行列の数が増え、上記の基準をどれがより適切に満たすかを確認することが非常に難しいことです。 最初にその問題に直面したとき、私はそれらを単に「見る」だけでは最良の一致を選択することができず、決定を助けるためのアルゴリズムが必要であることに気付きました。プロジェクトの締め切りのストレス下で、私ができることのほとんどは、MATLABで次のコードを書くことでした。これは、一度に1つの回転行列を受け入れ、各基準が満たされているかどうかを(いくつかの仮定の下で)返します。新しいバージョン(アップグレードしようとした場合)は、3dマトリックス(2dマトリックスのセット)を引数として受け入れ、アルゴリズムは上記の基準により適合するものを返す必要があります。 これらの基準からアルゴリズムをどのように抽出しますか?私はあなたの意見(メソッド自体の有用性についての批判もあったと思います)とおそらくローテーションマトリックス選択問題へのより良いアプローチを求めています。 また、FAを実行したいソフトウェアを教えてください。Rの場合、どのパッケージを使用しますか?(私がFAをしなければならなかった場合、私は再びSPSSに目を向けることを認めなければなりません)。誰かがコードを提供したい場合は、RまたはMATLABを使用します。 上記PSザ・シンプルな構造基準製剤は、本の中で見つけることができる「因子分析の感覚を作る」 PETT、M.、ラッキー、N.、SULLIVAN、J.によって PS2(同じ本から):「成功した因子分析のテストは、元のコアマトリックスを再現できる範囲です。斜めの解法も使用した場合は、すべての中で最高および最低因子の最大数を生成したものを選択してください。ローディング。」 これは、アルゴリズムが使用できる別の制約のように聞こえます。 PS3この質問はここでも尋ねられました。しかし、私はそれがこのサイトによりよく合うと思います。 function [] = simple_structure_criteria (my_pattern_table) %Simple Structure Criteria %Making Sense of Factor Analysis, page 132 disp(' '); disp('Simple Structure Criteria (Thurstone):'); disp('1. Each row of the factor …

2
リッジのMATLABの実装に混乱
ridgeMATLAB には2つの異なる実装があります。1つは単に x=(A′A+Iλ)−1A′bx=(A′A+Iλ)−1A′b\mathbf x = (\mathbf{A}'\mathbf{A}+\mathbf{I}\lambda)^{-1}\mathbf{A}'\mathbf b (ウィキペディアのリッジ回帰ページで見られるように)、とII\mathbf{I} サイズ列の単位行列であること(AA\mathbf{A}) ××\times 列(AA\mathbf{A})、および 私は単にMatlabの「尾根」を x = ridge(A, b, lambda) 私の問題は、どちらも異なる結果を返すことです。(1)必要な結果を返します(他の人と結果を比較することでわかります)が、(2)同じ結果が返されないのはなぜですか? 私のマトリックス AA\mathbf A疎で、1%1と99%0で埋められます。一部の列には1がほとんど含まれていません。最大の違いは、1が非常に少ない列の係数が(1)の0に非常に近いことですが、(2)の0からかなり離れている可能性があります なぜそれが違うのか、そして(2)の呼び出しを変更して(1)と同じ結果を出すにはどうすればいいですか?

1
MATLABでのロジスティック回帰のための名義予測子と連続予測子の間の相互作用のコーディング
したがって、データは次のように構成されています。 我々は持っています MMM参加者は、各参加者を3つのグループ(G ∈ A 、B 、C∈A,B,C\in {A,B,C})、そして参加者ごとに NNN連続変数のサンプル。また、0または1の値を予測しようとしています。 これらの値を予測する際に、MATLABを使用して連続変数とカテゴリ変数間の相互作用をテストするにはどうすればよいでしょうか。

1
ECDFの信頼限界
PythonのデータからECDF(および信頼限界)を作成しようとしています。ECDFはnumpy、をソートして使用することで、かなり簡単に生成できlinspaceます。しかし、適切な信頼限界が何であるかは完全にstatsmodelsはわかりません。また、境界を計算する組み込みライブラリはないようです(ECDFを与えるだけのようです)。 ポイントごとの信頼限界が必要な場合1 - α1−α1-\alphaそれを使用するのが適切であるDKWの不平等をして、私の地域を計算します Cん(α )=12 nログ(2α)−−−−−−−−−−√、Cん(α)=12んログ⁡(2α)、C_n(\alpha) = \sqrt{\frac{1}{2n}\log\left(\frac{2}{\alpha}\right)} \,, どこ んんnサンプルの観測数は何ですか?したがって、F(x )F(バツ)F(x) 私のECDFです。私の上限と下限は U B(x)=min(1 、F(x )+Cん(α ))UB(バツ)=分(1、F(バツ)+Cん(α))\mathrm{UB}(x) = \min\left(1, F(x)+C_n(\alpha)\right) L B(x)=max(0 、F(x )−Cん(α ))LB(バツ)=最高(0、F(バツ)−Cん(α))\mathrm{LB}(x) = \max\left(0, F(x)-C_n(\alpha)\right) MATLABには組み込み関数ECDFがありますが、境界を生成するためにGreenwoodの公式(下を参照)を適用する方法を理解するのにあまり運がありませんでした。

2
が均一かつ通常選択されている場合、球面仰角はどのように分布しますか?
フォローアップとして 極座標方法、、分散されたときにとIF?θθ\theta(x,y)∼U(−1,1)×U(−1,1)(x,y)∼U(−1,1)×U(−1,1)(x,y) \sim U(-1,1) \times U(-1,1)(x,y)∼N(0,1)×N(0,1)(x,y)∼N(0,1)×N(0,1)(x,y) \sim N(0,1)\times N(0,1) 仮定どのようにしている及び分散しますか?(x,y,z)∼U(−10,10)×U(−10,10)×U(−10,10)(x,y,z)∼U(−10,10)×U(−10,10)×U(−10,10)(x,y,z) \sim U(-10,10) \times U(-10,10) \times U(-10,10)θθ\thetaϕϕ\phi が次のようになるのは、前の質問のすばらしい回答から明らかです。 θθ\theta しかし、なぜがで最大尤度を取得しないのですか?ϕϕ\phiϕ=π/4ϕ=π/4\phi = \pi/4 正規分布でを選択すると次の2つのpdfが得られます。x,y,zx,y,zx,y,z および分布の名前はどちらの場合にもありますか?私にとっては、区間分布のように見えます。θθ\thetaϕϕ\phiββ\beta[−90,90][−90,90][-90,90]
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.