タグ付けされた質問 「multivariate-analysis」

同時に分析される複数の変数があり、これらの変数が依存(応答)変数であるか、分析で唯一の変数である場合に分析します。これは、「複数」または「多変数」分析と対照的です。これは、複数の予測子(独立)変数を意味します。

1
相互に排他的でないカテゴリを分類できる深層学習モデル
例:仕事の説明に「英国のJavaシニアエンジニア」という文があります。 私は2つのカテゴリとして、それを予測することは、深い学習モデルを使用したい:English とIT jobs。従来の分類モデルを使用する場合softmax、最後のレイヤーで機能を持つ1つのラベルのみを予測できます。したがって、2つのモデルのニューラルネットワークを使用して、両方のカテゴリで「はい」/「いいえ」を予測できますが、さらに多くのカテゴリがあると、コストがかかりすぎます。では、2つ以上のカテゴリを同時に予測するためのディープラーニングまたは機械学習モデルはありますか? 「編集」:従来のアプローチによる3つのラベルでは、[1,0,0]によってエンコードされますが、私の場合、[1,1,0]または[1,1,1]によってエンコードされます 例:3つのラベルがあり、文がこれらすべてのラベルに収まる場合。したがって、softmax関数からの出力が[0.45、0.35、0.2]である場合、3つのラベルまたは2つのラベルに分類する必要がありますか、それとも1つにすることができますか?それを行うときの主な問題は、1、2、または3つのラベルに分類するための適切なしきい値は何ですか?
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 


1
変数を説明変数に分割するために使用する基準と、生態学の順序付け方法の応答は何ですか?
母集団内で相互作用するさまざまな変数があります。基本的に、私はヤスデのインベントリを作成し、次のような地形の他の値を測定しています。 収集した標本の種類と量 動物がいるさまざまな環境 pH 有機物の割合 P、K、Mg、Ca、Mn、Fe、Zn、Cuの量 Ca + Mg / K関係 基本的に、PCAを使用して、サンプルの変動性を駆動し、フォレスト(環境)を異なるものにする変数を決定します。「変数」にはどの変数を使用し、「個人」にはどの変数を使用すればよいですか?

4
多変量機械学習を行う方法は?(複数の従属変数の予測)
私は誰かが購入するアイテムのグループを予測しようとしています...つまり、複数の同一直線上の従属変数があります。 7つほどの独立したモデルを構築して、7つのアイテムのそれぞれを購入する確率を予測して結果を組み合わせるのではなく、7つの関連する従属変数間の関係を説明する1つのモデルを作成するためにどのような方法を検討すればよいですか(彼らが購入できるもの)。 私はプログラミング言語としてRを使用しているので、R固有のアドバイスがあれば感謝します。

1
主成分分析と対応分析の使用
潮間帯群集に関するデータセットを分析しています。データは、四角形の(海藻、フジツボ、ムール貝などの)カバー率です。種数の観点からのコレスポンデンス分析(CA)と、線形環境(種ではない)傾向に役立つものとして主成分分析(PCA)を考えることに慣れています。PCAまたはCAがカバー率(紙を見つけることができない)に適しているかどうかを判断するのに実際に運がありませんでした。また、100%に制限されているものがどのように分配されるかさえわかりません? 最初のトレンド除去対応分析(DCA)軸の長さが2を超える場合、CAを使用する必要があると安全に判断できるという大まかなガイドラインに精通しています。DCA軸1の長さは2.17でしたが、役に立ちませんでした。


1
2つのガウスランダムベクトルの内積のモーメント生成関数
誰もが、それぞれが独立してとして分布する2つのガウスランダムベクトルの内積のモーメント生成関数を計算する方法を提案できますか?これに利用できる標準的な結果はありますか?どんなポインタでも大歓迎です。N(0,σ2)N(0、σ2)\mathcal N(0,\sigma^2)

1
観測されたイベントと期待されたイベントを比較する方法は?
4つの可能なイベントの頻度の1つのサンプルがあるとします。 Event1 - 5 E2 - 1 E3 - 0 E4 - 12 そして、私は自分のイベントの発生が予想される確率を持っています: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 4つのイベントの観測頻度の合計(18)を使用して、イベントの予想頻度を計算できますか? expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 


4
重回帰の変数の数を減らす
時間の経過に伴うインデックスファンドの動作を予測するために重回帰で使用できる数百の金融変数の値で構成される大きなデータセットがあります。できるだけ多くの予測力を維持しながら、変数の数を10程度に減らしたいと思います。 追加:元の変数の経済的意味を維持するために、削減された変数のセットは元の変数セットのサブセットである必要があります。したがって、たとえば、私は元の変数の線形結合または集計に終わるべきではありません。 これを行う方法についてのいくつかの(おそらくナイーブな)考え: 各変数を使用して単純な線形回帰を実行し、値が最大の10を選択します。もちろん、組み合わされた10個の最良の個々の変数が10個の最良のグループになるという保証はありません。R2R2R^2 主成分分析を実行し、最初のいくつかの主軸との関連が最も大きい10個の元の変数を見つけようとします。 変数は実際にはネストされていないため、階層回帰を実行できないと思います。組み合わせが多すぎるため、10個の変数の可能なすべての組み合わせを試すことは、計算上実行不可能です。 重回帰で変数の数を減らすというこの問題に取り組むための標準的なアプローチはありますか? これは、標準的なアプローチがあるという十分に一般的な問題であるように思われます。 非常に役立つ答えは、標準的な方法に言及しているだけでなく、それがどのようにそしてなぜ機能するかの概要も提供するものでしょう。または、標準的なアプローチが1つではなく、長所と短所が異なる複数のアプローチがある場合、非常に役立つ答えは、長所と短所を説明するものです。 以下のwhuberのコメントは、最後の段落の要求が広すぎることを示しています。代わりに、主なアプローチのリストを、おそらくそれぞれの非常に簡単な説明とともに、良い答えとして受け入れます。条件が決まったら、自分の詳細を掘り下げることができます。

1
周波数が大きく異なる点プロセスの四角形を構築する方法は?
複数のポイントプロセス(または1つのマークされたポイントプロセス)でクアドラットカウント分析を実行し、いくつかの次元削減手法を適用したいと考えています。 マークは均等に分散されていません。つまり、非常に頻繁に表示されるマークもあれば、非常にまれなマークもあります。したがって、2Dスペースを通常のグリッドで単純に分割することはできません。マークの頻度が高くなると、頻度の低いマークが「圧倒」され、外観がマスクされてしまうためです。 したがって、各セルに最大N個のポイントが含まれるようにグリッドを構築しようとしました(これを行うには、各セルを4つの小さい(同じサイズの)セルに再帰的に分割し、セルがN個を超えるポイントがなくなるまで再帰的にそれ)。 この「正規化」手法についてどう思いますか?そのようなことをする標準的な方法はありますか?

2
さまざまなタイプのイベント間の関係(2D位置によって定義される)を見つける方法は?
同じ期間に発生したイベントのデータセットがあります。各イベントにはタイプ(10未満の異なるタイプがいくつかあります)と場所があり、2Dポイントとして表されます。 イベントの種類や種類と場所の間に相関関係がないか確認したい。たとえば、タイプAのイベントは通常、タイプBのイベントが発生する場所では発生しない可能性があります。あるいは、ある地域では、タイプCのイベントがほとんどあります。 これを実行するためにどのようなツールを使用できますか?統計分析の初心者である私の最初のアイデアは、このデータセットに対して何らかの種類のPCA(主成分分析)を使用して、各タイプのイベントが独自のコンポーネントを持っているか、または一部が同じコンポーネントを共有しているか(つまり、相関していたか)を確認することでした。 私のデータセットは約500'000ポイントであるため、処理が少し難しくなります。(x 、y、t yp e )(x,y,type)(x, y, type) 編集:以下の回答とコメントに記載されているように、このワークショップレポートで詳細に説明されているように、これをマークポイントプロセスとしてモデル化し、Rを使用してすべての重い作業を実行する方法です:http:/ /www.csiro.edu.au/resources/Spatial-Point-Patterns-in-R.html

1
方向ベクトルのコサインのモーメント/ mgf?
誰かが互いに独立してとして分布する2つのガウスランダムベクトルの余弦の2次モーメント(またはモーメント生成関数全体)を計算する方法を誰かが提案できますか?IE、次の確率変数の瞬間x,yx,yx,yN(0,Σ)N(0,Σ)\mathcal N (0,\Sigma) ⟨x,y⟩∥x∥∥y∥⟨x,y⟩‖x‖‖y‖\frac{\langle x, y\rangle}{\|x\|\|y\|} 最も近い質問は、内積の MGFを導出する2つのガウスランダムベクトルの内積のモーメント生成関数です。この質問をサンプルの共分散行列の固有値の分布にリンクするmathoverflowからのこの回答もありますが、それらを使用して2次モーメントを計算する方法はすぐにはわかりません。 私は2次元の代数的操作と、推測とチェックから3次元の結果を得るので、2次モーメントは\ Sigmaの固有値の半分のノルムに比例してスケーリングするΣΣ\Sigmaと思います。固有値a,b,ca,b,ca,b,c合計が1になると、二次モーメントは次のようになります。 (a−−√+b√+c√)−2(a+b+c)−2(\sqrt{a}+\sqrt{b}+\sqrt{c})^{-2} 数値チェックに以下を使用 val1[a_, b_, c_] := (a + b + c)/(Sqrt[a] + Sqrt[b] + Sqrt[c])^2 val2[a_, b_, c_] := Block[{}, x := {x1, x2, x3}; y := {y1, y2, y3}; normal := MultinormalDistribution[{0, 0, 0}, ( { {a, 0, 0}, …

3
軌道をベクトルにマップする方法は?
一連のユーザー向けに、この形式の一連のデータポイント(タイムスタンプ、緯度、経度)があります。各ユーザーは、ポイントAからポイントBに移動するときに軌道を持っています。AからBまでのポイントはいくつあってもかまいません。これらは、タイムスタンプに基づいて順序付けられたデータポイントです。さまざまな分析タスクを実行するベクトルとしてそれらを変換したいと思います。私が考えているのは、ターンを見て、それを次元として作ることです。もっとアプローチを教えてください。必要なのは、軌道全体を表す1つのベクトルです。軌道の1つの点のように考えてください。今、3D点のコレクションがあります。 軌跡類似検索を行いたいのですが。時間内に互いに接近している2つの軌道がある場合、それらは類似しています。自宅から午前9時に仕事に行くような感じで考えてください。午前9時10分に他の誰かが彼の仕事の家でもあり、あなたから少し離れています。uは同じ職場を持っているので、おそらく同じ軌跡をたどります。軌道の上に構築された分類子のようなもの。軌跡でアクティビティ検出を実行できます。また、送信元宛先分析も実行できます。

3
PMFに0が含まれている場合のカルバックライブラーダイバージェンスの計算方法
私は次の時系列を持っています 以下に投稿されたデータを使用して取得されます。 スライディングウィンドウのサイズが10の場合、現在のスライディングウィンドウ内の値のPMFと履歴のPMFの間のKLダイバージェンスを計算して、KLダイバージェンスの値を経時的にプロットするという最終目標を設定して、 2つの時系列を比較できます。 今のところ、私が直面している概念的な問題があります(Pythonを使用して説明します)。 In [228]: samples = [0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1] # In reality this 10 should be 20 because that is the max value I have seen in the timeseries In [229]: bins = scipy.linspace(0, 10, 21) In [230]: bins …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.