タグ付けされた質問 「data-transformation」

データ値の数学的再表現、多くの場合非線形。多くの場合、データは、統計モデルの仮定を満たすため、または分析の結果をより解釈可能にするために変換されます。

4
回帰用のボックスコックス変換
1つの予測子(たとえば(x、y)など)を使用して、いくつかのデータに線形モデルを適合させようとしています。データは、xの値が小さい場合、y値は直線にぴったりとフィットしますが、x値が増加すると、y値はより変動しやすくなります。そのようなデータの例を次に示します(Rコード) y = c(3.2,3.4,3.5,3.8,4.2,5.5,4.5,6.8,7.4,5.9) x = seq(1,10,1) 以下に示すように、単純に線形近似を行うよりも、データをより適切に近似できる電力変換(おそらくボックスコックス)が存在するかどうか知りたいです。 fit = lm(y ~ x)

2
混合モデルのパラメトリック、セミパラメトリック、ノンパラメトリックブートストラップ
以下の移植片は、この記事から引用したものです。私はブートストラップの初心者であり、R bootパッケージを使用した線形混合モデルのパラメトリック、セミパラメトリック、ノンパラメトリックのブートストラップブートストラップを実装しようとしています。 Rコード これが私のRコードです: library(SASmixed) library(lme4) library(boot) fm1Cult <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=Cultivation) fixef(fm1Cult) boot.fn <- function(data, indices){ data <- data[indices, ] mod <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=data) fixef(mod) } set.seed(12345) Out <- boot(data=Cultivation, statistic=boot.fn, R=99) Out ご質問 …
9 r  mixed-model  bootstrap  central-limit-theorem  stable-distribution  time-series  hypothesis-testing  markov-process  r  correlation  categorical-data  association-measure  meta-analysis  r  anova  confidence-interval  lm  r  bayesian  multilevel-analysis  logit  regression  logistic  least-squares  eda  regression  notation  distributions  random-variable  expected-value  distributions  markov-process  hidden-markov-model  r  variance  group-differences  microarray  r  descriptive-statistics  machine-learning  references  r  regression  r  categorical-data  random-forest  data-transformation  data-visualization  interactive-visualization  binomial  beta-distribution  time-series  forecasting  logistic  arima  beta-regression  r  time-series  seasonality  large-data  unevenly-spaced-time-series  correlation  statistical-significance  normalization  population  group-differences  demography 

1
地域の科学フェアの勝者を公正に決定する方法は?
私のサイエンスフェアで勝者を計算する正しい方法を理解するのに助けが必要です。統計と数学についての無知が、子供の勝つチャンスを邪魔したくありません。(危機に瀕している多くの奨学金と進歩の利点)。よろしくお願いします。 最初に、セットアップ方法の背景を少し説明します。 私たちの見本市には通常、約600の学生プロジェクトがあります。これらのプロジェクトは、個々の学生または学生のチームによって完了および提示されます。チームは2人または3人の子供で構成できます。 生徒は小学校(6〜8年生)と中学校(9〜12年生)の2つの部門に分かれています。各部門には異なるカテゴリがあります。初等プロジェクトの9つのカテゴリと二次部門プロジェクトの17のカテゴリです。 賞は、各部門の各カテゴリの1位、2位、3位に与えられます。3位を超えるプレースメントには、名誉ある賞が贈られます。 プロジェクトごとに、4人から6人の審査員を割り当てます。審査は、審査員の資格、カテゴリーの好み、過去の審査経験に基づいて行われます。(経験豊富な方は上級部門のプロジェクトに割り当てられます)。 審査員によるプロジェクトの採点方法: 各プロジェクトには、ポイントが割り当てられた5つの基準があります。各基準は1から20ポイントの間で授与されます。一般的な基準は次のとおりです。 全体的な目標+仮説+リソースの使用(1..20) 設計+手順(1..20) データ収集+結果(1..20) ディスカッション+結論(1..20) インタビュー(1..20) チームプロジェクトの場合、「チーム控除」と呼ばれる6番目の基準が評価されます。この場合、裁判官は、参加しなかった、または参加しなかったチームメイトに対してポイント(最大15)を差し引くことができます。 チーム控除(0 ..- 15) したがって、裁判官はすべてのプロジェクトを5〜100ポイントで採点できます。プロジェクトがチームプロジェクトの場合、スコアは15ポイント減ります。 生データ: 数時間の間に、裁判官から最大3,600点のスコアを収集します。これらのスコアはデータベースに入力され、そこであらゆる種類の並べ替え、平均化、標準偏差の計算などを行うことができます。これらの生のスコアをどうすればよいのか正確にはわかりません。現在、私は各プロジェクトの単純な平均を行っていますが、裁判官のバイアス、チームの控除、または考慮していない他の多くのことについて調整していないのではないかと心配しています。 望ましい結果: 最後に、スコアを処理して、カテゴリごとに1位、2位、3位のプロジェクトを授与し、その後、後続の場所で名誉ある賞を授与できるようにしたいと思います。私はポジションが正しく計算され、勝利した子供たちが表彰(そして賞品)に値することを確信したいと思います。 私の長い質問を読んで、これを理解するためのあなたの助けに感謝します。フォローアップの質問があれば、喜んでお答えします。

1
予測モデルの応答変数が異なる場合に予測を組み合わせる方法は?
前書き 予測の組み合わせでは、人気のあるソリューションの1つは、いくつかの情報基準の適用に基づいています。モデルに対して推定された赤池基準を例にとると、からの差を計算でき、RP_j = e ^ {(AIC ^ *-AIC_j)/ 2}は次のように解釈できますモデルjの真の確率。重みは次のように定義されますA ICjあ私CjAIC_jjjjA ICjあ私CjAIC_jA IC∗= 分jA ICjあ私C∗=分jあ私CjAIC^* = \min_j{AIC_j}R Pj= e(A IC∗− A ICj)/ 2RPj=e(あ私C∗−あ私Cj)/2RP_j = e^{(AIC^*-AIC_j)/2}jjj wj= R PjΣjR Pjwj=RPjΣjRPjw_j = \frac{RP_j}{\sum_j RP_j} 問題 私が克服しようとしている問題は、モデルが異なるように変換された応答(内因性)変数で推定されることです。たとえば、一部のモデルは年間成長率に基づいており、別のモデルは四半期ごとの成長率に基づいています。したがって、抽出されたA ICjあ私CjAIC_j値は直接比較できません。 試したソリューション 重要なのはA ICあ私CAICの違いだけなので、応答変数の変換に不変なベースモデルのA ICあ私CAIC(たとえばlm(y~-1)、パラメーターなしでモデルを抽出しようとした)を使用して、jjj番目のモデルとベースモデルA ICあ私CAIC。ただし、ここでは弱点が残っているようです。違いは、応答変数の変換によって影響を受けます。 おわりに 「すべてのモデルを同じ応答変数で推定する」などのオプションは可能ですが、非常に時間がかかります。問題を解決する方法が他にない場合、苦痛な決定に行く前に、迅速な「解決策」を探したいと思います。

3
変換された変数を使用する場合の線形回帰効果のサイズ
線形回帰を実行する場合、従属変数の対数変換などの変換を行って、より良い正規分布の適合を実現すると便利な場合があります。多くの場合、結果の効果サイズ/実際の関連性をより適切に評価するために、回帰からベータを検査することも役立ちます。 これは、たとえば対数変換を使用する場合、効果サイズが対数スケールになるという問題を引き起こします。使用されたスケールの非線形性のために、これらのベータを逆変換すると、意味のない値が得られると言われています実際の使用法はありません。 ここまでは、通常、変換された変数を使用して線形回帰を実行して有意性を検査し、次に元の非変換変数を使用して線形回帰を実行して効果サイズを決定しました。 これを行うための正しい/より良い方法はありますか?ほとんどの場合、臨床データで作業するので、実際の例は、特定の曝露が身長、体重、またはいくつかの実験室測定などの継続的な変数にどのように影響するかを判断することです。重量が2 kg増える」

7
正規分布と単調変換
自然界で発生する量の多くは正規分布していると聞いています。これは通常、中心極限定理を使用して正当化されます。これは、多数のiid確率変数を平均化すると正規分布になることを示しています。したがって、たとえば、遺伝子値はiid確率変数のように振る舞う可能性があるため、多数の遺伝子の相加効果によって決定される特性は、ほぼ正規分布する可能性があります。 ここで私を混乱させるのは、正規分布であるという特性は、単調変換では明らかに不変ではないということです。したがって、単調変換に関連するものを測定する方法が2つある場合、両方が正規分布している可能性は低いです(単調変換が線形でない限り)。たとえば、雨滴のサイズを直径、表面積、または体積で測定できます。すべての雨滴について同様の形状を想定すると、表面積は直径の2乗に比例し、体積は直径の3乗に比例します。したがって、これらすべての測定方法を正規分布させることはできません。 したがって、私の質問は、分布が正規になる特定のスケーリング方法(つまり、単調変換の特定の選択)が物理的な意味を持つ必要があるかどうかです。たとえば、高さは正規分布か、高さの2乗か、高さの対数か、高さの平方根か?高さに影響を与えるプロセスを理解することによってその質問に答える方法はありますか?


3
軌道をベクトルにマップする方法は?
一連のユーザー向けに、この形式の一連のデータポイント(タイムスタンプ、緯度、経度)があります。各ユーザーは、ポイントAからポイントBに移動するときに軌道を持っています。AからBまでのポイントはいくつあってもかまいません。これらは、タイムスタンプに基づいて順序付けられたデータポイントです。さまざまな分析タスクを実行するベクトルとしてそれらを変換したいと思います。私が考えているのは、ターンを見て、それを次元として作ることです。もっとアプローチを教えてください。必要なのは、軌道全体を表す1つのベクトルです。軌道の1つの点のように考えてください。今、3D点のコレクションがあります。 軌跡類似検索を行いたいのですが。時間内に互いに接近している2つの軌道がある場合、それらは類似しています。自宅から午前9時に仕事に行くような感じで考えてください。午前9時10分に他の誰かが彼の仕事の家でもあり、あなたから少し離れています。uは同じ職場を持っているので、おそらく同じ軌跡をたどります。軌道の上に構築された分類子のようなもの。軌跡でアクティビティ検出を実行できます。また、送信元宛先分析も実行できます。


2
SPSSの多重回帰に関する複数の代入の質問
現在、帰属データを使用して重回帰モデルを実行していますが、いくつか質問があります。 バックグラウンド: SPSS 18の使用。私のデータはMARのようです。ケースのリストごとの削除では、92ケースのみが残り、複数の代入は分析のために153ケースを残します。すべての仮定が満たされました-1つの変数ログが変換されました。9 IVのカテゴリ5〜5、3スケール、1間隔。DVスケール。標準の重回帰のEnterメソッドを使用します。 私のDVは、事前スコアと事後スコアメジャー間のスコアの差です。これらの変数の両方に多くのケースがありません-これらのそれぞれに欠損値を代入してから、それらの違いを計算して私のDVを計算します(これを行うにはどうすればよいですか)、またはDVのデータを代入するだけですか?最も適切なアプローチはどれですか? 変換されたデータまたは変換されていない変換されたデータに対して補完を実行する必要がありますか? データが欠落していない場合でも、すべての変数を代入プロセスに入力する必要がありますか、それとも10%以上のケースで欠落している変数のデータを代入する必要がありますか? リストワイズで削除されたケースとDVの分散がほとんどないIVのアカウントで回帰を実行しました。その後、複数の代入を行った後、完全なファイルで回帰を実行しました-結果は非常に似ていますが、9つのIVはまだ私のDVの分散の約12%のみを予測しますが、私のIVの1つは、それが重要な貢献をしていることを示しています(これはたまたまログ変換された変数です)... 結論にほとんど違いがない場合、つまり、IVがdvを十分に予測できない場合、または完全なデータを報告する場合、元のデータを報告する必要がありますか?

4
定常系列の絶対値も定常ですか?
(弱い)定常過程から生じる時系列の線形変換も定常であることを知っています。しかし、これは各要素の絶対値を取ることによる系列の変換にも当てはまりますか?つまり、が静止している場合、静止していますか?{xi,i∈N}{xi,i∈N}\{x_i,i\in\mathbb{N}\}{|xi|,i∈N}{|xi|,i∈N}\{|x_i|,i\in\mathbb{N}\}

2
ガウス分布による四分位変換-Sklearnの実装
これは漠然とした質問かもしれませんが、Scikit-Learnの分位変換はどのように実装されているのでしょうか。 歪んだデータセットをこのような正規分布に変換するにはどうすればよいのでしょうか。 通常、scikit-learnはwikiへのリンクを提供しますが、この変換は提供しません。 誰かが私を正しい方向に向けることができますか? ありがとう

3
SVDを実行して欠損値を代入する方法、具体例
SVDを適用する前に欠損値を処理する方法に関する素晴らしいコメントを読みましたが、簡単な例でどのように機能するか知りたいです。 Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 上記のマトリックスを考えると、NAの値を削除すると、User2とUser5しかなくなります。これは、私のUが2×kになることを意味します。しかし、欠損値を予測する場合、Uは5×kである必要があります。これは、特異値とVで乗算できます。 上記のマトリックスで、最初に欠損値のあるユーザーを削除してからSVDを適用して、欠損値を記入する人はいますか?数学記号を使いすぎずに、適用した手順の非常に簡単な説明を提供し、答えを実用的なものにしてください(つまり、数値に別の数値を掛けると答えが得られます)。 次のリンクを読みました。 stats.stackexchange.com/q/33142 stats.stackexchange.com/q/31096 stats.stackexchange.com/q/33103
8 r  missing-data  data-imputation  svd  sampling  matlab  mcmc  importance-sampling  predictive-models  prediction  algorithms  graphical-model  graph-theory  r  regression  regression-coefficients  r-squared  r  regression  modeling  confounding  residuals  fitting  glmm  zero-inflation  overdispersion  optimization  curve-fitting  regression  time-series  order-statistics  bayesian  prior  uninformative-prior  probability  discrete-data  kolmogorov-smirnov  r  data-visualization  histogram  dimensionality-reduction  classification  clustering  accuracy  semi-supervised  labeling  state-space-models  t-test  biostatistics  paired-comparisons  paired-data  bioinformatics  regression  logistic  multiple-regression  mixed-model  random-effects-model  neural-networks  error-propagation  numerical-integration  time-series  missing-data  data-imputation  probability  self-study  combinatorics  survival  cox-model  statistical-significance  wilcoxon-mann-whitney  hypothesis-testing  distributions  normal-distribution  variance  t-distribution  probability  simulation  random-walk  diffusion  hypothesis-testing  z-test  hypothesis-testing  data-transformation  lognormal  r  regression  agreement-statistics  classification  svm  mixed-model  non-independent  observational-study  goodness-of-fit  residuals  confirmatory-factor  neural-networks  deep-learning 

3
分布を見つけて正規分布に変換する
1時間にイベントが発生する頻度(「1時間あたりの数」、nph)とイベントが持続する時間(「1秒あたりの秒数」、dph)を説明するデータがあります。 これは元のデータです: nph <- c(2.50000000003638, 3.78947368414551, 1.51456310682008, 5.84686774940732, 4.58823529414907, 5.59999999993481, 5.06666666666667, 11.6470588233699, 1.99999999998209, NA, 4.46153846149851, 18, 1.05882352939726, 9.21739130425452, 27.8399999994814, 15.3750000002237, NA, 6.00000000004109, 9.71428571436649, 12.4848484848485, 16.5034965037115, 20.6666666666667, 3.49999999997453, 4.65882352938624, 4.74999999996544, 3.99999999994522, 2.8, 14.2285714286188, 11.0000000000915, NA, 2.66666666666667, 3.76470588230138, 4.70588235287673, 13.2727272728677, 2.0000000000137, 18.4444444444444, 17.5555555555556, 14.2222222222222, 2.00000000001663, 4, 8.46153846146269, 19.2000000001788, 13.9024390245481, 13, 3.00000000004366, NA, …
8 normal-distribution  data-transformation  logistic  generalized-linear-model  ridge-regression  t-test  wilcoxon-signed-rank  paired-data  naive-bayes  distributions  logistic  goodness-of-fit  time-series  eviews  ecm  panel-data  reliability  psychometrics  validity  cronbachs-alpha  self-study  random-variable  expected-value  median  regression  self-study  multiple-regression  linear-model  forecasting  prediction-interval  normal-distribution  excel  bayesian  multivariate-analysis  modeling  predictive-models  canonical-correlation  rbm  time-series  machine-learning  neural-networks  fishers-exact  factorisation-theorem  svm  prediction  linear  reinforcement-learning  cdf  probability-inequalities  ecdf  time-series  kalman-filter  state-space-models  dynamic-regression  index-decomposition  sampling  stratification  cluster-sample  survey-sampling  distributions  maximum-likelihood  gamma-distribution 

2
カイ二乗から正規分布への変換
標準正規分布とカイ2乗分布の関係はよく知られています。でも、 から標準正規分布に戻る変換はあるのでしょうか。χ2(1)χ2(1)\chi^2 (1) その範囲は正の数値のみであるため、平方根変換が機能しないことが簡単にわかります。結果の分布は、折りたたまれた正規分布と呼ばれていると思います。ここで機能する巧妙なトリックはありますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.