タグ付けされた質問 「data-transformation」

データ値の数学的再表現、多くの場合非線形。多くの場合、データは、統計モデルの仮定を満たすため、または分析の結果をより解釈可能にするために変換されます。

2
を予測子の前に変換する必要があるのはなぜですか?
これらのスレッドの両方の回答、1および2人のという主張、形質転換されなければならない前に、予測因子に他の変換を適用します。実際、変換に関するWeisbergの章は、予測子よりもDVに重点を置いており、RカーパッケージpowerTransform()のマニュアルページも同様です。YYY ただし、DV分布の正規性は、BLUE係数を推定するためのOLSの要件ではなく、残差が厳密に正規分布していない場合でも、OLSは依然として妥当な推定量です。 では、なぜ変換に重点を置いているのでしょうか。を変換しない方が実際には望ましいと思う理由はいくつかあります。1つ目はIVの関係を読みにくくし、2つ目は予測で、推定値から元のスケールに逆変換する必要があります。何をしているのかによって、これが問題になる場合があります。Y YYYYYYYYYY

2
次元削減のための自己組織化マップの使用
過去数日間、私は学校でのプロジェクトの自己組織化マップについていくつかの研究を行ってきました。自己組織化マップを使用してデータの次元を削減できることを理解しました。しかし、私はこれがどのように機能するのか理解していません。たとえば、SOMにニューロンの10x10ネットワークがあり、入力が25次元であるとします。したがって、私の理解では、25Dである各ニューロンの特徴ベクトルを作成します。トレーニングが完了するまでに、100個の25Dベクトルが作成されます。これはどのようにしてデータの次元を正確に削減するのですか?ニューロンの位置に関心があるはずですか? 編集:私はすでに自己組織化マップを使用した次元削減の質問を読みましたが、それが私が持っている質問に答えるとは感じません。

3
分類入力のシリーズ次元削減
私は、結果変数がバイナリで入力が時系列である予測モデルを構築しようとしています。より具体的にするために、モデルは、過去60日間に会社で費やした金額に基づいて、顧客が解約するかどうか(会社を去る、1または0としてコード化)を予測します。したがって、データは行ごとに1人の顧客であり、列は結果因子(1または0)であり、時間t-1、t-2 .... t-60で費やされた金額の60の追加列です。 ここにいくつかのサンプルデータがあります: #create the data a series of length 60 and a class ID sc <- read.table("http://kdd.ics.uci.edu/databases/synthetic_control/synthetic_control.data", header=F, sep="") #binary class lable classId <- as.factor(c(rep(0,300), rep(1,300))) newSc <- data.frame(cbind(classId, sc)) newSc$ID<-seq(1,600,1) 実際のモデルには、顧客ごとにこれらのシリーズの多くがある可能性があるため、シリーズのデータ​​の次元を減らす必要があります。たとえば、60の値を使用する代わりに、これを一握りに減らす必要があります。もちろん、系列の平均値、最小値、最大値などを使用できますが、離散フーリエ変換の使用について読んでいます。 質問: RのDFFTは私の目的に使用する適切な方法ですか?それがどのように機能するかについてのあらゆる情報がいただければ幸いです。 このR関数が正しいと仮定して、次元削減を実現するために最も意味のある係数だけをどのように抽出しますか? 追加:次元削減にDFFTを使用することは賢明な選択ではないというコンセンサスがあるようですが、データマイニングでは、この関数、DWTおよびSVDがすべて一般的に使用されているようです: 20ページから始まる時系列マイニング。

2
視覚化で色とデータ値の適切な関連付けを見つける方法は?
洪水シミュレーション用のビジュアライザーを作成するソフトウェアプロジェクトに取り組んでいます。このプロジェクトの一環として、特定のポイントで水深を示す水勾配を作成しました。どの値がどの色を表すかを設定するために、データを調べて、発生する最小値と最大値を取得し、そのスケールに従って色を均等に配分します。 ただし、これらのシミュレーションには、シミュレーションの他のどの場所よりも水深が大幅に深い場合があります。これにより、マップ上のほとんどのポイントの色が非常に似たものになります。これはあまり有益ではなく、水がより深い領域を非常に見えにくくします。 私の目標は、より多くの色をより頻繁に発生する深度に捧げることです。たとえば、深度が0〜12であるが、ほとんどの深度が1〜2の場合、11〜12または4〜5の場合よりも、その範囲内でより多くの色の変化が発生するようにします。標準偏差またはこれを行うには正規分布が必要ですが、これらがどのように機能し、どのように使用して目標を達成できるかについては、少し曖昧です。 提供することができるどんな助けでもありがたいです。ありがとうございました。

2
Rの2因子反復測定ANOVA後の事後検定?
Rで2因子(両方とも被験者内)のANOVAを繰り返し測定した後、事後テスト(Tukey HSD)を実行する方法に関する解決策を見つけるのに問題があります。ANOVAには、aov -functionを使用しました。 summary(aov(dv ~ x1 * x2 + Error(subject/(x1*x2)), data=df1)) 他の質問への回答を読んだ後、他の機能(lmeなど)を使用してANOVAを再実行する必要があることを知りました。これが私が思いついたものです。 Lme.mod <- lme(dv ~ x1*x2, random=list(subject=pdBlocked(list(~1, pdIdent(~x1-1), pdIdent(~x2-1)))), data=df1) anova(Lme.mod) 主な効果はどちらも有意でしたが、相互作用の効果はありませんでした。次に、これらの関数を事後比較に使用しました。 summary(glht(Lme.mod, linfct=mcp(x1="Tukey"))) summary(glht(Lme.mod, linfct=mcp(x2="Tukey"))) しかし、いくつかの問題がありました: まず、Rヘルプファイルには、「双方向ANOVAまたはANCOVAモデル(...)multcompバージョン1.0-0以降で対象のパラメーターを定義する場合、mcp関数は注意して使用する必要があります。主な効果の比較が生成されます。のみ、共変量と交互作用を無視します(古いバージョンは交互作用項で自動的に平均化されました)警告が表示されます。そして確かに、私は次の警告メッセージを受け取りました: Warning message: In mcp2matrix(model, linfct = linfct) : covariate interactions found -- default contrast might be inappropriate もう1つの不可解な点は、両方の主要な効果は有意でしたが、要因の1つ(x1)の事後比較に有意差はなかったということです。これに出会ったことはありません。スクリプト/分析は正しい/適切ですか、それとも欠けているものはありますか?どんな助けでも大歓迎です!

2
時系列データをどのように変換すれば、故障予測に簡単な手法を使用できますか?
これは主に統計サイトであることを知っているので、トピックから外れている場合はリダイレクトしてください。 ポンプが故障して交換が必要になるシステムがあります。故障を予測して、ポンプを交換する人に早期に警​​告したい。流量、圧力、液体の高さなど、ポンププロセスの履歴データがあります。 私は機械学習技術を使用してデータを分類する経験が少ししかありません-基本的に、コースラでのAndrew Ngの機械学習コースとAndrew ConwayのStatistics Oneの演習を行い、実行しました-私は機械学習を使用したことがありません時系列を分類します。既存の知識を活用できるように問題を変革する方法を考えています。知識が限られているため、最適な予測は得られませんが、これから学びたいと思っています。この問題では、障害が発生するのを待つだけでなく、予測を少し改善するだけでも役に立ちます。 私が提案するアプローチは、時系列を通常の分類問題に変えることです。入力は、ウィンドウ内の各タイプのデータの平均値、標準偏差、最大値などを含む、時系列ウィンドウの要約になります。出力については、何が最適かわかりません。1つのアプローチは、出力がウィンドウの終わりから特定の期間内にポンプが故障したかどうかのバイナリ分類になるというものです。もう1つは、出力がポンプが故障するまでの残り時間であるため、分類ではなく、回帰(機械学習の意味)です。 このアプローチは結果を生む可能性が高いと思いますか?それは「ドメインと履歴データに依存する」という問題ですか。私が考慮していない(入力と出力の両方の)より優れた変換はありますか、または時系列データに基づく障害予測は、より標準的な障害予測とは異なり、時系列で機械学習を読むことに時間を費やすのに適していますか? ?

3
SPSSを使用した2x3混合設計ANOVAの事後テスト?
実験中に3回評価された10人の参加者の2つのグループがあります。グループ間および3つの評価全体の違いをテストするために、group(コントロール、実験)、time(最初、2、3)、およびを使用して2x3混合設計ANOVAを実行しましたgroup x time。両方timeとgroup有意な相互作用があったほか、重大な結果group x time。 グループメンバーシップに関しても、3回の評価の違いをさらにチェックする方法をよく知りません。実際、最初は、ANOVAのオプションで、ボンフェローニの補正を使用してすべての主要な効果を比較することだけを指定しました。しかし、この方法で、グループを区別せずに、サンプル全体の時間の違いをこのように比較したことに気付きましたね。 したがって、可能な解決策を見つけるためにインターネットでたくさん検索しましたが、結果はほとんどありませんでした。私と同じようなケースは2つしか見つかりませんでしたが、解決策は逆です! 記事では、混合設計の後、著者らは被験者ごとに1つずつ、2回の反復測定ANOVAを事後的に実行しました。このようにして、2つのグループは修正なしで個別に分析されます。 インターネットのガイドでは、混合ANOVAの実行中に、SPSS構文のCOMPARE(time) ADJ(BONFERRONI)直後にを手動で追加すると述べています/EMMEANS=TABLES(newgroup*time)。このように、3つの時間はグループごとに個別に比較されます。ボンフェローニ補正を使用すると、私は正しいのでしょうか。 どう思いますか?どちらが正しい方法でしょうか?
8 anova  mixed-model  spss  post-hoc  bonferroni  time-series  unevenly-spaced-time-series  classification  normal-distribution  discriminant-analysis  probability  normal-distribution  estimation  sampling  classification  svm  terminology  pivot-table  random-generation  self-study  estimation  sampling  estimation  categorical-data  maximum-likelihood  excel  least-squares  instrumental-variables  2sls  total-least-squares  correlation  self-study  variance  unbiased-estimator  bayesian  mixed-model  ancova  statistical-significance  references  p-value  fishers-exact  probability  monte-carlo  particle-filter  logistic  predictive-models  modeling  interaction  survey  hypothesis-testing  multiple-regression  regression  variance  data-transformation  residuals  minitab  r  time-series  forecasting  arima  garch  correlation  estimation  least-squares  bias  pca  predictive-models  genetics  sem  partial-least-squares  nonparametric  ordinal-data  wilcoxon-mann-whitney  bonferroni  wilcoxon-signed-rank  traminer  regression  econometrics  standard-error  robust  misspecification  r  probability  logistic  generalized-linear-model  r-squared  effect-size  gee  ordered-logit  bayesian  classification  svm  kernel-trick  nonlinear  bayesian  pca  dimensionality-reduction  eigenvalues  probability  distributions  mathematical-statistics  estimation  nonparametric  kernel-smoothing  expected-value  filter  mse  time-series  correlation  data-visualization  clustering  estimation  predictive-models  recommender-system  sparse  hypothesis-testing  data-transformation  parametric  probability  summations  correlation  pearson-r  spearman-rho  bayesian  replicability  dimensionality-reduction  discriminant-analysis  outliers  weka 

1
個々のデータセットでボックスコックス変換を使用すると、これらのデータを比較できなくなりますか?
ソフトウェア作成者が推奨するように、ボックスコックス変換を使用してデータを正規化し、生態学的ニッチ因子分析ソフトウェアに入力しました。 しかし、ボックスコックス変換メソッドが(明らかに!)変換ごとに異なるラムダ値を選択していることに気付きました。たとえば、4つのサンプル日付の個々の場所に対する因子A、B、およびCの影響を比較したいとします。各因子は個別にボックスコックス化されています(他の因子および他の日付とは別に)。これは、各変換に異なるラムダ値を選択しているため、各因子分析の結果が比較できない(そして、ANOVAなどによる変換データの単純な比較ができない)ことを意味しますか?

3
変換後もまだ正常ではないデータで分散分析を行う方法は?
私は、3つの異なる時点での敗北と挟み込みの主観的な評価に、敗北と挟み込みを誘発する状態が及ぼす影響を調べています。 ただし、主観的な評価は通常は分散されません。私はいくつかの変換を行いましたが、平方根変換が最もうまく機能しているようです。ただし、正規化されていないデータの側面がまだいくつかあります。この非正規性は、最高の敗北と捕獲の評価があると予想した時点で、高捕獲高敗北条件の負の歪度として現れます。その結果、このスキューは実験的な操作によるものであると主張することができると思います。 操作を考慮して、正規性の欠如にもかかわらず、このデータに対して分散分析を実行することは許容されますか?それともノンパラメトリック検定がより適切でしょうか?もしそうなら、4x3混合ANOVAの非パラメトリックな同等物はありますか?


1
Silver&Dunlap 1987の複製がうまくいかないのはなぜですか?
Silver&Dunlap(1987)を複製しようとしています。私は単に平均相関を比較している、または平均z変換相関と逆変換を比較しています。彼らが見つけたバイアスの非対称性を再現していないようです(逆変換されたzはrsよりも母集団の値に近くありません)。何かご意見は?1987年のコンピューティング能力が十分に空間を探索しなかった可能性はありますか? # Fisher's r2z fr2z <- atanh # and back fz2r <- tanh # a function that generates a matrix of two correlated variables rcor <- function(n, m1, m2, var1, var2, corr12){ require(MASS) Sigma <- c(var1, sqrt(var1*var2)*corr12, sqrt(var1*var2)*corr12, var2) Sigma <- matrix(Sigma, 2, 2) return( mvrnorm(n, c(m1,m2), Sigma, empirical=FALSE) ) …

3
生態学者はアークサインがアシニンであることを知らなかった唯一の人ですか?
割合、比率、および割合のデータは、生態学で非常に一般的です(たとえば、受粉した花の%、男性:女性の性比、処理に対する死亡率%、草食動物が食べた葉の%)。最近、一部の応用統計学者が「エコロジー」というタイトルのジャーナルエコロジーで記事を発表しました。「アークサインは異常です:エコロジーにおける比率の分析」。彼らは、Zarの "Biostatistical Analysis"やSokalやRohlfの "Biometry"(両方とも第3版または第4版)のような長期実行テキストによってアークサイン変換が促進されたが、この手法は一般化線形モデルとより優れたコンピューティングによって時代遅れになっていると指摘しました。 : アークサイン平方根変換は、生態学の比例データを分析するときの標準的な手順であり、2項および非2項の応答変数を含むデータセットに適用されます。ここでは、どちらの状況でもアークサイン変換を使用しないでください。二項データの場合、ロジスティック回帰は、変換されたデータの分析よりも解釈可能性が高く、検出力が高くなります。[...]非二項データの場合、アークサイン変換は、解釈可能性の理由から、および無意味な予測を生成する可能性があるため、望ましくありません。ロジット変換は、これらの問題に対処するための代替アプローチとして提案されています。 他の分野(精神?医学?)でどのくらい一般的な比率データがあるのか​​と思っていました。アークサインはまだ他の分野で一般的に使用されているのですか、それとも生態学者はこの(または他の)時代遅れの、または最適な手法よりも使用が例外的ですか?より高度な技術を使用する必要性を強調する他の分野の論文はありますか?

2
循環共変量(GAMなど)を処理する方法は何ですか?
私は、いくつかの共変量が「円」上にあるモデルを構築しています。これは、それらが[0,1)の間隔で値をとり、0 = 1であるという意味です。私はこの状況に対処するためのテクニックについて疑問に思っています。1つのアイデアは、循環変数thetaを変数のペア(sin(theta)、cos(theta))として表すことです。このアプローチまたはより良いアプローチについて何か考えはありますか? 特にmgcvパッケージのGAMを使用しています。特定の加法破片が端点で同じ値を持つ必要があることをモデルに伝える方法はありますか?別のパッケージ? ありがとう!

2
R:対数スケールでの箱ひげ図対対数変換*次に*箱ひげ図の作成:同じ結果が得られない
boxplot()R の関数にlog =は、軸を対数スケールにするかどうかを指定する引数があります。 私にとって、このオプションを選択した場合(log = "y"引数として指定)、箱ひげ図の形状は、最初にログで手動でデータを変換し、次にそのログ変換されたデータをプロットした場合と同じように見えるはずです(ラベルを認識します)軸上では異なりますが、プロットの形状を参照しています)。ただし、これは当てはまりません。 簡単な例を以下に示します。 set.seed(923489) data <- rlnorm(300, meanlog = 0, sdlog = 1) boxplot(data) # Highly skewed right raw data boxplot(data, log="y") # Data on log scale; less right-skewed boxplot(log10(data)) # Log base 10-transform data; shape not the same as when specify log="y" boxplot(log(data)) # Natural …

1
Box-Cox変換はどのように有効ですか?
Box-Cox変換は、データを正規分布に変換します。 それは適切なテクニックでさえどうですか?データが正規分布からのものでない場合はどうなりますか?誰かがBox-Cox変換を盲目的に適用するにはどうすればよいですか? 言い換えると、データが正常に分布していないのに、なぜBox-Cox変換を適用するのでしょうか。 Box-Cox変換は、データを正規に分散する必要があるときに使用されますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.