タグ付けされた質問 「data-transformation」

データ値の数学的再表現、多くの場合非線形。多くの場合、データは、統計モデルの仮定を満たすため、または分析の結果をより解釈可能にするために変換されます。

4
カテゴリデータを要約する方法は?
私は次の問題に苦労してきましたが、できれば統計学者にとっては簡単なことです(私は統計にある程度触れているプログラマーです)。 調査への回答を要約する必要があります(管理者向け)。調査には、さまざまなエリアにグループ化された100以上の質問があります(エリアごとに約5〜10の質問があります)。すべての回答はカテゴリーです(通常の尺度では、「まったくない」、「まれに」、「毎日またはより頻繁に」のようなものです)。 経営陣は各分野の概要を入手したいと思っていますが、これが私の問題です。関連する質問内でカテゴリ別の回答を集計する方法は?。質問は多すぎて、グラフを作成したり、各エリアの格子プロットを作成したりすることはできません。たとえば、数字のあるテーブルと比較して、可能な場合は視覚的なアプローチを好みます(alas、それらは読みません)。 私が思いつくことができる唯一のことは、各領域の答えの数を数えて、ヒストグラムをプロットすることです。 カテゴリデータに利用できるものは他にありますか? 私はRを使用していますが、それが関連するかどうかはわかりませんが、これはより一般的な統計の質問だと感じています。

5
異なる長さの時系列のSVD次元削減
次元削減手法として特異値分解を使用しています。 N次元のベクトルが与えられた場合D、アイデアは、相関のない次元の変換された空間で特徴を表現することです。これは、この空間の固有ベクトルのデータの情報のほとんどを重要度の高い順に凝縮します。 今、私はこの手順を時系列データに適用しようとしています。問題は、すべてのシーケンスの長さが同じではないことです。したがって、実際にnum-by-dimマトリックスを作成してSVDを適用することはできません。最初に考えたのは、行列を作成しnum-by-maxDimて空のスペースをゼロで埋めることにより、行列にゼロを埋め込むことでしたが、それが正しい方法であるかどうかはわかりません。 私の質問は、異なる長さの時系列への次元削減のSVDアプローチをどのように行いますか?あるいは、時系列で通常使用される固有空間表現の他の同様の方法はありますか? 以下は、アイデアを説明するためのMATLABコードです。 X = randn(100,4); % data matrix of size N-by-dim X0 = bsxfun(@minus, X, mean(X)); % standarize [U S V] = svd(X0,0); % SVD variances = diag(S).^2 / (size(X,1)-1); % variances along eigenvectors KEEP = 2; % number of dimensions to keep newX = U(:,1:KEEP)*S(1:KEEP,1:KEEP); % …

1
エントロピーは場所と規模にどのように依存しますか?
密度関数連続分布のエントロピーは、期待値の負になるように定義されているため、等しいffflog(f),log⁡(f),\log(f), Hf=−∫∞−∞log(f(x))f(x)dx.Hf=−∫−∞∞log⁡(f(x))f(x)dx.H_f = -\int_{-\infty}^{\infty} \log(f(x)) f(x)\mathrm{d}x. また、分布が密度ランダム変数はエントロピーがあると言います (この積分は、がゼロの場合でも明確に定義され。なぜなら、はそのような値でゼロに等しくなることができるからです。)XXXfffHf.Hf.H_f.ffflog(f(x))f(x)log⁡(f(x))f(x)\log(f(x))f(x) 場合及びランダム変数である(一定である)、のバージョンであると言われているだけシフト 同様に、(は正の定数)の場合、Yは\ sigmaでスケーリングされたXのバージョンと言われます。スケールとシフトを組み合わせると、Y = X \ sigma + \ muになります。XXXYYYY=X+μY=X+μY = X+\muμμ\muYYYXXX μ.μ.\mu.Y=XσY=XσY = X\sigmaσσ\sigmaYYYXXX σ.σ.\sigma.Y=Xσ+μ.Y=Xσ+μ.Y=X\sigma + \mu. これらの関係は頻繁に発生します。たとえば、XXXの測定単位を変更すると、Xがシフトおよびスケーリングされます。 Y=Xσ+μY=Xσ+μY = X\sigma + \muのエントロピーはXのエントロピーとどのように関連していX?X?X?

4
応答変数が年間イベント(通常)が発生する年の日である回帰モデル
この特定のケースでは、湖が凍る日を指しています。この「アイスオン」の日付は年に1回だけ発生しますが、まったく発生しない場合もあります(冬が暖かい場合)。そのため、1年で湖は20日目(1月20日)に凍結する可能性があり、もう1年でまったく凍結しない可能性があります。 目標は、着氷日のドライバーを把握することです。 予測因子は、毎年秋/冬の気温などです。年は、長期的な線形トレンドの予測因子になる可能性があります。 1)整数の「年の日」は妥当な応答変数ですか(そうでない場合は何ですか?)? 2)湖が凍らない年をどう扱うべきか? 編集: ここにエチケットが何であるかはわかりませんが、受け取った提案の結果を投稿すると思いました。こちらが論文、オープンアクセスです。@pedrofigueiraと@cboettigに感謝します。もちろん、エラーは私自身のものです。

2
視覚化はデータを変換するための十分な根拠ですか?
問題 30のパラメーターのそれぞれによって説明される分散を、たとえばパラメーターごとに異なるバーを持つバープロットとして、y軸に分散をプロットしたいと思います。 ただし、以下のヒストグラムに見られるように、分散は0を含む小さな値に向かって大きく偏っています。 で変換すると、小さな値(以下のヒストグラムとバープロット)の違いが見やすくなります。log(x+1)log⁡(x+1)\log(x+1) 質問 log(x + 1 )log⁡(バツ+1)\log(x+1)

1
ある
私の同僚は、応答変数を1のべき乗に変換してから、いくつかのデータを分析したいと考えています。(つまりy0.1251818\frac18y0.125y0.125y^{0.125})。 私はこれに不快感を覚えていますが、その理由を説明するのに苦労しています。この変換の機構的な理由は考えられません。これまでに見たこともないし、タイプIのエラー率などを膨らませるのではないかと心配していますが、これらの懸念をサポートするものは何もありません! さらに、私の同僚は、これらの変換されたモデルが、AIC比較で変換されていないモデルよりも優れていることを発見しました。これは、それ自体でその使用を正当化しますか?

1
比率が独立変数である場合、比率を変換する最も適切な方法は何ですか?
私はこの問題を理解したと思っていましたが、今は確信が持てず、先に進む前に他の人に確認したいと思います。 私には2つの変数がXありYます。Yは比率であり、0と1に制限されず、通常正規分布します。Xは割合であり、0と1で区切られます(0.0から0.6まで実行されます)。の線形回帰を実行するY ~ Xと、それが判明しX、Y大幅に線形に関連しています。ここまでは順調ですね。 しかし、その後、さらに調査し、多分Xand Yの関係は線形より曲線的であると考え始めます。私には、それは関係のように見えるXとYに近いかもしれないY ~ log(X)、Y ~ sqrt(X)またはY ~ X + X^2、またはそのような何か。関係が曲線的であると仮定する経験的理由がありますが、ある非線形関係が他より優れていると仮定する理由はありません。 ここから関連する質問がいくつかあります。最初に、X変数は4つの値(0、0.2、0.4、および0.6)を取ります。これらのデータを対数変換または平方根変換すると、これらの値の間隔がゆがんで、0の値が他のすべての値からはるかに離れます。より良い質問方法がないため、これは私が望むものですか?そうではないと思います。なぜなら、私が受け入れる歪みのレベルに応じて非常に異なる結果が得られるからです。これが私が望むものではない場合、どうすればそれを避けるべきですか? 第二に、これらのデータを対数変換Xするには、0の対数を取ることができないため、各値にいくらかの量を追加する必要があります。より多く、たとえば1を追加しても、歪みはほとんどありません。X変数に追加する「正しい」量はありますか?または、代替の変換(キューブルートなど)またはモデル(ロジスティック回帰など)を選択する代わりに、変数に何かを追加することは不適切Xですか? この問題に関して私が見つけられたことはほとんどないので、慎重に踏み込む必要があると感じています。仲間のRユーザーの場合、このコードは、私のものと同様の構造を持つデータを作成します。 X = rep(c(0, 0.2,0.4,0.6), each = 20) Y1 = runif(20, 6, 10) Y2 = runif(20, 6, 9.5) Y3 = runif(20, 6, 9) Y4 = runif(20, 6, 8.5) Y = c(Y4, Y3, Y2, Y1) …

4
問題が線形回帰に適しているという手がかり
Montgomery、Peck、およびViningによる「Introduction to Linear Regression Analysis」を使用して線形回帰を学習しています。データ分析プロジェクトを選択したいと思います。 線形回帰は、説明変数と応答変数の間に線形の関数関係があると疑われる場合にのみ適していると単純に考えています。しかし、実際のアプリケーションの多くは、この基準を満たしているとは思えません。しかし、線形回帰は非常に一般的です。 経験豊富な統計学者は、プロジェクトのどの側面を考慮して、自分の立場にあるかを考え、線形回帰に適した質問とデータを探します。

2
正規分布のXとYは、正規分布の残差になる可能性が高いですか?
ここでは、線形回帰における正規性の仮定の誤解について説明し(「正規性」は残差ではなくXおよび/またはYを参照する)、ポスターは非正規分布のXおよびYを持つことが可能かどうかを尋ねますまだ正規分布の残差があります。 私の質問は、正規分布のXとY は正規分布の残差をもたらす可能性が高いですか?多くの関連する投稿がありましたが、この質問を具体的に尋ねられた人は誰もいないと思います。 回帰が1つしかない場合、これはおそらく些細な点ですが、複数のテストがある場合はそれほど重要ではないことを理解しています。だから、100個のX変数があり、それらはすべて同じスキューを持っているので、すべてをテストしたいとします。それらをすべて正規分布に変換した場合、非正規分布の残差のために再検査が必要なX変数が少なくなります(異なる/変換なし)か、または回帰前の変換は完全に任意ですか?

3
レプトクルティック分布を正規性に変換する方法は?
正常に変換したいレプトクルティック変数があるとします。このタスクを達成できる変換は何ですか?データを変換することが常に望ましいとは限らないことをよく知っていますが、学術的な追求として、データを正常に「ハンマー」したいとします。さらに、プロットからわかるように、すべての値は厳密に正です。 さまざまな変換を試しました(これまでに使用したものはほとんどすべて、など)、しかし、どれも特にうまく機能しません。レプトクルティック分布をより正規にするためのよく知られた変換はありますか?1バツ、X−−√、asinh (X)1バツ、バツ、アシン(バツ)\frac 1 X,\sqrt X,\text{asinh}(X) 以下の標準QQプロットの例を参照してください。

1
隠れマルコフモデルで「最適な」モデルを選択するための基準
データの潜在状態の数を推定するために、隠れマルコフモデル(HMM)を近似しようとする時系列データセットがあります。これを行うための私の擬似コードは次のとおりです。 for( i in 2 : max_number_of_states ){ ... calculate HMM with i states ... optimal_number_of_states = "model with smallest BIC" ... } さて、通常の回帰モデルでは、BICは最もpar約的なモデルを好む傾向がありますが、HMMの場合、それが何をしているのかわかりません。BIC基準がどのようなHMMの傾向があるのか​​を実際に知っている人はいますか?また、AICと尤度値も取得できます。州の真の総数を推測しようとしているので、これらの基準の1つは、この目的のために他の基準よりも「優れている」のでしょうか。


1
ログに記録された変数を使用する理由
おそらく、これは非常に基本的な質問ですが、それに対する確固たる答えを見つけることができないようです。ここでできることを願っています。 現在、自分の修士論文の準備として論文を読んでいます。現在、ツイートと株式市場の特徴との関係を調査した論文を読んでいます。 彼らの仮説の1つでは、彼らは「ツイート量の増加は取引量の増加に関連している」と提案しています。 私は相関して、ペアワイズ相関で、それらを期待tweetVolumeしてtradingVolume、その代わりに、彼らはログに記録されたバージョンを使用してレポート:LN(tweetVolume)とLN(tradingVolume)。 私の論文のために、私は彼らの論文のこの部分を複製しました。6か月以上にわたって100社ほどのツイート(tweetVolume)と同じ期間の株式取引量を収集しました。絶対変数を相関させると見つけられますr=.282, p.000が、ログに記録されたバージョンを使用すると、が見つかりますr=.488, p=.000。 私は理解していない理由は、研究者が時々使用がその変数のバージョンをログに記録し、相関はそれほど高く、あなたがそうするならば、なぜそうです。ここでの理由は何ですか?また、ログに記録された変数を使用するのはなぜですか? あなたの助けは大歓迎です:-)

2
一部の時点で応答が大幅に歪んでおり、一部の時点で反復測定研究が行われていない場合はどうすればよいですか?
通常、縦断的デザインで連続的ではあるが歪んだ結果測定値に遭遇すると(たとえば、被験者間効果が1つ)、一般的なアプローチは結果を正常性に変換することです。切り捨てられた観測値など、状況が極端な場合は、空想を得てTobit成長曲線モデルなどを使用する可能性があります。 しかし、特定の時点で通常分布し、その後他の時点で大きく歪んだ結果を見ると、私は途方に暮れています。変換は、あるリークを埋めるが、別のリークを引き起こす可能性があります。そのような場合、何を提案できますか?私が知らない混合効果モデルの「ノンパラメトリック」バージョンはありますか? 注:適用例は、一連の教育的介入の前後の知識テストのスコアです。スコアは正常に始まりますが、その後、スケールの上限でクラスター化します。

2
バートレット検定とリーベン検定
私は現在、分散分析の仮定に対する違反に対処しようとしています。私はShapiro-Wilkを使用して正規性をテストし、Leveneの検定とBartlettの分散の等価性の検定の両方を試してみました。それ以来、不平等な分散を試みて修正するためにデータをログ変換しました。対数変換されたデータに対してバートレットのテストを再実行しましたが、依然として有意なp値を受け取りました。好奇心から、レベンのテストも実行し、有意ではないp値を得ました。どのテストに頼ればよいですか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.