タグ付けされた質問 「data-transformation」

データ値の数学的再表現、多くの場合非線形。多くの場合、データは、統計モデルの仮定を満たすため、または分析の結果をより解釈可能にするために変換されます。


2
ランク相関を使用した正準相関分析
正準相関分析(CCA)は、2つのデータセットの線形結合の通常のピアソンの積率相関(すなわち線形相関係数)を最大化することを目的としています。 これは、我々はまた、例えば、Spearman-使用する理由は非常に理由である-今、組合の直線のみの措置この相関係数があるという事実を検討またはKendall- τの間の任意のモノトーンを測定する(ランク)相関係数(必ずしも直線的ではない)の接続を変数。ρρ\rhoττ\tau したがって、私は次のことを考えていました:CCAの1つの制限は、目的関数のために、形成された線形の組み合わせ間の線形の関連付けをキャプチャしようとすることです。それが最大化することによって、ある意味でCCAを拡張することが可能ではないでしょう、Spearman-は、言う代わりPearson-ののR?ρρ\rhorrr そのような手順は、統計的に解釈可能で意味のあるものにつながりますか?(たとえば、ランクでCCAを実行することは理にかなっていますか?)非正常なデータを処理するときに役立つかどうか疑問に思っています...


3
CDFは力を上げましたか?
FZFZF_ZがCDFの場合、()もCDFのように見えます。 α > 0FZ(z)αFZ(z)αF_Z(z)^\alphaα>0α>0\alpha \gt 0 Q:これは標準的な結果ですか? Q:関数を見つけるための良い方法があると ST、X ≡ G (Z )gggX≡g(Z)X≡g(Z)X \equiv g(Z)FX(x)=FZ(z)αFX(x)=FZ(z)αF_X(x) = F_Z(z)^\alphax≡g(z)x≡g(z) x \equiv g(z) 基本的に、という別のCDFを手にしています。いくつかの縮小された形式の意味で、そのCDFを生成するランダム変数を特徴付けたいと思います。FZ(z)αFZ(z)αF_Z(z)^\alpha 編集:特殊なケース分析結果が得られれば幸いです。または、少なくとも、そのような結果は扱いにくいことを知っています。Z∼N(0,1)Z∼N(0,1)Z \sim N(0,1)

2
データの変換:すべての変数ですか、それとも非通常の変数ですか?
Andy FieldのSPSSを使用した統計の検出では、すべての変数を変換する必要があると述べています。 しかし、「地理的に重み付けされた回帰を使用した土地利用と水質の空間的に変化する関係の調査I:モデルの設計と評価」では、非正規変数のみが変換されたと明記しています。 この分析は具体的ですか?たとえば、平均の比較では、ログを生データと比較すると明らかに大きな違いが生じますが、変数間の関係を調査するために回帰のようなものを使用する場合、重要性は低くなります。 編集:「データ変換」セクションの全文ページは次のとおりです。 そして、ここに論文へのリンクがあります:http : //www.sciencedirect.com/science/article/pii/S0048969708009121

1
ニューラルネットワークでバイナリ入力と連続入力が混在する場合の対処方法
Rでnnetパッケージを使用して、コンドミニアム(個人プロジェクト)の不動産価格を予測するANNを構築しようとしています。私はこれに新しく、数学の背景を持っていないので、私と一緒に裸にしてください。 バイナリと連続の両方の入力変数があります。たとえば、元々はyes / noだった一部のバイナリ変数は、ニューラルネット用に1/0に変換されました。他の変数はのように連続していSqftます。 入力データのサンプル すべての値を0〜1のスケールで正規化しています。たぶん、Bedrooms及びBathroomsその範囲のみであるため、正規化すべきではありません0-4? これらの混合入力は、ANNに問題を引き起こしますか?私は大丈夫な結果を得ましたが、綿密な調査で、ANNが特定の変数に選択した重みは意味をなさないようです。私のコードは下にありますが、提案はありますか? ANN <- nnet(Price ~ Sqft + Bedrooms + Bathrooms + Parking2 + Elevator + Central.AC + Terrace + Washer.Dryer + Doorman + Exercise.Room + New.York.View,data[1:700,], size=3, maxit=5000, linout=TRUE, decay=.0001) 更新: バイナリ入力を各値クラスの個別のフィールドに分割することに関する以下のコメントに基づいて、私のコードは次のようになりました。 ANN <- nnet(Price ~ Sqft + Studio + X1BR + X2BR + …


1
データを望ましい平均および標準偏差に変換する
データセットを現在の平均と標準偏差から目標平均と目標標準偏差に変換する方法を探しています。基本的に、分散を縮小/拡張し、すべての数値を平均にスケーリングしたいと思います。 2つの別々の線形変換を実行することはできません。1つは標準偏差用で、もう1つは平均用です。どの方法を使用すればよいですか? データセットの平均を0.5に、SDを0.1667に調整すると、SD .4と平均0.88のデータセットのポイント1.02が変換される例にソリューションを適用できますか?ポイントの新しい価値は何ですか?

3
縦断的ビッグデータをモデル化するには?
伝統的に、私たちは混合モデルを使用して、縦断的なデータ、つまり次のようなデータをモデル化します。 id obs age treatment_lvl yield 1 0 11 M 0.2 1 1 11.5 M 0.5 1 2 12 L 0.6 2 0 17 H 1.2 2 1 18 M 0.9 異なる人に対してランダムなインターセプトまたはスロープを想定できます。しかし、私が解決しようとしている質問には、膨大なデータセット(数百万人、1か月の毎日の観測、つまり各人が30の観測を含む)が含まれます。 spark / mahoutにアクセスできますが、混合モデルを提供していません。私のデータは、RandomForestまたはSVMを使用してこのデータセットをモデル化できるようにデータを変更できるのでしょうか。 RF / SVMが自動相関を考慮できるようにするために利用できる機能エンジニアリング手法はありますか? どうもありがとう! いくつかの潜在的な方法がありますが、私はそれらをスパークに書き込む時間を費やすことができませんでした randomForestにランダム効果を含めるにはどうすればよいですか 縦断データを使用したSVM回帰

3
ダミー変数のセンタリングとスケーリング
カテゴリ変数と連続変数の両方を含むデータセットがあります。カテゴリ変数を各レベルのバイナリ変数(A_level1:{0,1}、A_level2:{0,1}など)に変換することをお勧めしました-一部の人はこれを「ダミー変数」と呼んでいると思います。 そうは言っても、新しい変数を使用してデータセット全体を中央に配置してスケーリングするのは誤解を招くでしょうか?変数の「オン/オフ」の意味を失うかのようです。 誤解を招く場合、それは連続変数を個別に中央揃えおよびスケーリングし、それをデータセットに再度追加する必要があることを意味しますか? TIA。

3
非常に歪んだ分布の変換
分布が非常に高度に正に歪んでいる変数があると仮定します。そのため、正規分布の歪度の範囲内にログを入れるにはログを取るだけでは十分ではありません。この時点で私のオプションは何ですか?変数を正規分布に変換するにはどうすればよいですか?

4
ヘビーテール分布のBoxplot相当?
ほぼ正規分布のデータの場合、ボックスプロットは、データの中央値と広がり、および異常値の存在をすばやく視覚化する優れた方法です。 ただし、より重い裾の分布では、多くのポイントが外れ値として表示されます。これは、外れ値がIQRの固定因子の外側にあると定義されているためです。 では、この種のデータを視覚化するために人々は何を使用していますか?もっと適応したものはありますか?それが重要な場合は、Rでggplotを使用します。


3
Rousseeuw's and Croux '(1993)Qnスケール推定量の大きなサンプルの計算方法
してみましょうQn=Cn.{|Xi−Xj|;i&lt;j}(k)Qn=Cn.{|Xi−Xj|;i&lt;j}(k)Q_n = C_n.\{|X_i-X_j|;i < j\}_{(k)}ので、同様に非常に短いサンプルについて{1,3,6,2,7,5}{1,3,6,2,7,5}\{1,3,6,2,7,5\}、それが発見から計算することができるkkkペアワイズ差の第順序静的。 7 6 5 3 2 1 1 6 5 4 2 1 2 5 4 3 1 3 4 3 2 5 2 1 6 1 7 h = [n / 2] + 1 = 4 k = h(h-1)/ 2 = 8 したがって、Qn=Cn.2Qn=Cn.2Q_n=C_n. 2 明らかに、80,000レコードで構成されていると言っている大きなサンプルの場合、非常に大きなメモリが必要です。 …

3
Box-Cox変換されたデータで、元の単位で回答を表現します
一部の測定では、分析の結果が変換されたスケールで適切に表示されます。ただし、ほとんどの場合、元の測定スケールで結果を表示することが望ましいです(そうでない場合、作業は多かれ少なかれ価値がなくなります)。 たとえば、ログ変換されたデータの場合、ログに記録された値の平均は平均のログではないため、元のスケールでの解釈に問題が発生します。対数スケールでの平均の推定値の逆対数をとっても、元のスケールでの平均の推定値は得られません。 ただし、ログ変換されたデータに対称分布がある場合、次の関係が成り立ちます(ログは順序を保持するため)。 Mean[log(Y)]=Median[log(Y)]=log[Median(Y)]Mean[log⁡(Y)]=Median[log⁡(Y)]=log⁡[Median(Y)]\text{Mean}[\log (Y)] = \text{Median}[\log (Y)] = \log[\text{Median} (Y)] (ログ値の平均の逆対数は、測定の元のスケールの中央値です)。 したがって、元の測定スケールでの中央値の差(または比率)についてのみ推測できます。 母集団がほぼ標準偏差でほぼ正常である場合、2サンプルのt検定と信頼区間は最も信頼性が高いBox-Coxため、正規性の仮定に変換を使用するように誘惑される可能性があります(変換を安定化する分散でもあると思います)。 ただし、Box-Cox変換されたデータにt-toolsを適用すると、変換されたデータの平均の違いに関する推論が得られます。それらを元の測定スケールでどのように解釈できますか?(変換された値の平均は、変換された平均ではありません)。つまり、変換されたスケールで平均の推定値の逆変換を行っても、元のスケールでの平均の推定値は得られません。 この場合、中央値についてのみ推論することもできますか?(元のスケールで)平均に戻ることができる変換がありますか? この質問は最初はコメントとしてここに投稿されました

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.