タグ付けされた質問 「data-transformation」

データ値の数学的再表現、多くの場合非線形。多くの場合、データは、統計モデルの仮定を満たすため、または分析の結果をより解釈可能にするために変換されます。

5
Rでワイド形式とロング形式の間でデータを変更するにはどうすればよいですか?[閉まっている]
データはワイド形式またはロング形式で保存できます。使用可能なメソッドは形式によって異なるため、これは非常に重要なことです。reshapeパッケージを使用したり、パッケージを変更しmelt()たりする必要があることは承知していますが、理解できないことがcast()いくつかあります。 誰かがこれをどのように行うのか簡単な概要を教えてもらえますか?

4
複雑なデータを使用した分析、何か違うものはありますか?
たとえば、線形モデルを実行しているが、データが複雑であるとします。yyy y=xβ+ϵy=xβ+ϵ y = x \beta + \epsilon すべての数値は形式であるため、データセットは複雑です。そのようなデータを操作する際に手順的に異なるものはありますか?yyy(a+bi)(a+bi)(a + bi) 複雑な共分散行列を取得し、複雑な値の統計をテストすることになるためです。 最小二乗を行うときに、転置ではなく共役転置を使用する必要がありますか?複素数値共分散は意味がありますか?

2
負の二項回帰の仮定は何ですか?
私は大規模なデータセット(機密情報なので、あまり共有することはできません)を使用しており、負の二項回帰が必要であるという結論に達しました。私は以前にglm回帰を行ったことがなく、仮定が何であるかについて明確な情報を見つけることができません。MLRでも同じですか? 変数を同じ方法で変換できますか(自然変数である必要があるため、従属変数の変換は不適切な呼び出しであることが既にわかっています)。私はすでに、負の二項分布がデータの過剰分散に役立つと判断しました(分散は約2000、平均は48)。 助けてくれてありがとう!!

3
ホワイトニングは常に良いですか?
機械学習アルゴリズムの一般的な前処理手順は、データのホワイトニングです。 データを無相関化し、モデル化をより簡単にするため、ホワイトニングを行うことは常に良いようです。 ホワイトニングが推奨されない場合 注:私はデータの非相関性に言及しています。

2
Rの重回帰の変数の変換
で重回帰を実行しようとしていますR。ただし、私の従属変数には次のプロットがあります。 すべての変数を含む散布図行列です(WAR従属変数です)。 この変数(およびおそらく独立変数も)で変換を実行する必要があることは知っていますが、必要な正確な変換についてはわかりません。誰かが私を正しい方向に向けることができますか?独立変数と従属変数の関係に関する追加情報を提供できればうれしいです。 私の回帰からの診断グラフィックは次のように見えます。 編集 Yeo-Johnson変換を使用して従属変数と独立変数を変換すると、診断プロットは次のようになります。 ログリンクでGLMを使用する場合、診断グラフィックは次のとおりです。

4
ARIMAモデルをあてはめる前に時系列をログ変換するタイミング
以前は予測プロを使用して単変量時系列を予測していましたが、ワークフローをRに切り替えています.Rの予測パッケージには多くの便利な機能が含まれていますが、自動化を実行する前に行わないデータ変換が1つあります.arima()。いくつかのケースでは、予測プロは予測を行う前に変換データを記録することを決定しますが、その理由はまだわかりません。 私の質問は次のとおりです:ARIMAメソッドを試す前に、時系列をいつログ変換する必要がありますか? /編集:回答を読んだ後、次のようなものを使用します。xは私の時系列です。 library(lmtest) if ((gqtest(x~1)$p.value < 0.10) { x<-log(x) } これは理にかなっていますか?

3
この奇妙な形の分布をモデル化する方法(ほぼ逆J)
以下に示す私の従属変数は、私が知っている在庫分布に適合しません。線形回帰は、奇妙な方法で予測Yに関連するやや非正規の右スキューの残差を生成します(2番目のプロット)。最も有効な結果と最高の予測精度を得るための変換またはその他の方法に関する提案はありますか?可能であれば、たとえば5つの値(たとえば、0、lo%、med%、hi%、1)に分類することを避けたいと思います。

7
たとえば、性別が通常、1/2ではなく0/1にコーディングされるのはなぜですか?
データ分析のためのコーディングのロジックを理解しています。以下の私の質問は、特定のコードの使用に関するものです。 性別が女性の場合は0、男性の場合は1としてしばしばコード化される理由はありますか? このコーディングが「標準」と見なされるのはなぜですか? これを女性= 1および男性= 2と比較してください。このコーディングに問題はありますか?

3
Rの列ごとの行列の正規化[終了]
閉まっている。この質問はトピック外です。現在、回答を受け付けていません。 この質問を改善したいですか? 質問を更新して、相互検証のトピックになるようにします。 6年前に閉鎖されました。 Rの行列の列ごとの正規化を実行したいと思います。行列が与えられた場合m、各要素を列の合計で除算して各列を正規化します。これを行う1つの(ハック的な)方法は次のとおりです。 m / t(replicate(nrow(m), colSums(m))) 同じタスクを達成するためのより簡潔/エレガント/効率的な方法はありますか?

3
機械学習でパワー変換またはログ変換があまり教えられないのはなぜですか?
機械学習(ML)は、線形およびロジスティック回帰手法を多用しています。また、機能の工学的手法(に依存しているfeature transform、kernelなど)。 なぜ何も程度variable transformation(例えばpower transformation)MLに言及していませんか?(たとえば、ルートの取得やフィーチャへのログについて聞いたことはありません。通常は単に多項式またはRBFを使用します。)同様に、MLの専門家が従属変数のフィーチャ変換を気にしないのはなぜですか?(たとえば、yの対数変換を行うことについて聞いたことはありません。yを変換しません。) 編集:たぶん質問は間違いではないかもしれませんが、私の本当の質問は「MLへの変数への累乗変換は重要ではないのですか?」

6
高度な回帰モデリングの例
GLMまたはOLSを使用して複雑な複数の非線形関係をモデル化するために必要な手順を示す、高度な線形回帰のケーススタディを探しています。基本的な学校の例を超えてリソースを見つけることは驚くほど困難です:私が読んだ本のほとんどは、1つの予測子のBoxCox、または最良の場合の自然なスプラインと組み合わせた応答のログ変換よりも先に進むことはありません。また、これまでに見てきたすべての例は、個別のモデル、多くの場合単一の予測モデルで各データ変換の問題に取り組みます。 BoxCoxまたはYeoJohnson変換とは何かを知っています。私が探しているのは、応答/関係が明確ではない、詳細で実際のケーススタディです。たとえば、応答は厳密に肯定的ではないため(logまたはBoxCoxは使用できません)、予測子は応答間で応答に対して非線形の関係を持ち、最尤データ変換は標準の0.33を暗示していないようです。または0.5指数。また、残差分散は一定ではない(決して変わらない)ため、応答も変換する必要があり、非標準のGLMファミリー回帰または応答変換の間で選択を行う必要があります。研究者は、おそらくデータの過剰適合を避けるための選択をします。 編集 これまでのところ、次のリソースを収集しました。 回帰モデリング戦略、F。ハレル 適用された計量経済時系列、W。エンダーズ R、G。Petrisを使用した動的線形モデル 応用回帰分析、D。クラインバウム 統計学習入門、G。ジェームズ/ D。ウィッテン 私は最後の(ISLR)のみを読んでおり、非常に良いテキスト(私の時計では5つ星5つ)ですが、高度な回帰モデリングよりもMLを重視しています。 また、CVには、リグレッションの難しいケースを提示するこの優れた投稿があります。

4
正常なrvの尖度と歪度を増加させる変換
私は、観測値が正規分布しているという事実に依存するアルゴリズムに取り組んでおり、この仮定に対するアルゴリズムの堅牢性を経験的にテストしたいと思います。YYY これを行うために、の正規性を徐々に破壊する一連の変換を探していました。たとえば、が正常である場合、歪度および尖度になり、両方を漸進的に増加させる変換シーケンスを見つけると便利です。Y Y = 0 = 3T1()、… 、Tn()T1(),…,Tn()T_1(), \dots, T_n()YYYYYY= 0=0= 0= 3=3= 3 私のアイデアは、通常およそ分散されたデータをシミュレートし、そのアルゴリズムをテストすることでした。変換された各データセットT 1(Y )、… 、T n(y )のテストアルゴリズムよりも、出力がどの程度変化しているかを確認します。YYYT1(Y),…,Tn(y)T1(Y),…,Tn(y)T_1(Y), \dots, T_n(y) シミュレートされたの分布を制御していないことに注意してください。そのため、正規化を一般化する分布(歪んだ一般化誤差分布など)を使用してシミュレーションできません。YYY

3
応答が4番目のルートによって変換されたときの回帰係数の解釈方法
1/4異分散の結果として、応答変数に4番目のルート()べき乗変換を使用しています。しかし、現在、回帰係数の解釈方法がわかりません。 逆変換するときに係数を4乗する必要があると思います(以下の回帰出力を参照)。すべての変数は数百万ドル単位ですが、数十億ドル単位の変化を知りたいと思います。 他の独立変数を一定に保ちながら、平均して10億ドルの手数料の変更は32、コレクションの変更(または32,000ドル)につながります。私は0.000075223 * 1000(数十億に達するために)取り^ 4 = 0.000032ます。ここで、この数に100万または10億を掛けますか(従属変数の元の単位は100万単位です)? lm(formula = (Collections^(1/4)) ~ Fees + DIR) Estimate Std. Error t value Pr(>|t|) (Intercept) 2.094573355 0.112292375 18.653 0.0000000000000151 Fees **0.000075223 **0.000008411 8.943 0.0000000131878713 DIR 0.000022279 0.000004107 5.425 0.0000221138881913

6
変数のスケールを0-100に変更する
PCA手法を使用して、ソーシャルキャピタルインデックスを作成しました。このインデックスは、正と負の両方の値で構成されます。このインデックスを0〜100のスケールに変換/変換して、解釈しやすくしたいと思います。最も簡単な方法を教えてください。

2
比率データの変換:arcsin平方根では不十分な場合
パーセンテージ/プロポーションデータのアークサイン平方根変換の(より強力な)代替手段はありますか?私が現在取り組んでいるデータセットでは、この変換を適用した後、顕著な不均一分散性が残っています。つまり、残差対適合値のプロットは依然としてひし形です。 コメントに対応するために編集:データは、10%の倍数で寄付金の0-100%を投資する可能性のある実験参加者による投資決定です。また、順序ロジスティック回帰を使用してこれらのデータを調べましたが、有効なglmが生成するものを確認したいと思います。加えて、arcsin平方根は私の分野ですべてのサイズに対応するソリューションとして使用されているようで、採用されている代替手段に出会ったことがないため、答えは将来の作業に役立つことがわかりました。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.