データの変換:すべての変数ですか、それとも非通常の変数ですか?


14

Andy FieldのSPSSを使用した統計の検出では、すべての変数を変換する必要があると述べています。

しかし、「地理的に重み付けされた回帰を使用した土地利用と水質の空間的に変化する関係の調査I:モデルの設計と評価」では、非正規変数のみが変換されたと明記しています。

この分析は具体的ですか?たとえば、平均の比較では、ログを生データと比較すると明らかに大きな違いが生じますが、変数間の関係を調査するために回帰のようなものを使用する場合、重要性は低くなります。

編集:「データ変換」セクションの全文ページは次のとおりです。

そして、ここに論文へのリンクがあります:http : //www.sciencedirect.com/science/article/pii/S0048969708009121


16
投稿した新しい画像に基づいて、著者は「変数」と「観察」を混同しているようです。pの上。154彼は、変数を変換するとき、すべての値(観測)を同じ方法で変換する必要があることを正しく強調します。そうしないと、何も比較できなくなります。(ただし、これを「変数間の関係を変更しない」と断言するには、非常に寛大な解釈が正しいことが必要です。)154は文ごとに(脚注にさえも)非常に明らかに間違っているので、それに伴うすべての問題を列挙するだけの価値はありません。
whuber

回答:


17

あなたはいくつかのアドバイスを引用しますが、そのすべてが間違いなく役に立つことを意図したものではありませんが、その中で多くのメリットを見つけることは困難です。

いずれの場合も、あなたが要約として引用するものに完全に依存しています。著者の弁護において、周囲の資料やその他の資料に適切な資格を追加すると信じたいと思います。(通常の名前、日付、タイトル、(出版社、場所)または(ジャーナルのタイトル、巻、ページ)形式の完全な書誌参照は、質問を強化します。)

フィールド

このアドバイスは役立つことを意図していますが、せいぜい非常に単純化されすぎています。フィールドのアドバイスは一般的に意図されているようです。たとえば、Leveneのテストへの参照は、分散分析に一時的に焦点を当てていることを意味します。

たとえば、さまざまな理由で記録する必要がある予測変数と、ある別のインジケーター変数があるとします。後者(a)は記録できません(b)記録すべきではありません。(実際には、インジケータ変数を任意の2つの異なる値に変換しても、重要な効果はありません。)10

より一般的には、多くの分野で通常の状況である-いくつかの予測変数を変換し、残りをそのままにしておくことが一般的です。

論文や論文で、異なる予測因子に異なる方法で適用された変換の混合に遭遇することは事実です(特別な場合、恒等変換、またはそのままにする)は、多くの場合、読者の関心事です。ミックスはよく考えられた選択肢のセットですか、それともarbitrary意的で気まぐれなのですか?

さらに、一連の研究では、アプローチの一貫性(常に対数を応答に適用する、またはまったく実行しない)は結果の比較に非常に役立ち、アプローチが異なるとさらに困難になります。

しかし、それは、変換が混在する理由が決してないということではありません。

引用されているセクションのほとんどが、黄色で強調表示されている重要なアドバイスに大きく関係しているとは思いません。これ自体が懸念事項です。絶対ルールを発表し、それを実際に説明するのではなく、奇妙なビジネスです。逆に、「覚えている」という差し止め命令は、フィールドの根拠が本の早い段階で提供されたことを示唆しています。

匿名の紙

ここでのコンテキストは回帰モデルです。よくあることですが、OLSの話はモデルよりも推定方法を強調しますが、何が意図されているかは理解できます。GWR Iは、地理的に重み付けされた回帰と解釈します。

ここでの議論は、非正常な予測変数を変換し、他の予測変数はそのままにしておくべきだということです。繰り返しますが、これはインジケーター変数で何ができ、何をすべきかについての質問を提起します。インジケーター変数は正規分布できません(上記の場合、非正規性は問題ではないことを指摘することで回答できます)。しかし、差止命令は、問題である予測子の非正規性であることを暗示している。そうではない; 予測変数の周辺分布について仮定することは、回帰モデリングの一部ではありません。

実際には、予測子をより正常に近いものにすると、関数型がデータにより適切になるように変換を適用することが多くなります。これは、多くのテキストのエラー構造。言い換えると、変換された空間で線形性に近づいた場合、予測値をログに記録して正規性に近づけることは、間違った理由で正しいことをすることができます。バツβ

このフォーラムには、変革に関する非常に優れたアドバイスがたくさんあるので、私はあなたが引用したものを議論することに焦点を合わせました。

PS「たとえば、手段の比較では、ログを生データと比較すると明らかに大きな違いが生じる」という文を追加します。あなたが何を念頭に置いているのか明確ではありませんが、あるグループの値を別のグループの値の対数と比較することは無意味です。あなたの発言の残りの部分はまったく理解できません。


ニック、私は自分の主張を迅速かつ簡潔に伝えたかったのですが、それは私がしたと感じています。Googleの世界では、必要に応じて、元のドキュメントに簡単にアクセスできる十分な情報を提供しました。答えてくれてありがとう、私は求めていた正確な情報を提供してくれました:Fieldの提案のように、すべての変数をデータ変換セクションで変換することは、データ変換に対する誤ったアプローチです。
私のハートはビート

14
+1。私はあなたがどれほど巧妙に非常に完全に間違っている資料に対処できたかに驚く。SPSSブックのあちこちのページをざっと読んで、このサイトで私たちが本当に混乱している質問のいくつかについての洞察を提供しています。エラー、誤った情報、完全な作り込みでいっぱいです。
whuber

@I Heart Beats答えが役に立ったと喜んでいますが、適切な参照を希望する私の要望はあります。興味のある人はいつでもGoogleにアクセスできるため、不完全な参照は常に防御可能であると言うこともできます。それどころか、優れた学問と科学は良い書誌的実践によって助けられ、詳細を与え、(多くの)読者に不必要な仕事をさせない。
ニックコックス

@Nickは私の質問の編集を見ます。私はその記事がオープンソースであると信じており、文脈のためにテキストの全ページを追加しました。
I Heart Beats

8
参照を強化してくれてありがとう。Fieldからさらに引用しました。「データを変換しても変数間の関係は変わらない」という主張を含む、追加のセクションが表示されます。それは「関係」の特異な意味に基づいているか、(おそらく恐らく)それは役に立たず、実際にまったく間違っています。私は目の前の証拠に関する問題の本について@whuberに同意することを(ある意味では)後悔しています。(更新:whuberは本質的に同じポイントを同時に言っていました。質問に関する彼のコメントを参照してください。)
ニックコックス

10

まず、両方の引用符は、回帰モデルでの使用を目的としたデータに適用された変換が変数 PDFをより正規分布させるために行われない限り、誤解を招く可能性があります。古典的な回帰の1つの仮定は、モデルの残差をより対称にするために行われますエラーがガウス分布であること。これは、単にPDFを対称化するよりも、より深いレベルの厳密さと厳格さを意味します。

さらに、両方の引用は、どちらも(少なくとも提供された情報に基づいて)処方の動機を掘り下げていないという点で弱い。それが起こると、私は両方に同意しません。

強調した箇所で、SPSS本は、変換の混合(たとえば、1つの変数の自然対数、別の変数の平方根)は許可されていないと主張しています。なぜこれが違法なのですか?変換の混合は、私が知っている回帰の仮定に違反しません。これが当てはまることを確認するために、回帰の前提に関する回帰テキストを確認してください。変換混合物は、それらの解釈に関して実質的な記述的問題を提示するかもしれませんが、それは混合物が違法であるかどうかの問題ではありません。SPSSの男は間違っています。

2番目のテキストに関する限り、変換は完全にアナリストの選択の問題です。変換を行うかどうかにかかわらず、すべての入力または一部の変数を変換し、他の変数は変換しません。これはいずれの仮定にも違反しません。

2番目の引用がレールから外れると思うのは、「...潜在的な多重共線性を避けるために...ただ1つの土地利用インジケーター(使用された)...」という主張にあります。これは明らかに悪いアドバイスであり、一部のアナリストは、一連の変数を因子分析し、各因子で最高の負荷変数を選択する次元削減手法として実行します。このヒューリスティックは何年も前から存在しており、私が使用または推奨するものではありません。繰り返しますが、これはアナリストの好みとトレーニングの問題です。ただし、この点は特定の質問に答えることを目的とするものではありません。

結局のところ、両方の引用は、提供された情報に基づいて、裏付けとなる証拠がない場合に著者の意見を主張するものとして出てきます。


8
ほぼ同様の点を指摘しますが、ガウス誤差は回帰モデリングで最も重要でない仮定であり、多くの目的には必要ないことを説明する良いテキストを追加したいと思います。
ニックコックス

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.