タグ付けされた質問 「data-transformation」

データ値の数学的再表現、多くの場合非線形。多くの場合、データは、統計モデルの仮定を満たすため、または分析の結果をより解釈可能にするために変換されます。


2
ディープラーニングで機能変換(パワー、ログ、Box-Cox)は必要ですか?
機械学習モデルに到達する前に、特定の一般的な特徴変換をデータセットに適用することが有益であると読みました。これらは、データセットの機能の分布に基づいています。たとえば、歪んだ正規分布機能にログ変換を適用します。ここにいくつかの例があります。 私が理解しているように、ディープラーニングの主な恩恵は「自動特徴エンジニアリング」(別名「特徴学習」)です。機能の組み合わせも含まれます。しかし私の直感には、上記の学習された機能変換も含まれていると言いますか?したがって、十分に調整されたハイパーを備えたディープネットワークを使用する場合、機能変換を人間の責任から安全に削除できます。つまり、このlog / square / box-coxのすべてのものを破棄しますか? [編集]追加:これは、「機能の選択」(含まない入力の決定)も処理しますか?


1
時系列分析におけるBoxCox変換のラムダ値
私は予測のオンラインバージョンを読んでいました。RobJ HyndmanとGeorge Athanasopoulosによる原則と実践です。STL分解とBoxCox変換に関する次の文を見つけました。 「0 <λ<1のデータのBox-Cox変換を使用すると、加法分解と乗法分解のいくつかの方法が得られます。λ= 0の値は乗法分解に対応し、λ= 1は加法分解に相当します。」 私の質問は、なぜその範囲のラムダだけが有効なオプションになるのですか?ラムダが-0.5または2に等しくないのはなぜですか?

3
比率の絶対変化をテストすることが目的の場合、対数変換なしで比率を直接比較できますか?
比率( = /)が頻繁に使用されます(mRNAまたはタンパク質発現の倍数変化、ボディマスインデックス[BMI]など)。多くの人々は、比率としてコード化された変数(たとえば、フォールドチェンジ)は、右に大きく歪んでいるため、ログ変換する必要があるとアドバイスしています。ただし、比率( /)は相対的な変化であり、比率の分布は正常ではありません(en.wikipedia.org/wiki/Ratio_distribution)。と両方が対数正規である場合、log( /)は正常です(再変換バイアスを考慮した後、 /対数正規ですか?)ZZZYYYXXXYYYXXXXXXYYYYYYXXXYYYXXX 対数変換された比率間の比較は、相対的な変化の相対的な変化(すなわち、比率)です。さらに、右に歪んだ変数()の対数変換の必要性が疑問視されています。たとえば、最近の論文(http://www.ncbi.nlm.nih.gov/pubmed/22806695)は、変数の対数変換の誤用について警告しています。アドバイスのいくつかは、が対数正規である場合にのみlog()が正規分布を保証するというものでした。つまり、右に歪んだ変数であっても正規性は保証されません。また、Eの抗ログ((ログ))の幾何平均(GM)である常に少ないEよりも、(()とEの差の検定YYYYYYYYYYYYYYYYYYYYY)とGMは異なります。最後に、GMはより堅牢でもなく、外れ値の影響を受ける可能性も低くありません。 別の論文(http://econtent.hogrefe.com/doi/10.1027/1614-2241/a000110)は、生の変数のt検定が対数正規分布変数でもうまく機能することを示しました。3番目の論文(http://link.springer.com/article/10.1023%2FB%3AEEST.0000011364.71236.f8)は、比率に対するt検定と対数変換された比率に対するt検定のパフォーマンスが似ていることを示しています。 したがって、問題は、どちらが関心のある結果であるかになります。log()を意味のあるものにするには元の単位に逆変換する必要があり、再変換バイアスがあるため、E()のテストはより意味があると思います。ZZZZZZ 幸い、異分散性が考慮されると(たとえば、Welchのt検定)、パラメトリック検定(t検定など)は正規性の仮定の違反に対してロバストです。たとえば、このペーパー(http://www.ncbi.nlm.nih.gov/pubmed/24738055)では、ANOVAを使用して、イムノブロッティングにおける生の倍率変化の違いをテストすることをお勧めしています。 だから私の質問は:私の目標が比率の絶対変化をテストすることである場合、対数変換なしで比率を直接比較できますか? 参照: 線形回帰で、実際の値の代わりに独立変数のログを使用するのが適切なのはいつですか?

1
Rのcox回帰で時間依存の共変量を使用する方法
cox回帰を使用するために、Rで時間依存の共変量を生成する方法がわかりません。 データセットをイベント時間の間隔に再編成する必要があることは知っています。これは、浮かぶチュートリアルで私ができると信じています。その後、行き詰まりましたが。それで?各共変量について、特定の時間間隔ごとにその値を計算する必要がありますか?どうすればいいですか?データベースに戻って、脈拍数が記録された日付を取得し、日付に基づいて脈拍値を更新する必要がありますか? 時間依存の共変量を実行する場合、データベースに戻って日付/時刻情報をさらに抽出し、すべての共変量情報を更新する必要があることを確認したいだけです。基本的に、データセットを「長い」形式に変換するチュートリアルは、私がする必要がある唯一のものではありませんよね?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.