タグ付けされた質問 「feature-construction」

特徴エンジニアリングは、データのドメイン知識を使用して機械学習モデルの特徴を作成するプロセスです。このタグは、CrossValidatedでトピックから外れる、機能エンジニアリングに関する理論的および実用的な質問を対象としています。

6
カテゴリ変数を多くのレベルで折りたたむ原理的な方法は?
統計モデルの入力(予測子)として使用するために、多くのカテゴリを少数に折りたたむ(またはプールする)ために使用できるテクニックは何ですか? 大学生(学部生が選択した専門分野)などの変数を考えてみましょう。順不同でカテゴリに分類されますが、潜在的に数十の異なるレベルを持つことができます。回帰モデルの予測子としてmajorを使用するとします。 これらのレベルをそのままモデリングに使用すると、非常に多くのレベルがあるため、あらゆる種類の問題が発生します。それらを使用するために多くの統計的精度が捨てられ、結果を解釈するのは困難です。特定の専攻に興味を持つことはめったにありません。専攻の幅広いカテゴリ(サブグループ)に興味を持つ可能性がはるかに高くなります。しかし、レベルをそのような上位レベルのカテゴリに分割する方法や、使用する上位レベルのカテゴリの数さえも必ずしも明確ではありません。 典型的なデータについては、因子分析、行列因子分解、または離散潜在モデリング手法を使用して満足です。しかし、メジャーは相互に排他的なカテゴリであるため、私はそれらの共分散をあらゆるものに活用することにheしています。 さらに、私は主要なカテゴリー自体を気にしません。回帰結果に関して一貫性のある高レベルのカテゴリを作成することに関心があります。バイナリ結果の場合、線形判別分析(LDA)のようなものが示唆され、識別パフォーマンスを最大化するより高いレベルのカテゴリを生成します。しかし、LDAは限られた手法であり、ダーティデータがdrするように感じます。さらに、継続的なソリューションを解釈するのは困難です。 一方、多重分散分析(MCA)のような共分散に基づくものは、相互排他的なダミー変数間の固有の依存性のため、この場合は疑わしいようです-それらは、複数のカテゴリ変数よりも複数のカテゴリ変数の研究に適しています同じ変数。 編集:明確にするために、これはカテゴリを折りたたむ(それらを選択しない)ことであり、カテゴリは予測変数または独立変数です。後から考えると、この問題は「すべてを正規化し、神にそれらを整理させる」適切な時期のようです。この質問を見てうれしいことは、多くの人にとって興味深いことです!

2
オートエンコーダーは意味のある機能を学習できません
次の2つのような50,000個の画像があります。 データのグラフを表します。これらの画像から特徴を抽出したかったので、Theano(deeplearning.net)が提供するオートエンコーダコードを使用しました。 問題は、これらのオートエンコーダーが機能を学習していないようです。私はRBMを試しましたが、それは同じです。 MNISTデータセットは素晴らしい機能を提供しますが、私のデータは何ももたらさないようです。以下に例を示します。 MNISTで作成されたフィルター: データをトレーニングして作成したフィルター: 隠れ層サイズとトレーニングエポックのさまざまな組み合わせを使用しましたが、結果は常に同じです。 なぜ機能しないのですか?自動エンコーダーがこれらの画像から特徴を抽出できないのはなぜですか? 編集: 同様の問題を抱えている人のために。解決策は本当にシンプルで、原因は本当に馬鹿げていました。RGBエンコーディングのピクセル値を0〜1の範囲の浮動小数点数に再スケーリングするのを忘れました。 値を再スケーリングすることで問題が解決しました。

7
機械学習モデルまたは推奨システムで地理または郵便番号を表す方法
モデルを構築していますが、地理的位置はターゲット変数の予測に非常に適していると考えています。各ユーザーの郵便番号を持っています。ただし、モデルに予測機能として郵便番号を含める最善の方法については完全にはわかりません。郵便番号は数字ですが、数字が上がったり下がったりしても意味がありません。30,000のすべての郵便番号を2値化し、それらを機能または新しい列として含めることができます(たとえば、{user_1:{61822:1、62118:0、62444:0など}}。しかし、これはトンを追加するようですモデルの機能の。 この状況を処理する最良の方法についての考えはありますか?

2
フィルター行列の要素を初期化する方法は?
ライブラリ(ConvnetやTensorFlowなど)に依存しないPythonコードを作成することで、畳み込みニューラルネットワークをよりよく理解しようとしていますが、カーネルマトリックスの値を選択する方法に関する文献にこだわっています。画像の畳み込みを実行します。 CNNのレイヤーを示す以下の画像の機能マップ間のステップで、実装の詳細を理解しようとしています。 この図によると: カーネルマトリックスカーネルは画像上で「ステップ」し、特徴マップを作成します。各ピクセルは、カーネル(またはフィルターマトリックス)の各重みと入力画像の対応するピクセル値の間のすべての要素ごとの積の合計です。 私の質問は、カーネル(またはフィルター)行列の重みをどのように初期化するのですか? 上記のデモンストレーションでは、これらは1と0にすぎませんが、これは図のために単純化されていると思います。 これらの重みは、何らかの前処理ステップでトレーニングされていますか?または、ユーザーが明示的に選択しましたか?

2
いつ連続的な独立変数/機能を離散化/ビン化すべきか、そうすべきではないのか?
いつ独立変数/機能を離散化/ビン化する必要がありますか? 質問に答える私の試み: 一般に、ビニングは情報を失うため、ビン化するべきではありません。 ビニングは、実際にはモデルの自由度を高めているため、ビニング後に過剰適合を引き起こす可能性があります。「高バイアス」モデルがある場合、ビニングは悪くないかもしれませんが、「高分散」モデルがある場合、ビニングを避ける必要があります。 使用しているモデルによって異なります。それが線形モードであり、データに多くの「外れ値」がある場合、ビニング確率が優れています。ツリーモデルがある場合、外れ値とビニングはあまりにも大きな違いを生みます。 私は正しいですか?そして他に何? この質問は何度も聞かれるべきだと思ったが、これらの投稿だけでは履歴書で見つけることができない 連続変数をビン化する必要がありますか? 連続予測変数を分割することの利点は何ですか?

5
機能エンジニアリングが機能する理由
最近、MLの問題に対するより良い解決策を見つける方法の1つが、機能の作成によることであることを学びました。たとえば、2つの機能を合計することにより、これを行うことができます。 たとえば、ある種のヒーローの「攻撃」と「防御」という2つの機能があります。次に「攻撃」と「防御」の合計である「合計」と呼ばれる追加機能を作成します。奇妙に見えるのは、厳しい「攻撃」と「防御」でさえ、「合計」とほぼ完全に相関しているということです。 その背後にある数学は何ですか?それとも、私が間違っていると推論していますか? さらに、kNNなどの分類子にとって、「合計」は常に「攻撃」または「防御」よりも大きいということは問題ではありませんか?したがって、標準化した後でも、異なる範囲の値を含む機能がありますか?

2
機能エンジニアリングのチュートリアル
すべての人に知られているように、機能工学は機械学習にとって非常に重要ですが、この分野に関連する資料はほとんど見つかりませんでした。Kaggleのいくつかのコンテストに参加しましたが、場合によっては、優れた機能が優れた分類器よりも重要であると考えています。誰かが機能エンジニアリングに関するチュートリアルを知っていますか、それともこの純粋な経験ですか?

1
ニューラルネットワークでの日の特徴の最適な構築
回帰問題に取り組んで、「曜日」機能の表現について考え始めました。私はどちらのアプローチがより良くなるのだろうか: 1つの機能。月曜日の値は1/7。火曜日は2/7 7つの機能:(1、0、0、0、0、0、0)月曜日; (0、1、0、0、0、0、0)火曜日... ネットワーク構成の違いにより、測定が困難です。(追加の6つの機能は、私が信じる隠れノードの数に反映されるはずです。) すべての機能の数は約20です。単純なbackpropを使用して、通常のフィードフォワードニューラルネットワークを学習します。

1
「機能空間」とは何ですか?
「機能空間」の定義は何ですか? たとえば、SVMについて読むとき、「機能空間へのマッピング」について読みます。CARTについて読むとき、「機能空間へのパーティション分割」について読みます。 何が起こっているのか、特にCARTについては理解していますが、見落としている定義があると思います。 「機能空間」の一般的な定義はありますか? SVMカーネルお​​よび/またはCARTについてより多くの洞察を与える定義がありますか?

2
連続データとバイナリデータを線形SVMと混合しますか?
だから私はSVMで遊んでいますが、これが良いことかどうか疑問に思います: 一連の連続フィーチャ(0〜1)と、ダミー変数に変換した一連のカテゴリフィーチャがあります。この特定のケースでは、測定の日付をダミー変数にエンコードします。 データを取得する期間は3つあり、3つの機能番号を予約しました。 20:21:22: そのため、データの取得期間に応じて、異なる機能に1が割り当てられます。その他は0になります。 SVMはこれで適切に動作しますか、これは悪いことですか? SVMLightと線形カーネルを使用します。

5
トレーニングデータセットのみで探索的データ分析を行う方が良いでしょうか?
データセットに対して探索的データ分析(EDA)を行っています。次に、いくつかの機能を選択して、従属変数を予測します。 問題は 、トレーニングデータセットのみでEDAを実行する必要があるかどうかです。または、トレーニングデータセットとテストデータセットを結合し、それらの両方でEDAを実行し、この分析に基づいて機能を選択する必要がありますか?

1
機械学習における特徴の構築と正規化
映画Mのロジスティック分類子を作成するとします。私の特徴は、人の年齢、性別、職業、場所などです。したがって、トレーニングセットは次のようになります。 年齢性別職業場所好き(1)/嫌い(0) 23 MソフトウェアUS 1 24 Fドクター英国0 など…。今、私の質問は、自分の機能をどのように拡大縮小して表現するかです。私が考えた1つの方法:年齢グループとして年齢を分けるので、18-25、25-35、35-上記、性別をM、F、場所を米国、英国、その他。ここで、これらすべての値に対してバイナリフィーチャを作成します。したがって、年齢にはそれぞれ年齢グループなどに対応する3つのバイナリフィーチャが含まれます。したがって、米国の28歳の男性は010 10 100(010->年齢グループ25-35、10->男性、100->米国)として表されます。 ここで機能を表す最良の方法は何でしょうか?また、私はいくつかのe.gsで気づきました。sklearnのすべての機能は何らかの方法でスケーリング/正規化されています。たとえば、性別は、男性と女性の0.0045と-.0.0045の2つの値で表されます。私はこのようなスケーリング/整形を行う方法についての手がかりがありませんか?

2
最大平均不一致(距離分布)
異なる分布に従う2つのデータセット(ソースデータとターゲットデータ)があります。ソースデータとターゲットデータ間の周辺分布を計算するために、MMD(これはノンパラメトリック距離分布です)を使用しています。 ソースデータ、X ターゲットデータ、Xt 適応マトリックスA *予測データ、Zs = A '* XsおよびZt = A' Xt * MMD =>距離(P(Xs)、P(Xt))= | mean(A'Xs)-mean(A ' Xt)| つまり、元の空間のソースデータとターゲットデータ間の分布の距離は、埋め込み空間の投影されたソースデータとターゲットデータの平均間の距離に相当します。 MMDのコンセプトについて質問があります。 MMD式で、なぜ潜在空間での距離を計算すると、元の空間での分布の距離を測定できるのでしょうか。 ありがとう

1
自動キーワード抽出:余弦の類似性を特徴として使用
ドキュメント用語マトリックスを取得しました。次に、教師付き学習方法(SVM、Naive Bayesなど)を使用して、各ドキュメントのキーワードを抽出したいと思います。このモデルでは、すでにTf-idf、Posタグなどを使用しています...MMM しかし、今私は次のことを考えています。項間のコサインの類似性を持つ行列があります。CCC この類似性をモデルの機能として使用する可能性はありますか?私の考えは、言葉のためだったの文書にドキュメント内のすべての用語のコサイン類似点の平均値を使用するように、用語で。これは便利ですか?dはD Iを私私idddddd私私i

2
セマンティックな意味を保持するドメインに依存しない機能エンジニアリング?
機能エンジニアリングは、多くの場合、機械学習の重要なコンポーネントです(2010年にKDDカップで優勝するために頻繁に使用されました)。しかし、ほとんどの機能エンジニアリング技術は 基礎となる機能の直感的な意味を破壊する 特定のドメインまたは特定の種類の機能に非常に固有です。 前者の典型的な例は、主成分分析です。主題の専門家が機能について持っている知識は、それらの機能を主成分に変換することによって破壊されるように思えます。 対照的に、日付を「月の日」と「曜日」の機能に変換する簡単な手法と比較してください。基本的な意味はまだ新しい機能に保持されていますが、明らかにこの特定の手法は日付にのみ適用され、任意の機能には適用されません。 基盤となる機能の意味を損なうことなく、任意のドメイン(または少なくともさまざまなドメイン)にも適用できる機能エンジニアリング技術の標準的な本体はありますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.