統計的推論における特徴エンジニアリングの役割は何ですか？

7

これは馬鹿げた質問かもしれません。私は最近の大学卒業生で、予測モデリングの分野で働いており、機能エンジニアリングの実行に重点が置かれていることに気づきました。ただし、統計学に関する私の学術的トレーニングのほとんどでは、推論モデルを構築するための特徴エンジニアリングなど（離散化/ビニング予測子に対する議論以外）についてほとんど言及されていませんでした。統計的推論用のモデルを開発するのではなく、予測モデリングを行うときに機能エンジニアリングがより大きな役割を果たすのはなぜかと思いました。それで...統計的推論における特徴エンジニアリングの役割は何ですか？（予測モデリングにおける機能エンジニアリングの役割とは対照的に）

最近のコメントに基づいて：

統計的推論とは、予測子と応答変数の間の関係を評価することを主な目的とする分析を意味します。
予測モデリングとは、主な目標がYの推定または将来の値の予測であるすべての分析を意味します。（すべてのMLテクニックを含む）

inference feature-construction

— 男
ソース

おそらくqを編集できます。予測と推論の違いを少し説明します。

— Scortchi-モニカの回復

@aguy精度ありがとうございます。ただし、予測は常にまだ発生していないイベントに関するものだと私は言ったでしょう。私がMLの分野で行った研究から、予測モデリングにはすべての機械学習技術が含まれているとは言えません。統計的推論は、分類とクラスタリングから仮説検定からパラメーター推定までのアプローチと問題の大規模なセットを埋め込む広い用語です。

— Eskapp 2016年

2

特徴エンジニアリングの背後にある一般的な理由を説明しようと思います。たとえば、画像を分析したいとします。

フィーチャーを設計するときは、それらが元のデータ/イメージの表現であることを覚えておく必要があります。さて、私がしなければならないタスクにとってどのような情報が重要であるかを知っている場合、これを反映する機能が必要です。

たとえば、画像の内容を知りたい場合、画像のピクセル数を機能として選択すると、明らかに機能しません。ここで、パッチ全体のピクセルの平均強度を使用することを選択すると、青色の画像と白色の画像を区別できるようになります。しかし、画像にオブジェクトが存在するかどうかを知りたい場合、この機能は役に立ちません。そのため、ピクセル間の輝度勾配を考慮して、その変化を見ることができます（ただし、画像が青か白かどうかはわかりません）。

理想的な機能はありません。特定のタスク用に設計された機能だけがあり、このタスクはフレームワーク全体を設計する人、つまりあなただけが知っています。これが特徴エンジニアリングが重要な理由です。ただし、機能設計のトピックに関する調査は膨大であり、作業しているほとんどのタスクについて、誰かが既に優れた動作をすることが証明されている機能を設計しており、そのまま使用することができます（または必要に応じて少しひねります）。

最も効率的な機能は、さまざまな数学的分野の理論に基づいており、その適用範囲は何とか狭いです。反対に、分類子は多くの場合幅広い用途を持っているため、大学で勉強している間、分類子はしばしばそれらに重点を置いていると思います。

— エスカップ
ソース

私の質問をもう一度読んでください。私は、予測とは対照的に統計的推論における特徴エンジニアリングの役割について、そしてなぜ一方が他方よりもそれをより重視するのかについて質問していました

— AGUY

@aguyまず、分類モデルは統計的推論に基づくことができます。第二に、「統計的推論のためのモデルの開発とは対照的に、予測モデリングを行う場合、機能エンジニアリングがより大きな役割を果たす」とは思わない。特徴は一部のデータの表現であり、空間へのデータの投影として見ることができます。これは、何であれ（予測、分類、クラスタリングなど）、何をする必要があるかにより便利です。次に、一部のモデルを使用すると、フィーチャを設計するときに考慮する必要のあるいくつかの制約が生じる可能性があります。

— Eskapp 2016年

私の最後の段落は実際にあなたの状態を裏付けていました：クラスでは、機能の設計についてはめったに聞いていませんが、任意のモデル（予測など）で実際に作業を開始すると、それらが重要であることがわかります。

— Eskapp 2016年

1

このWikiの記事（https://en.wikipedia.org/wiki/Feature_engineering）が明らかにしているように、機能エンジニアリングは機械学習の重要なステップであり、経験的に証明できる一連の機能または属性の生成と育成を含みます（必ず理論的には）ターゲットの予測または分類に役立ちます。Andrew Ng（およびその他）は、一連の機能の開発において専門家やドメインの知識を大いに活用しますが、モデルの適合性を向上させるためにデータに適用できる多数の変換、一般的に分析される大量の機能、および「採用されているアルゴリズムの多くはブラックボックスの性質を持っているので、ドメインの知識はほとんど優先順位のようには見えません。

私にとって、推論と予測および分類を別々のドメインとして見ることができ、前者は統計に属し、後者は機械学習の焦点であると指摘することは常に有用です。明らかに、この用語とこれらのフィールドには多くの重複があります。つまり、これらは決して相互に排他的ではありません。大まかに言えば、統計的推論には、専門家、ドメイン知識、仮説の慎重な仕様、属性または機能の有限（小さい）セット、および仮説を検証するための実験計画との組み合わせが含まれます。グラウンドトゥルースに対する理解。一方、MLの予測と分類は、仮説に基づく場合もそうでない場合もあり、説明的な洞察を目標とする場合とそうでない場合があり、ベンチマークとしてグラウンドトゥルースがある場合とない場合があります。

— マイク・ハンター
ソース

-1

機能エンジニアリングは、大まかに言って、少なくとも2つのことを行います。

最初に、有用な情報が強化され、冗長な情報やノイズ情報が最小限に抑えられるように、機能を整理、再構築、または変換できます。おそらく、人/製品/ウィジェットの1つのカテゴリはまったく無関係であり、それらを削除することを知っています。

次に、特定の分野のドメイン知識に基づいて新しい機能を作成できます。この場合、以前は存在しなかった新しい情報を実際に追加します。私自身の仕事では、最も有用なのはこれらの設計された機能です。

これはおそらく教えるのは難しいですが、プログラムがこの非常に重要なステップを見落としたのは残念です。

— ハイツ
ソース

私の質問をもう一度読んでください。私は、予測とは対照的に、統計的推論における特徴エンジニアリングの役割について、そしてなぜ一方が他方よりもそれをより重視するのかを尋ねていました

— AGUY