順序データまたは名義データのカテゴリをマージ/削減する方法は?


14

名義データまたは順序データのカテゴリ数を減らす方法を見つけるのに苦労しています。

たとえば、いくつかの名義因子と順序因子を持つデータセットで回帰モデルを構築するとします。このステップには問題はありませんが、名目上の特徴がトレーニングセットに観測されていないが、その後検証データセットに存在するという状況に遭遇することがよくあります。これは、モデルに(これまでに)目に見えないケースが存在する場合、当然、エラーにつながります。カテゴリを組み合わせたいもう1つの状況は、単純に観測値の少ないカテゴリが多すぎる場合です。

だから私の質問は:

  • 以前の実世界の背景情報に基づいて多くの名義(および順序)カテゴリを組み合わせることが最善かもしれないと思いますが、体系的な方法(Rできればパッケージ)が利用可能ですか?
  • どのようなガイドラインと提案、カットオフしきい値などを作成しますか?
  • 文献で最も人気のあるソリューションは何ですか?
  • 小さな名義カテゴリを新しい「OTHERS」カテゴリに結合する以外の戦略はありますか?

他にも提案がある場合は、お気軽にご連絡ください。


回答:


11

これは、2番目の質問に対する回答です。

私は疑う正しい意思決定のこれらの種類のアプローチが大きく懲戒規範とあなたの仕事の対象読者の期待によって決定されます。社会科学者として、私は調査(または調査に似た)データを扱うことが多く、順序尺度またはカテゴリ変数を折り畳むときは、実質的なロジックとデータ駆動型のロジックのバランスを常にとるようにしています。言い換えれば、アイテムを折りたたむ前に、その内容と応答の分布の観点から、アイテムのどの組み合わせが「結びつく」かを考えて最善を尽くします。

以下は、5ポイントの周波数スケールを含む特定の(通常の)調査質問の最近の例です。

コミュニティ内のクラブや組織の会議にはどれくらいの頻度で出席しますか?

  • 決して
  • 年に数回
  • 月に一度
  • 月に数回
  • 週に1回以上

現時点ではデータを入手できませんが、結果はスケールの「決して」終わりに向かって大きく歪んでいました。その結果、私の共著者と私は、「1か月に1回以上」と「1か月に1回未満」の2つのグループに回答をプールすることにしました。結果の(バイナリ)変数はより均等に分散され、実際的な意味で有意義な区別反映しました。多くのクラブや組織は月に1回しか会合を開かないため、少なくとも会合に出席する人々は少なくともそのようなグループの「アクティブな」メンバーは、参加頻度が低い(またはまったくない)人々は「非アクティブ」です。

私の経験では、これらの決定は少なくとも科学と同じくらい芸術です。とはいえ、私は通常、モデルをフィッティングする前にこれを行うことも試みます。なぜなら、他のものはデータマイニングと非科学的(楽しい時間!)

このことを念頭に置いて、この作品についてどのような観客を念頭に置いているかについてもう少し言えば役立つかもしれません。また、特定の研究コミュニティにおける「正常な」行動のパスを明確にすることができるため、あなたの分野のいくつかの著名な方法論の教科書を確認することもあなたの最大の利益になります。


5

アショーが議論する種類のアプローチは、比較的体系的な方法論につながる可能性があります。しかし、体系的とはアルゴリズムを意味するとも思います。ここで、データマイニングツールがギャップを埋めることがあります。1つには、SPSSのディシジョンツリーモジュールに組み込まれたカイ二乗自動相互作用検出(CHAID)プロシージャがあります。ユーザーが設定したルールに従って、予測変数の順序カテゴリまたは名義カテゴリが、結果変数で同様の値を示す場合(連続または名義に関係なく)折りたたむことができます。これらのルールは、折りたたまれているグループまたは折りたたまれて作成されているグループのサイズ、またはp-関連する統計的検定の値。一部の分類および回帰ツリー(CART)プログラムでも同じことができると思います。他の回答者は、ニューラルネットワークまたはさまざまなデータマイニングパッケージを通じて提供される他のアプリケーションによって実行される同様の機能について話すことができるはずです。


素晴らしい点、@ rolando-元の投稿はトレーニングと検証のデータセットを参照しているので、あなたの応答は実際には@Figaroでより使いやすいと思われます。
ashaw

貴重なご意見ありがとうございます。@ rolando2あなたは私の曖昧な言葉遣いについて正しい、アルゴリズム的が私が目指していた方向でした。
フィガロ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.