タグ付けされた質問 「numerical」

6
月と時間などの機能をカテゴリまたは数値としてエンコードしますか?
機械学習モデルで、月や時間などの機能を係数または数値としてエンコードする方が良いでしょうか? 一方で、時間は順方向に進行するプロセスであるため(5か月後に6か月が経過するため)、数値エンコードは合理的であると感じますが、一方で、周期的性質のためにカテゴリーエンコードがより合理的であると思います年と日(12番目の月の後に最初の月が続きます)。 これに一般的な解決策や慣習はありますか?

3
カテゴリカルデータと数値データを動的に区別するにはどうすればよいですか?
列やデータ型に関係なく、データのファイルを取り込むプロジェクトに取り組んでいる人を知っています。タスクは、任意の数の列とさまざまなデータ型を含むファイルを取得し、数値データの要約統計を出力することです。 ただし、特定の数値ベースのデータにデータ型を動的に割り当てる方法に確信が持てません。例えば: CITY Albuquerque Boston Chicago これは明らかに数値データではなく、テキストとして保存されます。しかしながら、 ZIP 80221 60653 25525 カテゴリーとして明確にマークされていません。彼のソフトウェアは郵便番号を数値として割り当て、要約統計を出力しますが、そのようなデータには意味がありません。 私たちが持っていたいくつかのアイデアは: 列がすべて整数の場合は、カテゴリとしてラベルを付けます。これは明らかに機能しませんが、アイデアでした。 列に含まれる一意の値がn個未満で数値の場合は、カテゴリにラベルを付けます。これはもっと近いかもしれませんが、それでも数値データが抜け落ちる問題があるかもしれません。 実際にカテゴリでなければならない一般的な数値データのリストを維持し、列ヘッダーをこのリストと比較して一致するかどうかを確認します。たとえば、「ZIP」が含まれているものはすべてカテゴリです。 私の直感は、数値データをカテゴリーまたは数値として正確に割り当てる方法はないが、提案を望んでいたと私に伝えています。あなたが持っているどんな洞察も大歓迎です。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.