列やデータ型に関係なく、データのファイルを取り込むプロジェクトに取り組んでいる人を知っています。タスクは、任意の数の列とさまざまなデータ型を含むファイルを取得し、数値データの要約統計を出力することです。
ただし、特定の数値ベースのデータにデータ型を動的に割り当てる方法に確信が持てません。例えば:
CITY
Albuquerque
Boston
Chicago
これは明らかに数値データではなく、テキストとして保存されます。しかしながら、
ZIP
80221
60653
25525
カテゴリーとして明確にマークされていません。彼のソフトウェアは郵便番号を数値として割り当て、要約統計を出力しますが、そのようなデータには意味がありません。
私たちが持っていたいくつかのアイデアは:
- 列がすべて整数の場合は、カテゴリとしてラベルを付けます。これは明らかに機能しませんが、アイデアでした。
- 列に含まれる一意の値がn個未満で数値の場合は、カテゴリにラベルを付けます。これはもっと近いかもしれませんが、それでも数値データが抜け落ちる問題があるかもしれません。
- 実際にカテゴリでなければならない一般的な数値データのリストを維持し、列ヘッダーをこのリストと比較して一致するかどうかを確認します。たとえば、「ZIP」が含まれているものはすべてカテゴリです。
私の直感は、数値データをカテゴリーまたは数値として正確に割り当てる方法はないが、提案を望んでいたと私に伝えています。あなたが持っているどんな洞察も大歓迎です。