データ分析プロジェクトで作業するとき、データをコンマまたはタブ区切り(CSV、TSV)データファイルに保存することがよくあります。多くの場合、データは専用のデータベース管理システムに属します。私のアプリケーションの多くにとって、これはやり過ぎです。
Excel(またはおそらく別のスプレッドシートプログラム)でCSVファイルとTSVファイルを編集できます。これには利点があります。
- スプレッドシートを使用すると、データを簡単に入力できます
また、いくつかの問題があります。
- CSVファイルとTSVファイルを使用すると、さまざまな機能が失われたり、アクティブシートのみがどのように保存されるかなど、さまざまな警告メッセージが表示されます。したがって、ファイルを開いて少し変更したいだけの場合は迷惑です。
- 多くの「おそらくインテリジェントな」変換を行います。たとえば、12/3と入力すると、日付を入力したいと考えられます。 更新:日付の例は、多くの例の1つにすぎないことを述べたはずです。ほとんどの問題は不適切な変換に関連しているようです。特に、数字や日付のように見えるテキストフィールドは問題を引き起こします。
または、標準のテキストエディターでテキストファイルを直接操作することもできます。これにより、入力した内容が記録されます。ただし、データを入力するのは非常に厄介な方法です(列が揃っていません。複数のセルに単純にデータを入力することは困難です。など)。
質問
- CSVまたはTSVデータファイルを操作するための優れた戦略は何ですか?つまり、入力した内容が実際に正しく解釈されるようにしながら、データの入力と操作を簡単にする戦略は何ですか?