前の質問で、CSVファイルを編集するためのツールについて尋ねました。
Gavinは 、Duncan MurdochによるR Helpのコメントにリンクしており 、Data Interchange FormatはCSVよりもデータを保存する信頼性の高い方法であると示唆しています。
一部のアプリケーションでは、専用のデータベース管理システムが必要です。ただし、小規模のデータ分析プロジェクトでは、より軽量なものがより適しているようです。
ファイル形式を評価するには、次の基準を考慮してください。
- reliabile:入力されたデータは、入力された内容に忠実でなければなりません。データは異なるソフトウェアで一貫して開く必要があります。
- simple:ファイル形式が理解しやすく、理想的には単純なテキストエディタで読みやすい場合は便利です。フォーマットを読み書きするための簡単なプログラムを書くのは簡単なはずです。
- open:形式は開いている必要があります
- 相互運用可能:ファイル形式は多くのシステムでサポートされる必要があります
タブとコンマで区切られた値の形式は、信頼性の基準で失敗します。ファイル形式ではなく、プログラムのインポートとエクスポートを非難できると思いますが。read.table
奇妙なキャラクターがデータフレームの読み込みを壊さないようにするために、オプションを少し調整する必要があることがよくあります
。
ご質問
- これらのニーズに最適なファイル形式はどれですか?
- データ交換形式はより良い代替手段ですか?それとも問題がありますか?
- 望ましい他の形式はありますか?
- TSVとCSVを不当に評価していますか?ファイル形式の信頼性を高めるようなファイルを操作するための簡単なヒントはありますか?
write.DIF()
私は恐れている一方通行の通りです。