私のコメントで述べたように、実際の答えを定式化するための質問には十分な詳細がありません。適切な用語を見つけて質問を定式化することさえ助けが必要なので、一般論で簡単に話すことができます。
あなたが探している用語は、データのクリーニングです。これは、未加工のフォーマットが不十分な(ダーティな)データを取得し、分析のために形にするプロセスです。フォーマットの変更と正則化(「2」→ 2)および行と列の再編成は、一般的なデータクリーニングタスクです。
ある意味では、データクリーニングは任意のソフトウェアで実行でき、ExcelまたはRを使用して実行できます。両方の選択には長所と短所があります。
- Excel: Excelは、ほぼ確実にデータクリーニングの最も一般的な選択肢です(R fortunes#59 pdfを参照)。また、統計学者からは不適切な選択と見なされています。主な理由は、すべてをキャッチしたこと、またはすべてを同じように処理したこと、および行った変更の記録がないことを確認することが難しいため、それらの変更を後で再確認できないことです。Excelを使用する利点は、何をしているかを確認しやすくなり、変更を行うために多くを知る必要がないことです。(統計学者は後者を追加の欠点と見なします。)
R: Rには急な学習曲線が必要です。Rやプログラミングにあまり慣れていない場合、Excelで非常に迅速かつ簡単にできることは、Rで試行するのがいらいらするでしょう。よく過ごした時間。さらに、Rのデータをクリーニングするためのコードを作成して保存する機能により、上記の短所が軽減されます。以下は、Rでこれらのタスクを開始するのに役立ついくつかのリンクです。
Stack Overflowで多くの良い情報を得ることができます:
Quick-Rも貴重なリソースです。
数値を数値モードにする:
Rについて学ぶためのもう1つの貴重な情報源は、UCLAの統計ヘルプWebサイトです。
最後に、古き良きGoogleで多くの情報をいつでも見つけることができます。
- この検索:rでのデータクリーニングでは、多くのチュートリアルが表示されます(FTRを使用したことはありません)。
更新:これは、「研究単位」(あなたの場合は人)ごとに複数の測定値がある場合のデータセットの構造に関する一般的な問題です。すべての人に1つの行がある場合、データは「ワイド」形式であると言われますが、たとえば、応答変数には必ず複数の列が必要になります。一方、応答変数用の列を1つだけ持つことができます(ただし、結果として人ごとに複数の行があります)。その場合、データは「長い」形式であると言われます。これらの2つの形式の間を移動することは、特にRの世界では、データの「形状変更」と呼ばれます。
- このための標準R関数は?reshapeです。使用するためのガイドがあります
reshape()
UCLAの統計ヘルプWebサイトでます。
- 多くの人
reshape
は仕事が難しいと考えています。 Hadley Wickhamは、プロセスを簡素化することを目的としたreshape2と呼ばれるパッケージを提供しました。reshape2のHadleyの個人Webサイトはこちら、Quick-Rの概要はこちら、そして見栄えの良いチュートリアルはこちらです。
- SOには、データの再構成方法について非常に多くの質問があります。それらのほとんどは、一般的にデータアナリストが直面しているものであるため、ワイドからロングに移行することです。あなたの質問は長いものから広いものへと進むことです。これはあまり一般的ではありませんが、それについてはまだ多くのスレッドがあります。この検索でそれらを調べることができます。
- Excelでこれを実行しようとする場合は、Excel用のVBAマクロを記述して、ここで形状変更機能を複製するスレッドがあります。
data.table
、dplyr
、plyr
、とreshape2
-私は、可能な場合はExcelとピボットテーブルを避けることをお勧めします。