スマートフォンのデータセット問題を使用した人間活動認識

私はこのコミュニティに不慣れです。うまくいけば、私の質問がここに収まるでしょう。学部のデータ分析コースの一環として、スマートフォンのデータセットを使用して、人間の行動認識に関するプロジェクトを行うことにしました。私に関する限り、このトピックは機械学習とサポートベクターマシンに関連しています。私はまだこの技術に詳しくないので、助けが必要です。

私はこのプロジェクトのアイデアに従うことにしましたhttp://www.inf.ed.ac.uk/teaching/courses/dme/2014/datasets.htmlプロジェクトの目標は、人間とは何か活動を決定です（一番上の最初のプロジェクトを）スマートフォン（Samsung Galaxy S II）が被験者の腰に記録したデータから（例：WALKING、WALKING_UPSTAIRS、WALKING_DOWNSTAIRS、SITTING、STANDING、LAYING）内蔵の加速度計とジャイロスコープを使用して、データには3軸の線形加速度と50Hzの一定速度での3軸の角速度が含まれます。

すべてのデータセットは、いくつかの説明と機能ラベルが付いた1つのフォルダーに含まれています。データは「テスト」ファイルと「トレーニング」ファイルに分割され、データは次の形式で表されます。

  2.5717778e-001 -2.3285230e-002 -1.4653762e-002 -9.3840400e-001 -9.2009078e-001 -6.6768331e-001 -9.5250112e-001 -9.2524867e-001 -6.7430222e-001 -8.9408755e-001 -5.5457721e-001 -4.6622295e-001  7.1720847e-001  6.3550240e-001  7.8949666e-001 -8.7776423e-001 -9.9776606e-001 -9.9841381e-001 -9.3434525e-001 -9.7566897e-001 -9.4982365e-001 -8.3047780e-001 -1.6808416e-001 -3.7899553e-001  2.4621698e-001  5.2120364e-001 -4.8779311e-001  4.8228047e-001 -4.5462113e-002  2.1195505e-001 -1.3489443e-001  1.3085848e-001 -1.4176313e-002 -1.0597085e-001  7.3544013e-002 -1.7151642e-001  4.0062978e-002  7.6988933e-002 -4.9054573e-001 -7.0900265e-001

そして、それはファイルに含まれる内容のごく一部にすぎません。

このデータが何を表し、どのように解釈できるのか、私にはよくわかりません。また、データの分析、分類、およびクラスタリングには、どのツールを使用する必要がありますか？このデータをラベルを含めてExcelに入れて、たとえばRまたはPythonを使用してサンプルデータを抽出し、これに取り組む方法はありますか？

ヒント/ヒントをいただければ幸いです。

— じゃくべえ
ソース

回答:

データセットの定義は、このページにあります。

下部の属性情報

または、ZIPフォルダー内にactivity_labelsという名前のファイルがあり、その中に列見出しがあります。READMEをよく読んでください。コマンド.csvを使用して、Rにファイルを簡単に取り込むことができますread.csv。

たとえば、ファイルに名前を付けるsamsungdataと、Rを開いて次のコマンドを実行できます。

data <- read.csv("directory/where/file/is/located/samsungdata.csv", header = TRUE)

または、Rの作業ディレクトリ内にすでにいる場合は、次のコマンドを実行するだけです。

data <- read.csv("samsungdata.csv", header = TRUE)

名前dataは、データセットを呼び出したい名前に変更できます。

— MCP_infiltrator
ソース

そうですか。私はREADMEファイルを調べましたが、それでも自分自身でデータを読み取る方法がわかりません。たとえば、train / X_train.txt 'ファイルはトレーニングセットを表します（投稿で示したサンプルデータはこのファイルからのものです）。

— ジャクビー

データセットはかなり広いようですが、features.txtファイル内にリストされている行ごとに561の変数があります。それがあなたの言っていることだと思います。

— MCP_infiltrator 2014年

したがって、「features」ファイルの各変数は、「x-test.txt」ファイルの各列に対応していますか、それとも間違っていますか？

— ジャクビー2014年

それは私がそれを取っている方法です。私がREADMEから収集できたことは、ファイルに含まれていることです。

— MCP_infiltrator 2014年

@Jakubeeはい。features.txtファイルには561行/変数名、ファイルには561列があり、X_train.txt変数ごとに1つあります。

— Marco13、2014年

これ（または非常に類似したデータセット）がCourseraコースで使用されているようです。このデータセットの消去は、データの取得と消去のタスクですが、探索的データ分析のケーススタディにも使用されます。このケーススタディのビデオは、EDAコースウェアの第4週のビデオでご覧いただけます。このデータから始めるのに役立つかもしれません。

— ダミアン・メルニズク
ソース