TwitterのRを使用して大規模なデータセットを保存する最良の方法は?


8

RのtwitteRライブラリを使用してTwitterから大量のデータセット(つまり、数日前のツイートデータ)を取得することを目的とするプロジェクトに取り組んでいます。私のマシンには8 GBのメモリしかないため、ツイートを保存することが困難です。1日取得するように設定する前でも、メモリが不足しています。RAMに保存せずにツイートをディスクに直接保存できる方法はありますか?古いツイートを取得する必要があるため、ストリーミングAPIを使用していません。


1
Pythonまたはコマンドラインツールだけを使用してTwitterデータを取得し、それをチャンク(もgzipped)に保存してから、分析のためにRに戻ってみませんか?
アントンTarasenko

Pythonはあなたが言及した方法を使用して古いツイートを取得できますか?
Digital Dude 2015年

できますが、TwitterまたはTwitterの歴史の別の販売者からAPIアクセスを購入する必要があります。
アントンTarasenko

回答:


5

プログラムが定期的にディスクに書き込む方法を見つけます。あなたがつかむつぶやきの数を数えて、その数が多い後に保存してください。私はRを書きませんが、擬似コードは次のようになります。

$tweets = get_tweets(); $count = 0; $tweet_array = array(); for each ($tweets as $tweet) { $tweet_array += $tweet; $count++; if ($count > 10000) { append_to_file($tweet_array, 'file_name.txt'); clear_array($tweet_array); } }


1
はい、プログラミングでは可能かもしれませんが、Rの場合、データの処理方法はまったく異なります。私はRのライブラリtwitteRを使用していますが、それを取得するのは1日です。searchTweets関数を再度実行した場合、ツイートを停止した時点からどのように続行するのかわかりません。
Digital Dude

私があなたを助けるためにRについてもっと知りたいと思います。ごめんなさい!
sheldonkreger 2015年

2

私は昨年の秋にTwitterデータプロジェクトに取り組み、Javaライブラリを使用して、ストリーミングAPIとその他のAPIからツイートデータを取得しました。私たちは、使用Twitter4Jのために(非公式のJavaライブラリを) TwitterのAPI

ツイートデータがフェッチされ、ハードドライブ上のテキストファイルに直接書き込まれました。はい、メモリとヒープを増やしました。Rスタジオにも同様のオプションがあると思います。別の方法は、より多くの繰り返しでより少ない量のツイートデータを取り込むことです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.