RのtwitteRライブラリを使用してTwitterから大量のデータセット(つまり、数日前のツイートデータ)を取得することを目的とするプロジェクトに取り組んでいます。私のマシンには8 GBのメモリしかないため、ツイートを保存することが困難です。1日取得するように設定する前でも、メモリが不足しています。RAMに保存せずにツイートをディスクに直接保存できる方法はありますか?古いツイートを取得する必要があるため、ストリーミングAPIを使用していません。
RのtwitteRライブラリを使用してTwitterから大量のデータセット(つまり、数日前のツイートデータ)を取得することを目的とするプロジェクトに取り組んでいます。私のマシンには8 GBのメモリしかないため、ツイートを保存することが困難です。1日取得するように設定する前でも、メモリが不足しています。RAMに保存せずにツイートをディスクに直接保存できる方法はありますか?古いツイートを取得する必要があるため、ストリーミングAPIを使用していません。
回答:
プログラムが定期的にディスクに書き込む方法を見つけます。あなたがつかむつぶやきの数を数えて、その数が多い後に保存してください。私はRを書きませんが、擬似コードは次のようになります。
$tweets = get_tweets();
$count = 0;
$tweet_array = array();
for each ($tweets as $tweet) {
$tweet_array += $tweet;
$count++;
if ($count > 10000) {
append_to_file($tweet_array, 'file_name.txt');
clear_array($tweet_array);
}
}
私は昨年の秋にTwitterデータプロジェクトに取り組み、Javaライブラリを使用して、ストリーミングAPIとその他のAPIからツイートデータを取得しました。私たちは、使用Twitter4Jのために(非公式のJavaライブラリを) TwitterのAPI。
ツイートデータがフェッチされ、ハードドライブ上のテキストファイルに直接書き込まれました。はい、メモリとヒープを増やしました。Rスタジオにも同様のオプションがあると思います。別の方法は、より多くの繰り返しでより少ない量のツイートデータを取り込むことです。
gzipped
)に保存してから、分析のためにRに戻ってみませんか?