私は言うと大規模な(約1200万行)データフレームdfがあります。
df.columns = ['word','documents','frequency']
したがって、以下はタイムリーに実行されました。
word_grouping = df[['word','frequency']].groupby('word')
MaxFrequency_perWord = word_grouping[['frequency']].max().reset_index()
MaxFrequency_perWord.columns = ['word','MaxFrequency']
ただし、これを実行するには予期しない長い時間がかかります。
Occurrences_of_Words = word_grouping[['word']].count().reset_index()
ここで何が悪いのですか?大きなデータフレームで発生をカウントするより良い方法はありますか?
df.word.describe()
かなりうまく動作したので、このOccurrences_of_Wordsデータフレームの作成に非常に長い時間がかかるとは本当に思っていませんでした。
ps:答えが明白で、この質問をすることでペナルティを課す必要があると感じた場合は、答えも含めてください。ありがとうございました。
df.word.value_counts()['myword']
、の約2倍の速度len(df[df.word == 'myword'])
です。