行の長さを事前に知らなくても、ファイルのread_csv
最初のn
行だけを読み取るための組み込みの方法はありますか?読み取るのに長い時間がかかる大きなファイルがあり、たまに最初の20行だけを使用してサンプルを取得したい場合があります(すべてをロードしてその先頭をとらない方がよい)。
行の総数がわかっている場合は、次のようにfooter_lines = total_lines - n
してこれをskipfooter
キーワードargに渡すことができます。私の現在の解決策はn
、PythonとStringIOで最初の行を手動で取得してパンダに渡すことです。
import pandas as pd
from StringIO import StringIO
n = 20
with open('big_file.csv', 'r') as f:
head = ''.join(f.readlines(n))
df = pd.read_csv(StringIO(head))
それはそれほど悪くはありませんが、キーワードや何かでそれを行うためのより簡潔で「パンダシック」(?)な方法はありますか?
1
最後のN行を読み込む方法を確認するには、このSOポストを
—
zelusp
「パンダスティック」ですか?:)
—
1 ''