1. ホーム
  2. python

[解決済み] Python Pandas: CSVファイルの最初のn行だけを読み込むには?

2022-05-03 22:01:06

質問

非常に大きなデータセットを持っているのですが、データセット全体を読み込む余裕がありません。そこで、その中の1つの塊だけを読み込んで学習させようと考えているのですが、どうすればいいのか全く分かりません。何か考えがあれば教えてください。

どのように解決するのですか?

最初の999,999行(ヘッダ以外)だけを読みたい場合。

read_csv(..., nrows=999999)

1,000,000行目だけを読みたい場合 ... 1,999,999

read_csv(..., skiprows=1000000, nrows=999999)

ナローズ : int, default None 読み込むファイルの行数です。読み込むファイルの 大きなファイル*の断片を読み取る

スキップロー リスト形式または整数値 ファイルの先頭で、スキップする行番号(0-インデックス)またはスキップする行数(int)を指定します。

また、大きなファイルの場合は、chunksizeも使用することになるでしょう。

チャンクサイズ : int, デフォルトなし 反復処理用のTextFileReaderオブジェクトを返します。

pandas.io.parsers.read_csvドキュメント