1. ホーム
  2. パイソン

[解決済み】Pandasのデータフレームをディスクに保存したり、ディスクから読み込んだりする可逆的な方法

2022-04-14 08:12:13

質問

今、私はかなり大きな CSV をデータフレームとしてスクリプトを実行するたびに作成します。スクリプトの実行を待つ時間をなくすために、実行の合間にデータフレームを常に利用できるようにする良い解決策はないでしょうか?

解決方法は?

最も簡単な方法は ピックル を使用しています。 to_pickle :

df.to_pickle(file_name)  # where to save it, usually as a .pkl

そして、それを使ってロードし直すことができます。

df = pd.read_pickle(file_name)

注意:0.11.1以前 saveload が唯一の方法でした(現在では非推奨で to_pickleread_pickle それぞれ)。


も人気です。 HDF5 ( パイテーブルズ を提供しています。 見る見るうちに 大規模なデータセットに対するアクセス時間

import pandas as pd
store = pd.HDFStore('store.h5')

store['df'] = df  # save it
store['df']  # load it

より高度な戦略については 料理本 .


0.13以降では、次のようなものもあります。 メッセージパック これは、相互運用性、JSON の高速化、あるいは Python オブジェクトやテキストを多用するデータの場合などに適しています ( この質問 ).