[解決済み] pandas apply()から複数カラムを返す

2022-03-03 09:30:50

質問

pandasのDataFrameを持っています。 df_test . これは、バイト単位でサイズを表す列 'size' を含んでいます。私は以下のコードを使ってKB、MB、GBを計算しました。

df_test = pd.DataFrame([
    {'dir': '/Users/uname1', 'size': 994933},
    {'dir': '/Users/uname2', 'size': 109338711},
])

df_test['size_kb'] = df_test['size'].astype(int).apply(lambda x: locale.format("%.1f", x / 1024.0, grouping=True) + ' KB')
df_test['size_mb'] = df_test['size'].astype(int).apply(lambda x: locale.format("%.1f", x / 1024.0 ** 2, grouping=True) + ' MB')
df_test['size_gb'] = df_test['size'].astype(int).apply(lambda x: locale.format("%.1f", x / 1024.0 ** 3, grouping=True) + ' GB')

df_test


             dir       size       size_kb   size_mb size_gb
0  /Users/uname1     994933      971.6 KB    0.9 MB  0.0 GB
1  /Users/uname2  109338711  106,776.1 KB  104.3 MB  0.1 GB

[2 rows x 5 columns]

120,000行で実行したところ、%timeitによると、1列あたり約2.97秒 * 3 = ~9秒かかることがわかりました。

もっと速くする方法はないでしょうか？例えば、applyから一度に1列ずつ返して3回実行する代わりに、1回で3列全部を返して元のデータフレームに挿入することは可能でしょうか？

他の質問で見つけたのは、すべて次のようなものでした。 複数の値を取り、1つの値を返す . 私がしたいのは 一つの値を取り、複数の列を返す .

どのように解決するのですか？

適用した関数から新しいデータを含むSeriesを返すことで、3回反復する必要がなくなります。渡し方 axis=1 を適用関数に渡すと、その関数 sizes をデータフレームの各行に適用し、新しいデータフレームに追加するための系列を返します。この系列 s には、元のデータだけでなく、新しい値も含まれます。

def sizes(s):
    s['size_kb'] = locale.format("%.1f", s['size'] / 1024.0, grouping=True) + ' KB'
    s['size_mb'] = locale.format("%.1f", s['size'] / 1024.0 ** 2, grouping=True) + ' MB'
    s['size_gb'] = locale.format("%.1f", s['size'] / 1024.0 ** 3, grouping=True) + ' GB'
    return s

df_test = df_test.append(rows_list)
df_test = df_test.apply(sizes, axis=1)

[解決済み] pandas apply()から複数カラムを返す

質問

どのように解決するのですか？

関連

[解決済み】"No JSON object could be decoded "よりも良いエラーメッセージを表示する。

[解決済み] 複数の例外を1行でキャッチする（ブロックを除く）

[解決済み] PandasでDataFrameの行を反復処理する方法

[解決済み] 列の値に基づいてDataFrameから行を選択するにはどうすればよいですか？

[解決済み] Pandasのカラム名のリネーム

[解決済み] Pandas DataFrameからカラムを削除する

[解決済み] Pandasのデータフレームで複数の列を選択する

[解決済み] Pandas DataFrameの行数を取得する方法は？

[解決済み] pandas が他の列の値に基づいて新しい列を作成する / 複数の列の関数を行単位で適用する

[解決済み】Pandas DataFrameのカラムヘッダからリストを取得する。

最新

nginxです。[emerg] 0.0.0.0:80 への bind() に失敗しました (98: アドレスは既に使用中です)

htmlページでギリシャ文字を使うには

ピュアhtml+cssでの要素読み込み効果

純粋なhtml + cssで五輪を実現するサンプルコード

ナビゲーションバー・ドロップダウンメニューのHTML+CSSサンプルコード

タイピング効果を実現するピュアhtml+css

htmlの選択ボックスのプレースホルダー作成に関する質問

html css3 伸縮しない画像表示効果

トップナビゲーションバーメニュー作成用HTML+CSS

html+css 実装サイバーパンク風ボタン

おすすめ

PythonによるLeNetネットワークモデルの学習と予測

Python Decorator 練習問題

Python LeNetネットワークの説明とpytorchでの実装

[解決済み] [Solved] sklearn error ValueError: 入力に NaN、infinity または dtype('float64') に対して大きすぎる値が含まれている。

[解決済み] _tkinter.TclError: 表示名がなく、$DISPLAY環境変数もない。

[解決済み】numpyの配列連結。"ValueError:すべての入力配列は同じ次元数でなければならない"

[解決済み】numpy: true_divide で無効な値に遭遇

[解決済み】ImportError: PILという名前のモジュールがない

[解決済み】終了コード -1073741515 (0xC0000135)でプロセス終了）

[解決済み] builtins.TypeError: strでなければならない、bytesではない