1. ホーム
  2. r

グループごとに連続した行の値の差を計算する

2023-11-14 06:32:58

質問

これは、私の df (data.frame)を使用しています。

group value
1     10
1     20
1     25
2     5
2     10
2     15 

連続した行の値の差をグループ別に計算したいのですが。

なので、その結果が必要です。

group value diff
1     10    NA # because there is a no previous value
1     20    10 # value[2] - value[1]
1     25    5  # value[3] value[2]
2     5     NA # because group is changed
2     10    5  # value[5] - value[4]
2     15    5  # value[6] - value[5]

しかし,この問題は ddply を使うことで対処できますが、時間がかかりすぎます。というのも、私の場合、多くのグループが df . (の中に1,000,000以上のグループがあるからです。 df )

この問題を処理するために、他に有効なアプローチはありますか?

どのように解決するのですか?

パッケージ data.table を使うと、かなり素早くこれを行うことができます。 shift 関数を使用することで、かなり迅速に行うことができます。

require(data.table)
df <- data.table(group = rep(c(1, 2), each = 3), value = c(10,20,25,5,10,15))
#setDT(df) #if df is already a data frame

df[ , diff := value - shift(value), by = group]    
#   group value diff
#1:     1    10   NA
#2:     1    20   10
#3:     1    25    5
#4:     2     5   NA
#5:     2    10    5
#6:     2    15    5
setDF(df) #if you want to convert back to old data.frame syntax


または lag 関数で dplyr

df %>%
    group_by(group) %>%
    mutate(Diff = value - lag(value))
#   group value  Diff
#   <int> <int> <int>
# 1     1    10    NA
# 2     1    20    10
# 3     1    25     5
# 4     2     5    NA
# 5     2    10     5
# 6     2    15     5


代替のプレ data.table::shift とプリ dplyr::lag は、編集を参照してください。