ホーム
r

[解決済み] グループごとに最初の行を選択する

2022-11-22 13:33:39

質問

このようなデータフレームから

test <- data.frame('id'= rep(1:5,2), 'string'= LETTERS[1:10])
test <- test[order(test$id), ]
rownames(test) <- 1:10

> test
    id string
 1   1      A
 2   1      F
 3   2      B
 4   2      G
 5   3      C
 6   3      H
 7   4      D
 8   4      I
 9   5      E
 10  5      J

各ID/文字列のペアの最初の行で新しいものを作りたいのです。sqldfがその中にRのコードを受け入れた場合、クエリは次のようになります。

res <- sqldf("select id, min(rownames(test)), string 
              from test 
              group by id, string")

> res
    id string
 1   1      A
 3   2      B
 5   3      C
 7   4      D
 9   5      E

のような新しいカラムを作成する以外の解決策はあるのでしょうか？

test$row <- rownames(test)

とmin(row)を使って同じsqldfクエリを実行すると？

どのように解決するのですか？

この場合 duplicated を使うと、非常に素早くこれを行うことができます。

test[!duplicated(test$id),]

ベンチマーク、スピード狂のために。

ju <- function() test[!duplicated(test$id),]
gs1 <- function() do.call(rbind, lapply(split(test, test$id), head, 1))
gs2 <- function() do.call(rbind, lapply(split(test, test$id), `[`, 1, ))
jply <- function() ddply(test,.(id),function(x) head(x,1))
jdt <- function() {
  testd <- as.data.table(test)
  setkey(testd,id)
  # Initial solution (slow)
  # testd[,lapply(.SD,function(x) head(x,1)),by = key(testd)]
  # Faster options :
  testd[!duplicated(id)]               # (1)
  # testd[, .SD[1L], by=key(testd)]    # (2)
  # testd[J(unique(id)),mult="first"]  # (3)
  # testd[ testd[,.I[1L],by=id] ]      # (4) needs v1.8.3. Allows 2nd, 3rd etc
}

library(plyr)
library(data.table)
library(rbenchmark)

# sample data
set.seed(21)
test <- data.frame(id=sample(1e3, 1e5, TRUE), string=sample(LETTERS, 1e5, TRUE))
test <- test[order(test$id), ]

benchmark(ju(), gs1(), gs2(), jply(), jdt(),
    replications=5, order="relative")[,1:6]
#     test replications elapsed relative user.self sys.self
# 1   ju()            5    0.03    1.000      0.03     0.00
# 5  jdt()            5    0.03    1.000      0.03     0.00
# 3  gs2()            5    3.49  116.333      2.87     0.58
# 2  gs1()            5    3.58  119.333      3.00     0.58
# 4 jply()            5    3.69  123.000      3.11     0.51

もう一度、最初のヒートの出場者だけで、より多くのデータとより多くの複製で試してみましょう。

set.seed(21)
test <- data.frame(id=sample(1e4, 1e6, TRUE), string=sample(LETTERS, 1e6, TRUE))
test <- test[order(test$id), ]
benchmark(ju(), jdt(), order="relative")[,1:6]
#    test replications elapsed relative user.self sys.self
# 1  ju()          100    5.48    1.000      4.44     1.00
# 2 jdt()          100    6.92    1.263      5.70     1.15

[解決済み] グループごとに最初の行を選択する

質問

どのように解決するのですか？

関連

二項演算子への非数値引数を報告するR言語エラー

[解決済み] Rの%*%の意味 [重複]について

[解決済み] ggplot 2.0.0でのポイントサイズ

[解決済み] 列の値に基づいてDataFrameから行を選択するにはどうすればよいですか？

[解決済み] Pandas DataFrameの行数を取得する方法は？

[解決済み] 一行ずつ追加してPandas Dataframeを作成する

[解決済み] Pandasのデータフレームから行を選択するために値のリストを使用する

[解決済み] なぜ `[`] は `subset` よりも優れているのですか？

[解決済み】ifelse()でDateオブジェクトがnumericオブジェクトにならないようにする方法

[解決済み] 各グループの最初の行を選択するにはどうすればよいですか？

最新

nginxです。[emerg] 0.0.0.0:80 への bind() に失敗しました (98: アドレスは既に使用中です)

htmlページでギリシャ文字を使うには

ピュアhtml+cssでの要素読み込み効果

純粋なhtml + cssで五輪を実現するサンプルコード

ナビゲーションバー・ドロップダウンメニューのHTML+CSSサンプルコード

タイピング効果を実現するピュアhtml+css

htmlの選択ボックスのプレースホルダー作成に関する質問

html css3 伸縮しない画像表示効果

トップナビゲーションバーメニュー作成用HTML+CSS

html+css 実装サイバーパンク風ボタン

おすすめ

二項演算子への非数値引数を報告するR言語エラー

Rでファイルを読み込む際に、そのようなファイルまたはディレクトリが見つかりません。

[解決済み] Rで文字列から文字を削除する

[解決済み] Rの代入演算子"="と"<-"の違いは何ですか？

[解決済み] パッケージ 'xxx' は利用できません (for R version x.y.z) 」という警告にどのように対処したらよいですか？

[解決済み] コマンドラインからRスクリプトを実行する

[解決済み] 空のdata.frameを作成する

[解決済み] ベクトル中のある要素のインデックスを求めるR関数はありますか？

[解決済み] R および RStudio のコンソールをクリアする関数

[解決済み】私のggplot2構文が賢明であるときに、R CMDチェック「no visible binding for global variable」注記を処理するにはどうすればよいですか？