Как удалить столбец по имени в data.table?

Question

Как удалить столбец по имени в data.table?

166

Чтобы избавиться от столбца с именем "foo" в data.frame, я могу сделать:

df <- df[-grep('foo', colnames(df))]

Однако, как только df преобразуется в объект data.table, невозможно просто удалить столбец.

Пример:

df <- data.frame(id = 1:100, foo = rnorm(100))
df2 <- df[-grep('foo', colnames(df))] # works
df3 <- data.table(df)
df3[-grep('foo', colnames(df3))]

Но как только он преобразуется в объект data.table, это больше не работает.

Maiasaura 08 фев. 2012, в 21:37

Источник

1

Было бы яснее назвать data.table dt вместо df3 ...
PatrickT 19 дек. 2015, в 08:38

Теги:

r

data.table

8 ответов

30

Вы также можете использовать set для этого, что позволяет избежать накладных расходов на [.data.table в циклах:

dt <- data.table( a=letters, b=LETTERS, c=seq(26), d=letters, e=letters )
set( dt, j=c(1L,3L,5L), value=NULL )
> dt[1:5]
   b d
1: A a
2: B b
3: C c
4: D d
5: E e

Если вы хотите сделать это по имени столбца, which(colnames(dt) %in% c("a","c","e")) должен работать для j.

Ari B. Friedman 21 окт. 2013, в 21:44

0

В data.table 1.11.8, если вы хотите сделать это по имени столбца, вы можете сделать непосредственно rm.col = c("a","b") и dt[, (rm.col):=NULL]
Duccio A 10 дек. 2018, в 11:08

15

Я просто делаю это в виде кадра:

DT$col = NULL

Работает быстро и насколько я мог видеть, не вызывает никаких проблем.

UPDATE: не лучший метод, если ваш DT очень большой, поскольку использование оператора $<- приведет к копированию объекта. Поэтому лучше использовать:

DT[, col:=NULL]

msp 19 май 2013, в 21:33

3

Очень простая опция, если у вас есть много отдельных столбцов для удаления в таблице данных, и вы хотите избежать ввода всех имен столбцов #careadviced

dt <- dt[, -c(1,4,6,17,83,104), with =F]

Вместо этого удаляются столбцы на основе номера столбца.

Это явно не так эффективно, потому что он обходит преимущества data.table, но если вы работаете с менее чем 500 000 строк, он отлично работает

SJDS 03 июль 2015, в 03:09

0

Плюс 1. И вскоре в CRAN v1.9.8 вам больше не нужна часть with=F
Matt Dowle 15 нояб. 2016, в 02:43

0

Предположим, что у вашего dt есть столбцы col1, col2, col3, col4, col5, coln.

Чтобы удалить подмножество из них:

vx <- as.character(bquote(c(col1, col2, col3, coln)))[-1]
DT[, paste0(vx):=NULL]

Ricardo Paixao 24 фев. 2017, в 04:04

0

это должен быть комментарий
Sachila Ranawaka 24 фев. 2017, в 03:30

-1

DT[,c:=NULL] # remove column c

Durga Gaddam 15 нояб. 2016, в 03:41

-3

Вот путь, когда вы хотите установить # столбцов в NULL с учетом их имен столбцов функция для вашего использования:)

deleteColsFromDataTable < - function (train, toDeleteColNames) {

   for (myNm in toDeleteColNames)

   train <- train [,(myNm):=NULL,with=F]

   return (train)

}

user3531326 14 апр. 2014, в 10:02

-6

Для таблицы данных. присвоение столбцу NULL удаляет его:

DT[,c("col1", "col1", "col2", "col2")] <- NULL
^
|---- Notice the extra comma if DT is a data.table

..., что эквивалентно:

DT$col1 <- NULL
DT$col2 <- NULL
DT$col3 <- NULL
DT$col4 <- NULL

Эквивалент для data.frame:

DF[c("col1", "col1", "col2", "col2")] <- NULL
      ^
      |---- Notice the missing comma if DF is a data.frame

Q. Почему в версии для таблицы data.table есть запятая и нет запятой в файле data.frame?

а. Поскольку data.frames хранятся в виде списка столбцов, вы можете пропустить запятую. Вы также можете добавить его, но тогда вам нужно будет назначить их списку NULL s, DF[, c("col1", "col2", "col3")] <- list(NULL).

Contango 31 март 2014, в 21:04

0

Что касается вашего вопроса - пожалуйста, прочитайте таблицу данных FAQ
mnel 31 март 2014, в 22:05
0

@Arun Я не могу вспомнить ни одной ситуации с data.frames где строки и столбцы будут переключаться. Это было бы нелогично.
duHaas 31 март 2014, в 22:42
0

@Arun Я отметил вас, потому что ваш первый комментарий создавал впечатление, что в некоторые моменты вы могли вызывать DF[column,row] поэтому я просто хотел посмотреть, есть ли на самом деле какие-либо случаи, когда это происходило.
duHaas 31 март 2014, в 22:57
0

Обновлен ответ, чтобы удалить опечатку.
Contango 02 апр. 2014, в 07:30

Показать ещё 2 комментария

Ещё вопросы

Было бы яснее назвать data.table dt вместо df3 ...
В data.table 1.11.8, если вы хотите сделать это по имени столбца, вы можете сделать непосредственно rm.col = c("a","b") и dt[, (rm.col):=NULL]
Плюс 1. И вскоре в CRAN v1.9.8 вам больше не нужна часть with=F
Что касается вашего вопроса - пожалуйста, прочитайте таблицу данных FAQ
@Arun Я не могу вспомнить ни одной ситуации с data.frames где строки и столбцы будут переключаться. Это было бы нелогично.
@Arun Я отметил вас, потому что ваш первый комментарий создавал впечатление, что в некоторые моменты вы могли вызывать DF[column,row] поэтому я просто хотел посмотреть, есть ли на самом деле какие-либо случаи, когда это происходило.
Обновлен ответ, чтобы удалить опечатку.

Josh O'Brien · Accepted Answer · 2012-02-08T23-30-00.000Z

Любое из следующего удалит столбец foo из data.table df3:

# Method 1 (and preferred as it takes 0.00s even on a 20GB data.table)
df3[,foo:=NULL]

df3[, c("foo","bar"):=NULL]  # remove two columns

myVar = "foo"
df3[, (myVar):=NULL]   # lookup myVar contents

# Method 2a -- A safe idiom for excluding (possibly multiple)
# columns matching a regex
df3[, grep("^foo$", colnames(df3)):=NULL]

# Method 2b -- An alternative to 2a, also "safe" in the sense described below
df3[, which(grepl("^foo$", colnames(df3))):=NULL]

data.table также поддерживает следующий синтаксис:

## Method 3 (could then assign to df3, 
df3[, !"foo", with=FALSE]

хотя если бы вы действительно хотели удалить столбец "foo" из df3 (вместо того, чтобы просто печатать представление df3 минус столбец "foo"), вы действительно хотели бы использовать метод 1 вместо.

(Обратите внимание: если вы используете метод, основанный на grep() или grepl(), вам нужно установить pattern="^foo$", а не "foo", если вам не нужны столбцы с именами типа "fool" и "buffoon" (т.е. те, которые содержат foo в качестве подстроки), также должны быть сопоставлены и удалены.)

Меньше безопасных опций, отлично подходит для интерактивного использования:

Следующие две идиомы также будут работать - , если df3 содержит столбец, соответствующий "foo", но, если это не так, произойдет непредвиденным образом. Если, например, вы используете любой из них для поиска несуществующего столбца "bar", вы получите таблицу данных с нулевой строкой.

Как следствие, они действительно лучше всего подходят для интерактивного использования, где можно, например, хотеть отображать таблицу данных минус любые столбцы с именами, содержащими подстроку "foo". Для целей программирования (или если вы хотите фактически удалить столбцы из df3, а не из его копии), методы 1, 2a и 2b действительно лучшие варианты.

# Method 4a:
df3[, -grep("^foo$", colnames(df3)), with=FALSE]

# Method 4b: 
df3[, !grepl("^foo$", colnames(df3)), with=FALSE]

Смотрите мой комментарий к ОП относительно -grep против !grepl .
@JoshuaUlrich - Хороший вопрос. Я попробовал grepl() изначально, и он не работал, так как столбцы data.table не могут быть проиндексированы логическим вектором. Но теперь я понимаю, что grepl() можно grepl() работать, обернув его с помощью which() , чтобы он возвращал целочисленный вектор.
Я не знал , что об индексации с data.table , но оборачивать его в which умна!
Я не знал этого и о data.table ; добавлен FR # 1797 . Но метод 1 (почти) бесконечно быстрее других. Метод 1 удаляет столбец по ссылке без какой-либо копии. Я сомневаюсь, что вы получите его выше 0,005 секунд для любого размера data.table. Напротив, другие могут вообще не работать, если в таблице около 50% оперативной памяти, потому что они копируют все, кроме одного, которое нужно удалить.
+1 за метод 1 - это быстрое / простое решение, которое я искал.
Поскольку вариант 1 предпочтителен для программирования, его можно переписать с использованием текстовой переменной, например, afoo <- 'foo'.
Один из подходов к программированию удаления столбца таблицы данных: afoo <- "foo"; fmla_txt = parse (text = paste (afoo, ": = NULL", sep = "")); DF3 [, Eval (fmla_txt)]
@ user3969377 если вы хотите удалить столбец на основе содержимого символьной переменной, вы просто заключите его в скобки. То есть. DF [, (afoo): = NULL]
Вы могли бы объединить grepl с предложением Ари Фридмана, нет? например, cols <- c(which(!grepl("^foo$", colnames(dt)))) и set(dt, j = cols, value = NULL) Разве это не будет более "эффективным", чем метод 2a?
Обратите внимание, что мы не можем удалять строки одновременно со столбцами: df3[ 1:5, foo := NULL] приведет к ошибке: When deleting columns, i should not be provided . Это работает: df3[ 1:5, -"foo", with = FALSE] .
Метод 1 также работает для удаления нескольких столбцов: df3[, c("foo","bar"):=NULL]
Привет джош Я просто добавил общие идиомы в топ, так как я только что увидел, что этот вопрос популярен. Надеюсь хорошо. Не стесняйтесь убирать. Это было просто быстрое редактирование.
@MattDowle Спасибо. Поскольку это выглядит так, как будто он стал основным ответом на этот очень распространенный вопрос, как вы думаете, мне следует переписать его, оптимизировать текст и лучше организовать различные варианты?
@ JoshO'Brien Для меня это выглядит хорошо, как есть. Прочитав мой комментарий еще раз, я не собирался предлагать привести в порядок. Получается что-то правильное, чтобы быть настолько высоко оцененным, настолько более подлинным, чтобы оставить это без изменений.
Хотя метод 1 выдает предупреждение, In [.data.table (dt, , ':='(col_to_be_deleted, NULL)) : Adding new column 'col_to_be_deleted' then assigning NULL (deleting it).
@sanjmeh Это сообщение вы получаете, когда пытаетесь удалить столбец, которого еще нет в вашей data.table . Чтобы увидеть это, создайте data.table df3 как показано в OP, затем сравните результаты df3[,foo:=NULL] и df3[,bar:=NULL] . (И, конечно, если вы затем попробуете df3[,foo:=NULL] во второй раз, это выдаст вам аналогичное предупреждение, поскольку столбец foo уже удален.) Понимаете, что я имею в виду?
И я понимаю, что совершил ошибку, это были действительно новые имена. Так что все понятно. Метод1 работает хорошо.