Создать пустой data.frame

Question

Создать пустой data.frame

322

Я пытаюсь инициализировать data.frame без каких-либо строк. В принципе, я хочу указать типы данных для каждого столбца и называть их, но не иметь никаких строк, созданных в результате.

Лучшее, что я смог сделать до сих пор, это что-то вроде:

df <- data.frame(Date=as.Date("01/01/2000", format="%m/%d/%Y"), 
                 File="", User="", stringsAsFactors=FALSE)
df <- df[-1,]

Что создает data.frame с одной строкой, содержащей все типы данных и имена столбцов, которые я хотел, но также создает бесполезную строку, которая затем должна быть удалена.

Есть ли лучший способ сделать это?

Jeff Allen 21 май 2012, в 16:04

Источник

Теги:

dataframe

r

13 ответов

60

Вы можете сделать это без указания типов столбцов

df = data.frame(matrix(vector(), 0, 3,
                dimnames=list(c(), c("Date", "File", "User"))),
                stringsAsFactors=F)

zeleniy 12 нояб. 2013, в 14:15

2

В этом случае типы столбцов по умолчанию считаются логическими для вектора (), но затем переопределяются с типами элементов, добавляемых в df. Попробуйте str (df), df [1,1] <- 'x'
Dave X 28 авг. 2014, в 16:50

45

Если у вас уже есть существующий фрейм данных, скажем df, который имеет нужные вам столбцы, тогда вы можете просто создать пустой фрейм данных, удалив все строки:

empty_df = df[FALSE,]

Обратите внимание, что df все еще содержит данные, но empty_df нет.

Я нашел этот вопрос, чтобы узнать, как создать новый экземпляр с пустыми строками, поэтому я думаю, что это может быть полезно для некоторых людей.

toto_tico 02 июль 2015, в 20:31

7

Любые комментарии о том, почему ответ был отклонен?
toto_tico 20 нояб. 2015, в 15:47
2

Не уверен - это хорошая техника, и я проголосовал за нее.
Ken Williams 09 окт. 2017, в 15:14
2

Не уверен, почему отказался; Я считаю это простым и блестящим
Mark White 03 нояб. 2017, в 21:32
1

Прекрасная идея. Не храните ни одной строки, но ВСЕ столбцы. Кто бы ни отрицал голосование, что-то упустил.
Ram Narasimhan 04 июнь 2018, в 21:39
1

Хорошее решение, однако я обнаружил, что получаю фрейм данных с 0 строками. Чтобы размер кадра данных оставался неизменным, я предлагаю new_df = df [NA,]. Это также позволяет сохранить любой предыдущий столбец в новом фрейме данных. Например, чтобы получить столбец «Дата» из исходного df (при сохранении остальных NA): new_df $ Date <- df $ Date.
Katya 01 сен. 2018, в 10:45
0

@Katya, если вы сделаете df[NA,] это также повлияет на индекс (что вряд ли будет тем, что вы хотите), я бы вместо этого использовал df[TRUE,] = NA ; однако обратите внимание, что это заменит оригинал. Вам нужно будет сначала copy_df = data.frame(df) а затем copy_df[TRUE,] = NA
toto_tico 03 сен. 2018, в 07:49
0

@Katya, или вы также можете легко добавить пустые строки в empty_df с помощью empty_df[0:nrow(df),] <- NA .
toto_tico 03 сен. 2018, в 07:50
0

toto_tico, спасибо за добавления, действительно, ярлыки были затронуты, поэтому я удалил их с помощью: row.names (df) <- c (). Однако я думаю, что ваше предложение лучше, потому что оно позволило создать правильный размер df с именами столбцов и правильными именами строк: newDf <- df, затем newDf [,] <- NA. Кстати, как вы можете получить свой набранный код для подняться в сером? :-)
Katya 10 сен. 2018, в 14:05
0

@Katya, вы используете обратную кавычку (`) вокруг того, что вы хотели бы пометить как код, и есть другие вещи, такие как курсив, использующий *, и полужирный, использующий **. Вы, вероятно, хотите прочитать весь синтаксис Markdown SO . Большинство из них имеет смысл только для ответов, хотя.
toto_tico 10 сен. 2018, в 17:20

Показать ещё 7 комментариев

43

Вы можете использовать read.table с пустой строкой для ввода text следующим образом:

colClasses = c("Date", "character", "character")
col.names = c("Date", "File", "User")

df <- read.table(text = "",
                 colClasses = colClasses,
                 col.names = col.names)

Альтернативно указывая col.names как строку:

df <- read.csv(text="Date,File,User", colClasses = colClasses)

Спасибо Ричарду Скривену за улучшение

Rentrop 28 окт. 2014, в 18:55

4

Или даже read.table(text = "", ...) так что вам не нужно явно открывать соединение.
Rich Scriven 28 окт. 2014, в 18:19
0

притягательный. вероятно, самый расширяемый / автоматизируемый способ сделать это для многих потенциальных столбцов
MichaelChirico 03 май 2016, в 01:31
1

О, на самом деле нашли более быстрый путь!
MichaelChirico 03 май 2016, в 01:37
3

Подход read.csv также работает с readr::read_csv , как и в read_csv("Date,File,User\n", col_types = "Dcc") . Таким образом, вы можете напрямую создать пустой столбик необходимой структуры.
Heather Turner 20 фев. 2017, в 19:37

Показать ещё 2 комментария

19

Самый эффективный способ сделать это - использовать structure для создания списка с классом "data.frame":

structure(list(Date = as.Date(character()), File = character(), User = character()), 
          class = "data.frame")
# [1] Date File User
# <0 rows> (or 0-length row.names)

Чтобы представить это в перспективе по сравнению с принятым в настоящее время ответом, здесь простейший тест:

s <- function() structure(list(Date = as.Date(character()), 
                               File = character(), 
                               User = character()), 
                          class = "data.frame")
d <- function() data.frame(Date = as.Date(character()),
                           File = character(), 
                           User = character(), 
                           stringsAsFactors = FALSE) 
library("microbenchmark")
microbenchmark(s(), d())
# Unit: microseconds
#  expr     min       lq     mean   median      uq      max neval
#   s()  58.503  66.5860  90.7682  82.1735 101.803  469.560   100
#   d() 370.644 382.5755 523.3397 420.1025 604.654 1565.711   100

Thomas 20 июнь 2015, в 21:44

0

data.table обычно содержит атрибут .internal.selfref , который не может быть подделан без вызова функций data.table . Вы уверены, что не полагаетесь на недокументированное поведение здесь?
Adam Ryczkowski 10 фев. 2017, в 16:26
0

@AdamRyczkowski Я думаю, что вы путаете базовый класс «data.frame» и дополнительный класс «data.table» из пакета data.table .
Thomas 10 фев. 2017, в 17:35
0

Да. Определенно. Виноват. Не обращайте внимания на мой последний комментарий. Я наткнулся на эту тему, когда искал data.table и предположил, что Google нашел то, что хотел, и все, что связано с data.table .
Adam Ryczkowski 11 фев. 2017, в 14:22
0

Есть идеи, почему разница в производительности?
PatrickT 01 окт. 2017, в 20:42
1

@PatrickT Нет никакой проверки, что то, что делает ваш код, имеет какой-то смысл. data.frame() обеспечивает проверку имен, строк и т. д.
Thomas 02 окт. 2017, в 07:00
0

Спасибо Томас. Так более эффективно, но менее безопасно. Хорошо знать.
PatrickT 02 окт. 2017, в 18:14

Показать ещё 4 комментария

12

Если вы ищете одолжение:

read.csv(text="col1,col2")

поэтому вам не нужно указывать имена столбцов отдельно. Вы получаете логический столбец по умолчанию, пока вы не заполните кадр данных.

Marc van Oudheusden 08 янв. 2015, в 22:50

1

Еще несколько объяснений было бы неплохо.
ryanyuyu 08 янв. 2015, в 21:23
0

read.csv анализирует текстовый аргумент, чтобы получить имена столбцов. Он более компактен, чем read.table (text = "", col.names = c ("col1", "col2"))
marc 27 янв. 2015, в 16:10
0

Я получаю: Error in data.frame(..., check.names = FALSE) : arguments imply differing number of rows: 0, 2
Climbs_lika_Spyder 17 май 2015, в 21:29
0

Это не соответствует требованиям OP «Я хочу указать типы данных для каждого столбца» , хотя, возможно, это можно изменить для этого.
Gregor 10 окт. 2017, в 17:07

Показать ещё 2 комментария

7

Я создал пустой фрейм данных, используя следующий код

df = data.frame(id = numeric(0), jobs = numeric(0));

и попытался связать некоторые строки, чтобы заполнить их следующим образом.

newrow = c(3, 4)
df <- rbind(df, newrow)

но он начал давать неправильные имена столбцов следующим образом

  X3 X4
1  3  4

Решение этого заключается в том, чтобы преобразовать newrow в тип df следующим образом

newrow = data.frame(id=3, jobs=4)
df <- rbind(df, newrow)

теперь дает правильный фрейм данных при отображении с именами столбцов следующим образом

  id nobs
1  3   4

Shrikant Prabhu 18 окт. 2015, в 08:50

3

Если вы хотите создать пустой data.frame с динамическими именами (colnames в переменной), это может помочь:

names <- c("v","u","w")
df <- data.frame()
for (k in names) df[[k]]<-as.numeric()

Вы также можете изменить типы, если это необходимо. как:

names <- c("u", "v")
df <- data.frame()
df[[names[1]]] <- as.numeric()
df[[names[2]]] <- as.character()

Ali Khosro 03 март 2017, в 21:27

3

просто объявить table = data.frame() когда вы пытаетесь перенести первую строку, он создаст столбцы

Daniel Fischer 02 сен. 2015, в 00:33

2

На самом деле не соответствует требованиям ОП: «Я хочу указать типы данных для каждого столбца и назвать их». Если следующим шагом будет rbind это будет хорошо, если нет ...
Gregor 02 сен. 2015, в 00:31
0

В любом случае, спасибо за это простое решение. Я также хотел инициализировать data.frame с конкретными столбцами, поскольку я думал, что rbind можно использовать только в том случае, если столбцы соответствуют между двумя data.frame. Кажется, это не так. Я был удивлен, что могу так просто инициализировать data.frame при использовании rbind. Благодарю.
giordano 06 дек. 2016, в 17:11
0

Лучшее предложенное решение здесь. Для меня, используя предложенный способ, отлично работал с rbind() .
Kots 04 окт. 2018, в 11:20

Показать ещё 1 комментарий

2

Если вы не возражаете не указывать типы данных явно, вы можете сделать это следующим образом:

headers<-c("Date","File","User")
df <- as.data.frame(matrix(,ncol=3,nrow=0))
names(df)<-headers

#then bind incoming data frame with col types to set data types
df<-rbind(df, new_df)

Odysseus Ithaca 10 окт. 2017, в 18:36

2

Если вы хотите объявить такой data.frame со многими столбцами, вероятно, будет больно вводить все классы столбцов вручную. Особенно, если вы можете использовать rep, этот подход прост и быстр (примерно на 15% быстрее, чем другое решение, которое можно обобщить следующим образом):

Если требуемые классы столбцов находятся в векторе colClasses, вы можете сделать следующее:

library(data.table)
setnames(setDF(lapply(colClasses, function(x) eval(call(x)))), col.names)

lapply приведет к списку желаемой длины, каждый элемент которого представляет собой просто пустой типизированный вектор, такой как numeric() или integer().

setDF преобразует этот list по ссылке на data.frame.

setnames добавляет нужные имена по ссылке.

Сравнение скорости:

classes <- c("character", "numeric", "factor",
             "integer", "logical","raw", "complex")

NN <- 300
colClasses <- sample(classes, NN, replace = TRUE)
col.names <- paste0("V", 1:NN)

setDF(lapply(colClasses, function(x) eval(call(x))))

library(microbenchmark)
microbenchmark(times = 1000,
               read = read.table(text = "", colClasses = colClasses,
                                 col.names = col.names),
               DT = setnames(setDF(lapply(colClasses, function(x)
                 eval(call(x)))), col.names))
# Unit: milliseconds
#  expr      min       lq     mean   median       uq      max neval cld
#  read 2.598226 2.707445 3.247340 2.747835 2.800134 22.46545  1000   b
#    DT 2.257448 2.357754 2.895453 2.401408 2.453778 17.20883  1000  a

Это также быстрее, чем использование structure аналогичным образом:

microbenchmark(times = 1000,
               DT = setnames(setDF(lapply(colClasses, function(x)
                 eval(call(x)))), col.names),
               struct = eval(parse(text=paste0(
                 "structure(list(", 
                 paste(paste0(col.names, "=", 
                              colClasses, "()"), collapse = ","),
                 "), class = \"data.frame\")"))))
#Unit: milliseconds
#   expr      min       lq     mean   median       uq       max neval cld
#     DT 2.068121 2.167180 2.821868 2.211214 2.268569 143.70901  1000  a 
# struct 2.613944 2.723053 3.177748 2.767746 2.831422  21.44862  1000   b

MichaelChirico 03 май 2016, в 02:37

1

Чтобы создать пустой фрейм данных, укажите количество строк и столбцов, необходимых для следующей функции:

create_empty_table <- function(num_rows, num_cols) {
    frame <- data.frame(matrix(NA, nrow = num_rows, ncol = num_cols))
    return(frame)
}

Чтобы создать пустой кадр при указании класса каждого столбца, просто передайте вектор желаемых типов данных в следующую функцию:

create_empty_table <- function(num_rows, num_cols, type_vec) {
  frame <- data.frame(matrix(NA, nrow = num_rows, ncol = num_cols))
  for(i in 1:ncol(frame)) {
    print(type_vec[i])
    if(type_vec[i] == 'numeric') {frame[,i] <- as.numeric(df[,i])}
    if(type_vec[i] == 'character') {frame[,i] <- as.character(df[,i])}
    if(type_vec[i] == 'logical') {frame[,i] <- as.logical(df[,i])}
    if(type_vec[i] == 'factor') {frame[,i] <- as.factor(df[,i])}
  }
  return(frame)
}

Используйте следующее:

df <- create_empty_table(3, 3, c('character','logical','numeric'))

Что дает:

   X1  X2 X3
1 <NA> NA NA
2 <NA> NA NA
3 <NA> NA NA

Чтобы подтвердить свой выбор, выполните следующие действия:

lapply(df, class)

#output
$X1
[1] "character"

$X2
[1] "logical"

$X3
[1] "numeric"

Cybernetic 22 авг. 2016, в 17:38

1

Это не соответствует требованиям OP: «Я хочу указать типы данных для каждого столбца»
Gregor 10 окт. 2017, в 17:06

0

Скажите, что имена столбцов динамические, вы можете создать пустую матрицу с именами строк и преобразовать ее в кадр данных.

nms <- sample(LETTERS,sample(1:10))
as.data.frame(t(matrix(nrow=length(nms),ncol=0,dimnames=list(nms))))

jpmarindiaz 13 апр. 2016, в 06:33

0

Это не соответствует требованиям OP: «Я хочу указать типы данных для каждого столбца»
Gregor 10 окт. 2017, в 17:06

Ещё вопросы

В этом случае типы столбцов по умолчанию считаются логическими для вектора (), но затем переопределяются с типами элементов, добавляемых в df. Попробуйте str (df), df [1,1] <- 'x'
Любые комментарии о том, почему ответ был отклонен?
Не уверен - это хорошая техника, и я проголосовал за нее.
Не уверен, почему отказался; Я считаю это простым и блестящим
Прекрасная идея. Не храните ни одной строки, но ВСЕ столбцы. Кто бы ни отрицал голосование, что-то упустил.
Хорошее решение, однако я обнаружил, что получаю фрейм данных с 0 строками. Чтобы размер кадра данных оставался неизменным, я предлагаю new_df = df [NA,]. Это также позволяет сохранить любой предыдущий столбец в новом фрейме данных. Например, чтобы получить столбец «Дата» из исходного df (при сохранении остальных NA): new_df $ Date <- df $ Date.
@Katya, если вы сделаете df[NA,] это также повлияет на индекс (что вряд ли будет тем, что вы хотите), я бы вместо этого использовал df[TRUE,] = NA ; однако обратите внимание, что это заменит оригинал. Вам нужно будет сначала copy_df = data.frame(df) а затем copy_df[TRUE,] = NA
@Katya, или вы также можете легко добавить пустые строки в empty_df с помощью empty_df[0:nrow(df),] <- NA .
toto_tico, спасибо за добавления, действительно, ярлыки были затронуты, поэтому я удалил их с помощью: row.names (df) <- c (). Однако я думаю, что ваше предложение лучше, потому что оно позволило создать правильный размер df с именами столбцов и правильными именами строк: newDf <- df, затем newDf [,] <- NA. Кстати, как вы можете получить свой набранный код для подняться в сером? :-)
@Katya, вы используете обратную кавычку (`) вокруг того, что вы хотели бы пометить как код, и есть другие вещи, такие как курсив, использующий *, и полужирный, использующий **. Вы, вероятно, хотите прочитать весь синтаксис Markdown SO . Большинство из них имеет смысл только для ответов, хотя.
Или даже read.table(text = "", ...) так что вам не нужно явно открывать соединение.
притягательный. вероятно, самый расширяемый / автоматизируемый способ сделать это для многих потенциальных столбцов
О, на самом деле нашли более быстрый путь!
Подход read.csv также работает с readr::read_csv , как и в read_csv("Date,File,User\n", col_types = "Dcc") . Таким образом, вы можете напрямую создать пустой столбик необходимой структуры.
data.table обычно содержит атрибут .internal.selfref , который не может быть подделан без вызова функций data.table . Вы уверены, что не полагаетесь на недокументированное поведение здесь?
@AdamRyczkowski Я думаю, что вы путаете базовый класс «data.frame» и дополнительный класс «data.table» из пакета data.table .
Да. Определенно. Виноват. Не обращайте внимания на мой последний комментарий. Я наткнулся на эту тему, когда искал data.table и предположил, что Google нашел то, что хотел, и все, что связано с data.table .
Есть идеи, почему разница в производительности?
@PatrickT Нет никакой проверки, что то, что делает ваш код, имеет какой-то смысл. data.frame() обеспечивает проверку имен, строк и т. д.
Спасибо Томас. Так более эффективно, но менее безопасно. Хорошо знать.
Еще несколько объяснений было бы неплохо.
read.csv анализирует текстовый аргумент, чтобы получить имена столбцов. Он более компактен, чем read.table (text = "", col.names = c ("col1", "col2"))
Я получаю: Error in data.frame(..., check.names = FALSE) : arguments imply differing number of rows: 0, 2
Это не соответствует требованиям OP «Я хочу указать типы данных для каждого столбца» , хотя, возможно, это можно изменить для этого.
На самом деле не соответствует требованиям ОП: «Я хочу указать типы данных для каждого столбца и назвать их». Если следующим шагом будет rbind это будет хорошо, если нет ...
В любом случае, спасибо за это простое решение. Я также хотел инициализировать data.frame с конкретными столбцами, поскольку я думал, что rbind можно использовать только в том случае, если столбцы соответствуют между двумя data.frame. Кажется, это не так. Я был удивлен, что могу так просто инициализировать data.frame при использовании rbind. Благодарю.
Лучшее предложенное решение здесь. Для меня, используя предложенный способ, отлично работал с rbind() .
Это не соответствует требованиям OP: «Я хочу указать типы данных для каждого столбца»

digEmAll · Accepted Answer · 2012-05-21T18-19-00.000Z

442

Лучший ответ

Просто инициализируйте его пустыми векторами:

df <- data.frame(Date=as.Date(character()),
                 File=character(), 
                 User=character(), 
                 stringsAsFactors=FALSE)

Вот еще один пример с разными типами столбцов:

df <- data.frame(Doubles=double(),
                 Ints=integer(),
                 Factors=factor(),
                 Logicals=logical(),
                 Characters=character(),
                 stringsAsFactors=FALSE)

str(df)
> str(df)
'data.frame':   0 obs. of  5 variables:
 $ Doubles   : num 
 $ Ints      : int 
 $ Factors   : Factor w/ 0 levels: 
 $ Logicals  : logi 
 $ Characters: chr

N.B.:

Инициализация data.frame пустым столбцом неправильного типа не препятствует дальнейшим добавлениям строк, имеющих столбцы разных типов.
Этот метод немного более безопасен в том смысле, что у вас будут правильные типы столбцов с самого начала, поэтому, если ваш код зависит от проверки типа столбца, он будет работать даже с data.frame с нулевыми строками.

digEmAll 21 май 2012, в 18:19

1

Было бы то же самое, если бы я инициализировал все поля с NULL?
yosukesabai 20 авг. 2013, в 15:04
7

@yosukesabai: нет, если вы инициализируете столбец с NULL, столбец не будет добавлен :)
digEmAll 20 авг. 2013, в 16:32
0

Я вижу это ... почему я думал, что это будет работать ...? Таким образом, это означает, что я должен знать тип данных по каждому столбцу заранее и правильно инициализировать?
yosukesabai 20 авг. 2013, в 16:38
6

@yosukesabai: data.frame имеет типизированные столбцы, так что да, если вы хотите инициализировать data.frame вы должны выбрать тип столбцов ...
digEmAll 21 авг. 2013, в 07:06
0

Для полноты картины было бы хорошо привести второй пример со всеми возможными примитивными типами, которые, как можно предположить, сделали бы этот ответ надежной ссылкой.
jxramos 09 июнь 2015, в 20:47
0

@jxramos: ну, на самом деле data.frame самом деле не ограничивает «примитивность» типов столбцов (например, вы можете добавить столбец дат или даже столбец, содержащий список элементов). Кроме того, этот вопрос не является абсолютной ссылкой, поскольку, например, если вы не укажете правильный тип столбца, вы не будете блокировать дальнейшее добавление строки, имеющей столбец разных типов ... поэтому я добавлю примечание, но не пример со всеми примитивными типами, потому что он не охватывает все возможности ...
digEmAll 10 июнь 2015, в 10:38
0

Это все хорошо и верно, изначально указанный тип не является ограничивающим контрактом для какого-либо конкретного столбца, но он по-прежнему полезен для сообщения намерения и любой степени читабельности, которую он предлагает. Я использовал ваш пример с некоторыми столбцами double () в моем приложении, которые, как ни странно, были написаны другим, используя почти такой же подход, как и решение автора Вопроса. Я тоже хотел найти более простой способ сделать это, не прибегая к одноразовому ряду. Исчерпывающий охват может быть слишком большим, но хорошая выборка за пределами характера также кажется разумной.
jxramos 10 июнь 2015, в 21:17
0

@jxramos: хорошо, только что отредактировал;)
digEmAll 11 июнь 2015, в 17:51
0

@digEmAll, как вы указываете количество строк?
Herman Toothrot 15 дек. 2016, в 16:24
3

@ user4050: вопрос был о создании пустого data.frame, поэтому, когда число строк равно нулю ... может быть, вы хотите создать data.frame, заполненный NA ... в этом случае вы можете использовать, например, data.frame(Doubles=rep(as.double(NA),numberOfRow), Ints=rep(as.integer(NA),numberOfRow))
digEmAll 15 дек. 2016, в 16:45
0

Без stringsAsFactors=FALSE character() ограничен фактором! str(data.frame(a=character())) 'data.frame': 0 obs. of 1 variable: $ a: Factor w/ 0 levels:
PatrickT 01 окт. 2017, в 20:38
0

Да, именно поэтому я установил этот параметр
digEmAll 02 окт. 2017, в 19:53
1

Хороший с as.Date(character()) , спасибо.
quartin 10 окт. 2017, в 14:25
0

как вы добавляете в такой фрейм данных без запуска data has 0 строк ошибки?
Mike Palmice 09 янв. 2018, в 14:45
0

@MikePalmice: используйте rbind или DF[nrow(DF)+1,] <- the row to append
digEmAll 09 янв. 2018, в 19:55

Показать ещё 13 комментариев