Вопросы с тегом 'data.table'

Пакет данных R.table является расширением data.frame, созданным для быстрого анализа данных в памяти. Используйте тег dt для пакета DataTables с помощью Shiny (DT).
3
ответов

data.table vs dplyr: может ли что-то сделать хорошо, а другое плохо или плохо?

Обзор Я относительно знаком с data.table, а не с dplyr. Я прочитал некоторые dplyr виньетки и примеры, появившиеся на SO, и до сих пор мои выводы заключаются в следующем: data.table и dplyr сравнимы по скорости, за исключением случаев, когда им...
задан 29 янв. '14 в 18:21
2
ответов

Понимание, когда таблица данных является ссылкой на (по сравнению с копией) другой data.table

У меня возникли проблемы с пониманием свойств pass-by-reference data.table. Некоторые операции, похоже, "ломают" ссылку, и я хотел бы точно понять, что происходит. При создании data.table из другого data.table (через <-, а затем обновив новую т...
задан 19 апр. '12 в 12:19
3
ответов

Почему pandas сливается в python быстрее, чем data.table сливается в R?

Недавно я встретил библиотеку pandas для python, которая согласно этот тест выполняет очень быстрые слияния в памяти. Это даже быстрее, чем data.table пакет в R (мой язык выбора для анализа). Почему pandas намного быстрее, чем data.table? Это из-за...
задан 24 янв. '12 в 20:59
8
ответов

Как удалить столбец по имени в data.table?

Чтобы избавиться от столбца с именем "foo" в data.frame, я могу сделать: df <- df[-grep('foo', colnames(df))] Однако, как только df преобразуется в объект data.table, невозможно просто удалить столбец. Пример: df <- data.frame(id = 1:100...
задан 09 февр. '12 в 1:20
6
ответов

Выберите несколько столбцов в data.table по их числовым индексам

Как мы можем выбрать несколько столбцов, используя вектор их числовых индексов (позиции) в data.table? Так мы будем делать с data.frame: df <- data.frame(a = 1, b = 2, c = 3) df[ , 2:3] # b c # 1 2 3
задан 14 нояб. '12 в 20:18
2
ответов

Что делает .SD в data.table в R

.SD выглядит полезным, но я не знаю, что с ним делаю. Что это означает? Почему существует предшествующий период (полная остановка). Что происходит, когда я его использую? Я читал: .SD - это data.table, содержащее подмножество данных x для каждой г...
задан 14 дек. '11 в 19:59
2
ответов

Почему rbindlist "лучше", чем rbind?

Я просматриваю документацию data.table, а также заметил из некоторых разговоров здесь о SO, что rbindlist должен быть лучше, чем rbind. Я хотел бы знать, почему rbindlist лучше, чем rbind и в каких сценариях rbindlist действительно превосходит rbi...
задан 28 марта '13 в 6:05
5
ответов

Как удалить строку по ссылке в data.table?

Мой вопрос связан с назначением по ссылке и копированием в data.table. Я хочу знать, можно ли удалять строки по ссылке, похожие на DT[ , someCol := NULL] Я хочу знать о DT[someRow := NULL, ] Я предполагаю, что есть веская причина, почему эта ф...
задан 28 мая '12 в 23:41
4
ответов

Совокупность/суммирование нескольких переменных на группу (например, сумма, среднее значение)

Из фрейма данных есть ли простой способ агрегировать (sum, mean, max et c) несколько переменных одновременно? Ниже приведены некоторые данные: library(lubridate) days = 365*2 date = seq(as.Date("2000-01-01"), length = days, by = "day") year = year(...
задан 15 марта '12 в 18:44
2
ответов

Назначьте несколько столбцов, используя: = в data.table, по группе

Каков наилучший способ назначить несколько столбцов с помощью data.table? Например: f <- function(x) {c("hi", "hello")} x <- data.table(id = 1:10) Я хотел бы сделать что-то вроде этого (конечно, этот синтаксис неверен): x[ , (col1, col2) := ...
задан 27 июля '12 в 5:13
3
ответов

Почему X [Y] присоединяется к data.tables, не допускает полного внешнего соединения или левого соединения?

Это немного философский вопрос о синтаксисе соединения data.table. Я нахожу все больше и больше использования для data.tables, но все еще учась... Формат соединения X[Y] для data.tables очень краткий, удобный и эффективный, но, насколько я могу суд...
задан 08 окт. '12 в 2:46
7
ответов

Самый быстрый способ заменить NA в большой таблице данных.

У меня есть большой data.table, со многими отсутствующими значениями, разбросанными по всем его ~ 200k строкам и 200 столбцам. Я хотел бы переписать эти значения NA на нули как можно более эффективно. Я вижу два варианта: 1: преобразовать в data.fr...
задан 29 авг. '11 в 23:35
5
ответов

Какой самый быстрый способ объединить/объединить data.frames в R?

Например (не уверен, что, например, самый представительный пример): N <- 1e6 d1 <- data.frame(x=sample(N,N), y1=rnorm(N)) d2 <- data.frame(x=sample(N,N), y2=rnorm(N)) Это то, что у меня есть до сих пор: d <- merge(d1,d2) # 7.6 sec li...
задан 01 дек. '10 в 10:47
3
ответов

Сортировка строк в data.table

Скажем, у меня есть следующий data.table в R: library(data.table) DT = data.table(x=rep(c("b","a","c"),each=3), y=c(1,3,6), v=1:9) Я хочу заказать его по двум столбцам (например, столбцы x и v). Я использовал это: DT[order(x,v)] # sorts fi...
задан 10 сент. '12 в 17:30
2
ответов

Какова цель установки ключа в data.table?

Я использую data.table, и есть много функций, которые требуют от меня установить ключ (например, X[Y]). Таким образом, я хочу понять, что делает ключ, чтобы правильно устанавливать ключи в моих таблицах данных. Один источник, который я прочитал, бы...
задан 18 нояб. '13 в 5:56