如何根据与dplyr的时间间隔执行连接?

问题描述:

我有一个数据框包含两列:一个分组变量和分组变量持有的间隔时间段。我有另一个数据框与日期列和值列。如何使用dplyr + tidyverse函数有效地将这两个表一起加入?如何根据与dplyr的时间间隔执行连接?

library(dplyr) 
library(lubridate) 
ty <- data_frame(date = mdy(paste(1, 1 + seq(20), 2017, sep = "/")), 
       y = c(rnorm(7), rnorm(7, mean = 2), rnorm(6, mean = -1))) 
gy <- data_frame(period = interval(mdy(c("01/01/2017", "01/08/2017", "01/15/2017")), 
            mdy(c("01/07/2017", "01/14/2017", "01/20/2017"))), 
          batch = c(1, 2, 3)) 

我想建立一个相当于表:

ty %>% mutate(batch = c(rep(1, 7), rep(2, 7), rep(3, 6))) 

理想的情况下,这应该相当快的数据集高达1,000,000行。更好的是,如果它在100,000,000的工作:)。

+3

这不回答你的问题('dplyr'),但作为一个评论 - 你应该看看[滚动加盟在'data.table'](https://*.com/questions/12030932/rolling-joins-data-table-in-r) – C8H10N4O2

如何:

ty %>% 
    mutate(batch = case_when(
    ty$date %within% gy$period[1] ~gy$batch[1], 
    ty$date %within% gy$period[2] ~gy$batch[2], 
    ty$date %within% gy$period[3] ~gy$batch[3])) 

你显然需要定义case_when间隔。你有几个?我用过catpaste0,效果很好。

编辑以反映OP的评论。这应该照顾NSE和将允许case_when区间的产生编程:

ty %>% 
    mutate(batch = eval(parse(text = paste0("case_when(", 
             paste(
             paste0(
              "ty$date %within% gy$period[", 
              seq_along(gy$period), 
              "] ~gy$batch[", 
              seq_along(gy$period), 
              "]" 
             ), 
             collapse = ", " 
            ), ")")))) 
+0

这是一个相对少数批次的好主意。不过,我有〜10,000。对于所有的NSE,我担心这不适用于粘贴和评估,但也许我错了:) – wdkrnls

+1

现在应该适用于任何批次的批处理。 – biomiha

这是我能想出迄今最好的:

ty$batch <- unlist(lapply(ty$date, function(d) gy$batch[which(d %within% gy$period)]), recursive = FALSE, use.names = FALSE) 

但它似乎并不十分快。