Me gustaría agregar líneas entre "mean" en mi diagrama de caja.

Mi código:

library(ggplot2)
library(ggthemes)

Gp=factor(c(rep("G1",80),rep("G2",80)))
Fc=factor(c(rep(c(rep("FC1",40),rep("FC2",40)),2)))
Z <-factor(c(rep(c(rep("50",20),rep("100",20)),4)))
Y <- c(0.19 , 0.22 , 0.23 , 0.17 , 0.36 , 0.33 , 0.30 , 0.39 , 0.35 , 0.27 , 0.20 , 0.22 , 0.24 , 0.16 , 0.36 , 0.30 , 0.31 , 0.39 , 0.33 , 0.25 , 0.23 , 0.13 , 0.16 , 0.18 ,  0.20 , 0.16 , 0.15 , 0.09 , 0.18 , 0.21 , 0.20 , 0.14 , 0.17 , 0.18 , 0.22 , 0.16 , 0.14 , 0.11 , 0.18 , 0.21 , 0.30 , 0.36 , 0.40 , 0.42 , 0.26 , 0.23 , 0.25 , 0.30 ,  0.27 , 0.15 , 0.29 , 0.36 , 0.38 , 0.42 , 0.28 , 0.23 , 0.26 , 0.29 , 0.24 , 0.17 , 0.24 , 0.14 , 0.17 , 0.16 , 0.15 , 0.21 , 0.19 , 0.15 , 0.16 , 0.13 , 0.25 , 0.12 ,  0.15 , 0.15 , 0.14 , 0.21 , 0.20 , 0.13 , 0.14 , 0.12 , 0.29 , 0.29 , 0.29 , 0.24 , 0.21 , 0.23 , 0.25 , 0.33 , 0.30 , 0.27 , 0.31 , 0.27 , 0.28 , 0.25 , 0.22 , 0.23 , 0.23 , 0.33 , 0.29 , 0.28 , 0.12 , 0.28 , 0.22 , 0.19 , 0.22 , 0.14 , 0.15 , 0.15 , 0.21 , 0.25 , 0.11 , 0.27 , 0.22 , 0.17 , 0.21 , 0.15 , 0.16 , 0.15 , 0.20 , 0.24 ,  0.24 , 0.25 , 0.36 , 0.24 , 0.34 , 0.22 , 0.27 , 0.26 , 0.23 , 0.28 , 0.24 , 0.23 , 0.36 , 0.23 , 0.35 , 0.21 , 0.25 , 0.26 , 0.23 , 0.28 , 0.24 , 0.23 , 0.09 , 0.16 , 0.16 , 0.14 , 0.18 , 0.18 , 0.18 , 0.12 , 0.22 , 0.23 , 0.09 , 0.17 , 0.15 , 0.13 , 0.17 , 0.19 , 0.17 , 0.11)
X <- factor(c(rep(c(rep("B1",10),rep("B2",10)),8)))
DATA=data.frame(Y,X,Z,Fc,Gp)
p <- qplot(X, Y, data=DATA, geom="boxplot", fill=Z, na.rm = TRUE, 
                    outlier.size = NA, outlier.colour = NA)  +
          facet_grid(Gp ~ Fc)+ theme_light()+scale_colour_gdocs()+
          theme(legend.position="bottom") + 
          stat_summary(fun.y=mean, geom="point", shape=23, position = position_dodge(width = .75))

Tengo:

enter image description here

Y la trama esperada que quiero:

enter image description here

Intenté esto

p + stat_summary(fun.y=mean, geom="line", aes(group = factor(Z)))

Y esto

p + stat_summary(fun.y=mean, geom="line", aes(group = factor(X)))

Pero ninguno de los anteriores funcionó. En cambio, recibí el siguiente mensaje de error:

geom_path: cada grupo consta de una sola observación. ¿Necesitas ajustar la estética del grupo? geom_path: cada grupo consta de una sola observación. ¿Necesitas ajustar la estética del grupo? geom_path: cada grupo consta de una sola observación. ¿Necesitas ajustar la estética del grupo? geom_path: cada grupo consta de una sola observación. ¿Necesitas ajustar la estética del grupo?

Gracias por su ayuda !

13
Ph.D.Student 1 mar. 2018 a las 16:52

5 respuestas

La mejor respuesta

También puedes probar una solución tidyverse:

library(tidyverse)
DATA %>% 
   ggplot() + 
   geom_boxplot(aes(X, Y, fill=Z)) +
   stat_summary(aes(X, Y,fill=Z),fun.y = mean, geom = "point",
                position=position_nudge(x=c(-0.185,0.185))) +
   geom_segment(data=. %>%
                  group_by(X, Z, Gp , Fc) %>% 
                  summarise(M=mean(Y)) %>% 
                  ungroup() %>% 
                  mutate(Z=paste0("C",Z)) %>% 
                  spread(Z, M), aes(x = as.numeric(X)-0.185, y = C100, 
                    xend = as.numeric(X)+0.185, yend = C50)) +
   facet_grid(Gp ~ Fc)

enter image description here

La idea es la misma que en la respuesta de d.b .. Cree un data.frame para la llamada geom_segment. La ventaja es el flujo de trabajo dplyr. Entonces todo se hace de una vez.

DATA %>% 
  group_by(X, Z, Gp , Fc) %>% 
  summarise(M=mean(Y)) %>% 
  ungroup() %>% 
  mutate(Z=paste0("C",Z)) %>% 
  spread(Z, M) 
# A tibble: 8 x 5
       X     Gp     Fc  C100   C50
* <fctr> <fctr> <fctr> <dbl> <dbl>
1     B1     G1    FC1 0.169 0.281
2     B1     G1    FC2 0.170 0.294
3     B1     G2    FC1 0.193 0.270
4     B1     G2    FC2 0.168 0.269
5     B2     G1    FC1 0.171 0.276
6     B2     G1    FC2 0.161 0.292
7     B2     G2    FC1 0.188 0.269
8     B2     G2    FC2 0.163 0.264

O puede intentar un enfoque ligeramente diferente en comparación con la respuesta de Julius. Agregue saltos y etiquetas para obtener la salida esperada y juegue con algún desplazamiento en un X2 numérico y el parámetro de ancho dentro de la función boxplot para obtener los cuadros trazados juntos.

DATA %>% 
  mutate(X2=as.numeric(interaction(Z, X))) %>% 
  mutate(X2=ifelse(Z==100, X2 + 0.2, X2 - 0.2)) %>% 
  ggplot(aes(X2, Y, fill=Z, group=X2)) + 
   geom_boxplot(width=0.6) +
   stat_summary(fun.y = mean, geom = "point") +
   stat_summary(aes(group = X),fun.y = mean, geom = "line") +
   facet_grid(Gp ~ Fc) +
   scale_x_continuous(breaks = c(1.5,3.5), labels = c("B1","B2"),
                        minor_breaks = NULL, limits=c(0.5,4.5))

enter image description here

4
Roman 1 mar. 2018 a las 15:52

Esto no es elegante, pero prueba esto

tmp1 = aggregate(Y~., DATA[DATA$Z == 100,], mean)
tmp2 = aggregate(Y~., DATA[DATA$Z == 50,], mean)
tmp1$X2 = tmp2$X
tmp1$Y2 = tmp2$Y

graphics.off()
ggplot(DATA, aes(x = factor(X), y = Y, fill = Z)) +
    geom_boxplot(width = 0.5, outlier.shape = NA) +
    geom_segment(data = tmp1,
                 aes(x = as.numeric(factor(X)) - 0.125, y = Y,
                     xend = as.numeric(factor(X2)) + 0.125, yend = Y2)) +
    facet_grid(Gp ~ Fc)

enter image description here

3
d.b 1 mar. 2018 a las 16:25

Tengo una manera de hacer esto, seguramente similar a lo que se ha hecho, pero usando geom_line y position_dodge y data.table

library(data.table)
DATA=data.table(Y,X,Z,Fc,Gp)

 qplot(X, Y, data=DATA, geom="boxplot", fill=Z, na.rm = TRUE, 
           outlier.size = NA, outlier.colour = NA)  +
   geom_line(data = DATA[,list(Y = mean(Y)), by = .(X,Z,Fc,Gp)][X == "B1"],aes(X,Y,color = Z),group =1, position = position_dodge(width = .75),color = "black") +
   geom_line(data = DATA[,list(Y = mean(Y)), by = .(X,Z,Fc,Gp)][X == "B2"],aes(X,Y,color = Z),group =1, position = position_dodge(width = .75),color = "black") +
  facet_grid(Gp ~ Fc)+ theme_light()+
  theme(legend.position="bottom") +
  stat_summary(fun.y=mean, geom="point", shape=23, position = position_dodge(width = .75))

enter image description here

0
denis 1 mar. 2018 a las 18:02

Otro enfoque, es cierto que es un poco complicado, pero con suerte evita algunas modificaciones.

La idea es construir un objeto de trazado que incluya la llamada stat_summary. A partir de esto, tome datos relevantes (ggplot_build(p)$data[[2]]) que se utilizarán para las líneas. La segunda ranura de datos ([[2]]) corresponde a la segunda capa en la llamada de trazado, es decir, las x y y generadas por stat_summary.

Tome las x y y posiciones e índices del panel (PANEL) y las categorías x (group).

En los datos del objeto gráfico, las variables 'PANEL' y 'grupo' no se dan explícitamente por sus nombres, sino como números correspondientes a las diferentes combinaciones de variables facet y variables que eventualmente generarán un { {X1}} posición (aquí 'el real' x y fill).

Sin embargo, debido a que las variables categóricas están ordenadas lexicográficamente en ggplot, podemos unir los números con sus variables correspondientes. La función .GRP en data.table es conveniente aquí.

Estos datos se pueden usar para dibujar un geom_line entre las medias.

# dodge value
pos <- position_dodge(width = 0.75)

# initial plot
p <- ggplot(data = DATA, aes(x = X, y = Y, fill = Z)) +
  geom_boxplot(outlier.size = NA, outlier.colour = NA, 
               position = pos) +
  stat_summary(fun.y = mean, geom = "point", shape = 23, position = pos) +
  facet_grid(Gp ~ Fc)

# grab relevant data
d <- ggplot_build(p)$data[[2]][ , c("PANEL", "group", "x", "y")]

library(data.table)
setDT(DATA)

# select unique combinations of facet and x variables
# here x includes the fill variable 'Z'
d2 <- unique(DATA[ , .(Gp, Fc, Z, X)])

# numeric index of facet combinations
d2[ , PANEL := .GRP, by = .(Gp, Fc)]

# numeric index of x combinations
d2[ , group := .GRP, by = .(Z, X)]

# add x and y positions by joining on PANEL and group
d2 <- d2[d, on = .(PANEL, group)]

# plot!
p + geom_line(data = d2, aes(x = x, y = y))

enter image description here

1
Henrik 1 mar. 2018 a las 17:19

Aquí hay una alternativa:

DATA$U <- paste(X, Z) # Extra interaction
qplot(U, Y, data = DATA, geom = "boxplot", fill = Z, na.rm = TRUE, 
      outlier.size = NA, outlier.colour = NA) +
  facet_grid(Gp ~ Fc) + theme_light() + scale_colour_gdocs() +
  theme(legend.position = "bottom") + 
  stat_summary(fun.y = mean, geom = "point", shape = 23, position = position_dodge(width = .75)) +
  stat_summary(fun.y = mean, geom = "line", aes(group = X)) + # Lines
  scale_x_discrete(labels = rep(levels(X), each = 2)) + xlab("X") # Some fixes

enter image description here

5
Julius Vainora 1 mar. 2018 a las 15:10