Me gustaría unir tres marcos de datos de la siguiente estructura:

january_df=pd.DataFrame({
    'January':[4,4,3,2,1,1],
    'Product_no':['B1','B2','S1','S2','B3','T1'],
    'Label':['Ball','Bikini','Shoe','Shirt','Bag','Towel'],
    'ID':[1000, 1001, 1002, 1003, 1004, 1005],
})

february_df=pd.DataFrame({
    'February':[4,3,3,2,1,1],
    'Product_no':['S1','B2','B1','T1','S2','B3'],
    'Label':['Shoe','Bikini','Ball','Towel','Shirt','Bag'],
    'ID':[1002, 1001, 1000, 1005, 1003, 1004],
})

march_df=pd.DataFrame({
    'March':[5,1,1,1,1,1],
    'Product_no':['T1','E1','S1','B3','L1','B1'],
    'Label':['Towel','Earring','Shoe','Bag','Lotion','Ball'],
    'ID':[1005, 1006, 1002, 1004, 1007, 1000],
})

El resultado deseado para marzo debería ser:

   January  February  March  Product_no Label      ID
---------------------------------------------------------
01   1          2        5    T1        Towel      1005
02   0          0        1    E1        Earring    1006
03   3          4        1    S1        Shoe       1002
04   1          1        1    B3        Bag        1004
05   0          0        1    L1        Lotion     1006
06   4          3        1    B1        Ball       1000

En un primer paso intenté fusionar marzo y febrero

all_df = pd.merge(march_df, february_df, on="ID")

Pero no da el resultado durante los dos meses. Traté de entender las sugerencias sobre producto cartesiano de alto rendimiento (CROSS JOIN) con pandas y pandas de tres vías que unen varios marcos de datos en columnas pero no se volvió más sabio.

En R, se puede lograr como una "combinación múltiple canalizada"

threeMonths <- February%>%
      right_join(March)%>%
      left_join(January)

Que parece que no puedo traducir a Python.

¿Cómo obtengo el resultado deseado?

0
Yahalnaut 14 mar. 2021 a las 02:37

1 respuesta

La mejor respuesta

Puede fusionar en dos pasos. Por ejemplo para marzo:

tmp = pd.merge(january_df, february_df, on='ID')
final_df = pd.merge(tmp, march_df, on='ID', how='right')[['January', 'February', 'March', 'Product_no', 'Label', 'ID']].fillna(0)

print(final_df)

Huellas:

   January  February  March Product_no    Label    ID
0      1.0       2.0      5         T1    Towel  1005
1      0.0       0.0      1         E1  Earring  1006
2      3.0       4.0      1         S1     Shoe  1002
3      1.0       1.0      1         B3      Bag  1004
4      0.0       0.0      1         L1   Lotion  1007
5      4.0       3.0      1         B1     Ball  1000
1
Andrej Kesely 13 mar. 2021 a las 23:57