Por ejemplo, tengo una hoja de datos como aquí Muestra de datos, he definido 4 encabezados, Entiendo que puedo acceder a uno de los últimos encabezados usando df ['2020-01-01', 'A', C1 ',' D1 ']. ¿Qué pasa si quiero leer tanto 'D1' como 'D2'? ¿O 'D1' y 'D5'? ¿Cuál sería el código correcto, gracias!

0
Sophia Deng 24 jul. 2020 a las 23:07

1 respuesta

La mejor respuesta

Primero, creamos un DataFrame (con un MultiIndex) como el de su ejemplo:

import numpy as np
import pandas as pd

data = np.arange(11 * 8).reshape((11, 8))

midx = pd.MultiIndex.from_tuples(
    [
        ('2020-01-01', 'A', 'C1', 'D1'),
        ('2020-01-01', 'A', 'C1', 'D2'),
        ('2020-01-01', 'A', 'C2', 'D3'),
        ('2020-01-01', 'A', 'C2', 'D4'),
        
        ('2020-01-01', 'B', 'C3', 'D5'),
        ('2020-01-01', 'B', 'C3', 'D6'),
        ('2020-01-01', 'B', 'C4', 'D7'),
        ('2020-01-01', 'B', 'C4', 'D8'),
    ],
    names=('y', 'a', 'b', 'c',)
)

df = pd.DataFrame(data=data, columns=midx)

df

Ahora, usamos el 'segmento de índice' algo engorroso para extraer las columnas de interés. Aquí están algunos ejemplos:

# get the 'A' columns
df.loc[:, (slice(None), 'A')]  

# get the 'C1' column
df.loc[:, (slice(None), slice(None), 'C1')]  

# get the D1 and D5 columns
df.loc[:, (slice(None), slice(None), slice(None), ['D1', 'D5'])]  

y       2020-01-01
a       A       B
b       C1      C3
c       D1      D5
0       0       4
1       8       12
2       16      20
3       24      28
4       32      36
5       40      44
6       48      52
7       56      60
8       64      68
9       72      76
10      80      84

Aquí está el MultiIndex después de realizar la última operación:

df.loc[:, (slice(None), slice(None), slice(None), ['D1', 'D5'])].columns

MultiIndex([('2020-01-01', 'A', 'C1', 'D1'),
            ('2020-01-01', 'B', 'C3', 'D5')],
           names=['y', 'a', 'b', 'c'])

Los documentos están aquí: https://pandas.pydata.org/pandas-docs/stable/ user_guide / advanced.html

0
jsmart 24 jul. 2020 a las 21:46