Digamos que tenemos un marco de datos en este formato:

id  properties
0   {"cat1":["p1","p2","p4"],"cat2":["p5", "p6"]}
1   {"cat1":["p3"],"cat2":["p7"]}

¿Cómo podemos convertirlo a este formato?

id  p1    p2    p3    p4    p5    p6    p7
0   True  True  False True  True  True  False
1   False False True  False False False True

Tenga en cuenta que el tipo de valores en cada celda es una cadena. Tiene solo dos categorías: cat1 y cat2

3
MTT 4 oct. 2019 a las 03:26

4 respuestas

La mejor respuesta

Establezca el índice en id. Como dijiste, cada celda es una cadena, por lo que debes convertir df.properties de una cadena de dict a dict usando ast.literal_eval. A continuación, y utilizando el método str para obtener cat1 y cat2 y combinar sus listas y explode en filas y asignar el resultado a s. Finalmente, llame a pd.get_dummies en s con la opción dtype=bool y llame a max en el nivel = 0

import ast

df1 = df.set_index('id')
df1.properties = df1.properties.map(ast.literal_eval)
s = (df1.properties.str['cat1'] + df1.properties.str['cat2']).explode()
pd.get_dummies(s, dtype=bool).max(level=0)

Out[1035]:
       p1     p2     p3     p4     p5     p6     p7
id
0   True   True   False  True   True   True   False
1   False  False  True   False  False  False  True
1
Andy L. 4 oct. 2019 a las 01:29

Usando itertools.chain.from_iterable y str.get_dummies

from itertools import chain

df.properties.apply(lambda s: ','.join(chain.from_iterable(s.values())))\
             .str.get_dummies(sep=',')\
             .astype(bool)

      p1     p2     p3     p4     p5     p6     p7
0   True   True  False   True   True   True  False
1  False  False   True  False  False  False   True
3
rafaelc 4 oct. 2019 a las 00:37

Usando stack + explode + get_dummies

u = pd.DataFrame(df['properties'].tolist())

u.stack().explode().add(',').sum(level=0).str.get_dummies(',')
   p1  p2  p3  p4  p5  p6  p7
0   1   1   0   1   1   1   0
1   0   0   1   0   0   0   1
2
user3483203 4 oct. 2019 a las 00:50

Usaré get_dummies

df.properties.map(lambda x : ','.join(sum(x.values(),[]))).str.get_dummies(',').astype(bool)
      p1     p2     p3     p4     p5     p6     p7
0   True   True  False   True   True   True  False
1  False  False   True  False  False  False   True
2
YOBEN_S 4 oct. 2019 a las 01:23
58228410