¿Hay alguna manera de que tome un contexto de datos (originalmente en Pandas, lo muestra con diferentes semillas aleatorias y use Dask para devolver varios cuadros de datos (uno por semilla aleatoria).

Mi comprensión muy primitiva de Dask es que puedo tomar un contexto de datos, dividirlo y luego hacer computaciones sobre él, pero me preguntaba si podía usar Dask para resolver este problema.

0
Nocas 28 jun. 2019 a las 03:06

1 respuesta

La mejor respuesta

Claro, puede usar Dask retrasado para ejecutar funciones arbitrarias en paralelo.

def sample(df: pandas.DataFrame, seed:int) -> pandas.DataFrame:
    ...

import dask

df = pandas.DataFrame(...)

dfs = [dask.delayed(sample)(df, seed) for seed in seeds]
dfs = dask.compute(*dfs)
1
MRocklin 30 jun. 2019 a las 08:32