Pandas es una biblioteca de Python para la manipulación y análisis de datos, p. marcos de datos, series de tiempo multidimensionales y conjuntos de datos transversales que se encuentran comúnmente en estadísticas, resultados de ciencias experimentales, econometría o finanzas. Pandas es una de las principales bibliotecas de ciencia de datos en Python.

pandas...

Hola tengo una df como: COL1 COL2 0.005554 0.35200000000000004 5.622e-11 0.267 0.006999999999999999 0.307 2.129e-14 0.469 2.604e-14 0.39 1.395e-60 0.27899999999999997 8.589999999999998e-74 0.29600000000000004 1.025e-42 0.4270000000000001 Sé cómo redondear el dígito en el CO....
27 ago. 2020 a las 16:07
Dado este marco de datos: HOUSEID PERSONID STRTTIME ENDTIME TDTRPNUM 0 20000017 1 955 1020 1 1 20000017 1 1130 1132 2 2 20000017 1 1330 1400 3 3 20000017 2 958 1020 1 4 2....
27 ago. 2020 a las 15:22
¿Cómo puedo hacer un bucle para obtener la lista de nombres de lista? import numpy as np import pandas as pd df = pd.read_csv('census.csv') data = ['SUMLEV','STNAME', 'CTYNAME', 'CENSUS2010POP'] df=df[data] adf = df[df['SUMLEV']==50] adf.set_index('STNAME', inplace=True) states = np.array(adf.index.....
27 ago. 2020 a las 13:53
Tengo un marco de datos con 2415 columnas y quiero eliminar columnas duplicadas consecutivas. Es decir, si la columna 1 y la columna 2 tienen los mismos valores, quiero eliminar la columna 2. Escribí el siguiente código pero no parece funcionar: for i in (0,len(df.columns)-1): if (df[i].tolist()....
27 ago. 2020 a las 05:10
Tengo un gran conjunto de datos (300 millones de filas) y necesito un algoritmo eficiente (o rápido) que haga el trabajo. Así que aquí hay algunas filas de conjuntos de datos. db = pd.DataFrame({'A': [2,3,4,5], 'T': [1,2,6,7], 'G': [8, 1, 4, 6], 'C': [1,1 , 3, 4], 'basecall' : ['G'....
26 ago. 2020 a las 19:29
Tengo un código que lee todos los archivos CSV en una carpeta determinada y los concatena en un archivo de Excel. Este código funciona siempre que los CSV tengan encabezados, pero me pregunto si hay una manera de alterar mi código si mis CSV no tienen encabezados. Esto es lo que funciona: path = r'C....
25 ago. 2020 a las 21:45
import pandas as pd df = pd.DataFrame([[1, 'li'], [2, 'la'], [3, 'lu']], columns=(['index', 'col'])) class Test: def __init__(self, data): self.data = data self.data.set_index('index', inplace = True) test1 = Test(df) test2 = Test(df) print(test1.data) print(test2.data) Es....
25 ago. 2020 a las 18:12
Tengo dos df: date=pd.date_range(start = '8/1/2020 7:00:00', end ='8/1/2020 7:15:00',freq='min') df1=pd.DataFrame({'date':date}) Y df2=pd.DataFrame({'date':[dt.datetime(2020,8,1,7,0),dt.datetime(2020,8,1,7,6),dt.datetime(2020,8,1,7,12)],'count':[5,6,1]}) Quiero fusionar df2 en df1 siguiendo el pat....
25 ago. 2020 a las 18:05
Tengo un marco de datos (df) Index A B 0 1 1 1 2 2 2 3 3 Y generó 20 datos de remuestreo de este conjunto de datos original, todos combinados en una trama de big data. Por ejemplo: Resample Nr. Index A B 1 ....
25 ago. 2020 a las 17:41
Tengo este DataFrame lst = [[1,0],[None,1],[2,0],[2,0],[None,1],[None,1],[3,0],[None,1] ] df1 = pd.DataFrame(lst,columns = ['id','is_cumulative']) Salida id is_cumulative 0 1.0 0 1 NaN 1 2 2.0 0 3 2.0 0 4 NaN 1 5 NaN ....
25 ago. 2020 a las 16:53
Cuando usé pandarallel para usar todos los núcleos al ejecutar métodos .apply en mis marcos de datos, encontré una sintaxis que nunca había visto antes. Más bien, es una forma de usar la sintaxis de puntos que no entiendo. import pandas as pd from pandarallel import pandarallel df = pd.DataFrame([[....
25 ago. 2020 a las 16:44
Tengo pandas DataFrame con algunos valores numéricos y algunos categóricos (str), digamos esto: A B C D 0 x y a 2 1 x x aa 1 2 y z aa 4 3 y z aa 4 4 x y aaaa 0 Quiero convertir todo el valor categórico en indicadores booleanos. Debido a que algunas de las colum....
25 ago. 2020 a las 16:20
Tengo una columna en un marco de datos de pandas. Cada celda contiene códigos de letras separados por comas como: ``` ['a, b, c, d', 'a, d', 'a, b, c', 'b, f', 'a, b, d, j', 'b, c, d', 'a, f', '?', 'a, b, d', 'a, c, d', 'a, j', 'b, c', 'b, g', 'a', 'a, b, d, e', 'b', 'b, k', 'b, i', 'k....
25 ago. 2020 a las 16:20
Tengo la siguiente trama de datos: fake = pd.DataFrame({"group" : ["A","A","A","B","B","B","B","B","C","C"], "num" : ['1','2','3','4','5','6','7','8','9','10']}) >>> A num 0 A 1 1 A 2 2 A 3 3 B 4 4 B 5 5 B 6 6 B 7 7 B 8 8 C 9 9 C 10 M....
25 ago. 2020 a las 16:07
Tengo un marco de datos que muestra ID únicos y el tiempo de duración de cuando estuvieron activos (es decir, el ID 1821 muestra estar activo durante 170 días, 12 horas, 34 minutos y 12 segundos): ID Duration 0 1821 170 days 12:34:12 1 1245 30 days 11:11:23 2 1345 110 d....
25 ago. 2020 a las 14:46
Tengo un diccionario como se muestra a continuación. d1 = { 'start_date' : '2020-10-01T20:00:00.000Z', 'end_date' : '2020-10-05T20:00:00.000Z', 'n_days' : 6, 'type' : 'linear', "coef": [0.1,0.1,0.1,0.1,0.1,0.1] } D1: es la entrada del usuario, el usuario p....
25 ago. 2020 a las 13:39
Tengo un problema similar con mi pregunta anterior: Eliminar cero de cada columna y reorganizarlo con python pandas / numpy Pero en este caso, necesito eliminar NaN. He probado muchas soluciones, incluida la modificación de soluciones de mi publicación anterior: a = a[a!=np.nan].reshape(-1,3) Pero ....
25 ago. 2020 a las 13:33
Estoy trabajando con python3.7 y tengo un problema con una versión reciente de pandas. Aquí está mi código. import pandas as pd import numpy as np data = {'col_1':[9087.6000, 9135.8000, np.nan, 9102.1000], 'col_2':[0.1648, 0.1649, '', 5.3379], 'col_nan':[np.nan, np.nan, np.nan, np.n....
25 ago. 2020 a las 09:25
Tengo los datos que se muestran a continuación, In [20]: test_data Out[22]: ut first_name_ini 0 WOS:000386321800001 Enriquez, F 1 WOS:000386321800001 Troyano, J 2 WOS:000386321800001 Lopez-Solaz, T 3 WOS:000386321800002 da Rochaa, S 4 WOS:000386321800002 Bra....
25 ago. 2020 a las 04:48
Tengo un marco de datos con la siguiente estructura: A B [1, 2, 3] [a, b, c] [4, 5, 6] [d, e, f] Quiero consultar el marco de datos de manera que cuando ingrese 1, debería devolver [a,b,c]. De manera similar, la consulta de 6 debería devolver [d, e, f]. ¿Cuál es la forma más l....
25 ago. 2020 a las 01:40
Mi archivo Json: { "countries": [ "Australia", "France", "Belgium" ] } Tengo un index_list = ['Germany', 'USA, 'Ireland, Australia, "France", Belgium, "Kenya", "Spain" Quiero filtrar todos los países que están en el archivo json. data_json= json.dumps(data["countries"]) res = filter(lambda i:....
25 ago. 2020 a las 01:37
Tengo dos marcos de datos que se refieren a estaciones meteorológicas: import pandas as pd df_shift = pd.DataFrame({'Date': ['2010-10-05', '2010-10-20', '2011-03-15', '2012-03-22', '2015-01-17', '2015-01-23', '2015-01-30'], ....
25 ago. 2020 a las 00:25
Tengo un marco de datos de pandas y quiero fusionar varias listas de tuplas en diferentes filas en una lista de tuplas. El conjunto de datos tiene más de 10000 filas y quiero agregar toda la lista de tuplas en una lista de tuplas. InvoiceNo Description 534 [(AB, AC), (ACBO, PPK)....
24 ago. 2020 a las 15:53
Bastante nuevo en Python y la codificación en general. He estado buscando varias preguntas y respuestas de comparación de csv y no pude encontrar nada que me ayudara con este problema de comparación específico. Tengo dos archivos que contienen información de activos de red. Algunos dispositivos tien....
24 ago. 2020 a las 14:50
Tengo una columna con timedelta y me gustaría crear una columna extra extrayendo la hora y los minutos de la columna timedelta. Df time_delta hour_minute 02:51:21.401000 2h:51min 03:10:32.401000 3h:10min 08:46:43.401000 08h:46min Esto es lo que he intentado hasta ahora: df['rh'....
24 ago. 2020 a las 14:36