Tengo un archivo con varios datos de acceso wifi. La base de datos se divide en varias columnas: user_id, start (cuando el dispositivo se conecta al enrutador), end (cuando el dispositivo se desconecta del enrutador).

Ejemplo:

user_id   start     end 
1   15/05/16 13:51  15/05/16 14:06 
1   15/05/16 14:06  15/05/16 14:32 
1   15/05/16 14:32  15/05/16 14:34 
2   15/05/16 11:14  15/05/16 11:25 
2   15/05/16 11:25  15/05/16 12:09 
2   15/05/16 12:14  15/05/16 12:42 
2   15/05/16 17:33  15/05/16 17:41 
2   15/05/16 17:41  15/05/16 18:27

El problema es que, en algún momento, los dispositivos se desconectan y se vuelven a conectar. Me gustaría agrupar los datos en un evento como ese:

user_id start   end
1   15/05/16 13:51  15/05/16 14:34
2   15/05/16 11:14  15/05/16 12:42
2   15/05/16 17:33  15/05/16 18:27

¿Hay una manera eficiente de hacerlo con los pandas?

0
Henri Koch 9 sep. 2018 a las 16:11

3 respuestas

La mejor respuesta

En primer lugar, necesitamos tener columnas: 'inicio' y 'fin' en el formato correcto:

df[['start']] =pd.to_datetime(df['start'])
df[['end']] =pd.to_datetime(df['end'])

Luego necesita generar una nueva columna para identificar la condición de una conexión diferente:

df['id_connection'] = False

El siguiente paso es identificar la primera observación de un nuevo usuario (siempre será una nueva conexión):

indexes = df.drop_duplicates(subset='user_id', keep='first').index
df.loc[indexes,'id_connection'] = True

Ahora, necesitamos identificar la otra condición cuando se produce una nueva conexión. Debe tomar un criterio para determinar si se trata de una nueva conexión o no:

diff_ = (df['start'].values[1:] - df['end'].values[:-1]).astype('float')
time_criteria_mins = 5
new_connection = np.insert(( diff_ / (60*10**9)) > time_criteria_mins, 0, 1)

Luego, debe combinar las dos condiciones, (1) nuevo usuario (2) mismo usuario con un tiempo entre conexiones mayor a 5 minutos:

df['id_connection'] = (new_connection | df['id_connection']).cumsum()

Finalmente, hacemos un grupo por el atributo 'id_connection':

gb = df.groupby('id_connection').agg({'user_id': 'first', 'start': 'first','end':'last'})

Nota: Tenga cuidado para asegurarse de que el marco de datos esté ordenado por (usuario y fecha y hora de inicio)

1
Antonio Andrés 11 sep. 2018 a las 06:18

Nosotras podemos tener algo como esto

import pandas as pd
data=pd.DataFrame(
    [
        [1,'15/05/16 13:51','15/05/16 14:06'],
        [1,'15/05/16 14:06','15/05/16 14:32'], 
        [1,'15/05/16 14:32','15/05/16 14:34'], 
        [2,'15/05/16 11:14','15/05/16 11:25'],
        [2,'15/05/16 11:25','15/05/16 12:09'],
        [2,'15/05/16 12:14','15/05/16 12:42'],
        [2,'15/05/16 17:33','15/05/16 17:41'], 
        [2,'15/05/16 17:41','15/05/16 18:27']
    ]
    ,columns=['userid','start','end']
)

from datetime import datetime
data['start']=data['start'].map(lambda x: datetime.strptime(x,'%d/%m/%y %H:%M'))
data['end']=data['end'].map(lambda x: datetime.strptime(x,'%d/%m/%y %H:%M'))

diffData=[]
for i in range(1, len(data)):
    diffData.append((data.loc[i,'start'] - data.loc[i-1,'end']).seconds / 60)

data['diff']=[0] + diffData

def getStartEnd(tempData,THRESHOLD):
    tempData=tempData.reset_index()
    finalData=[]
    startTime=tempData.loc[0,'start']
    for i in range(1,len(tempData)):
        if(tempData.loc[i,'diff'] > THRESHOLD):
            finalData.append([tempData.loc[i,'userid'],startTime,tempData.loc[i-1,'end']])
            startTime=tempData.loc[i,'start']
    finalData.append([tempData.loc[i,'userid'],startTime,tempData.loc[i,'end']])
    return(pd.DataFrame(finalData,columns=['userid','start','end']))

finalData=pd.DataFrame(columns=['userid','start','end'])
for user in data['userid'].unique():
    finalData=pd.concat([finalData,getStartEnd(data[data['userid']==user],60)])

print(finalData)

  userid               start                 end
0      1 2016-05-15 13:51:00 2016-05-15 14:34:00
0      2 2016-05-15 11:14:00 2016-05-15 12:42:00
1      2 2016-05-15 17:33:00 2016-05-15 18:27:00
0
Anant Gupta 9 sep. 2018 a las 13:39

Puede utilizar la función pandas Groupby en la identificación de usuario, una vez que separó los datos de identificación de cada usuario, calcule la diferencia entre el inicio y el final. Luego aplique la suma acumulativa a grupos separados y luego puede extraer el inicio de la primera fila y el final de la última fila de cada grupo :-)

def func(threshold,df1):
    # Calculating the difference of start and end time of each row
    df1['diff1'] = ((df1.start - df1.end.shift()).dt.seconds).fillna(0)
    # if difference is less than threshold equating with 0
    df1.loc[df1['diff1'] < threshold, 'diff1'] = 0
    # assigning cummulative sum of column
    df1['diff1'] = df1.diff1.cumsum()
    # Grouping the cummulatice sum of time differences and keeping only required row
    df1 = df1.groupby(['diff1']).apply(lambda x: x.set_value(0,'end',x['end'].tail(1).values[0]).loc[x.head(1).index.values[0]])
    return df1

data.start = pd.to_datetime(data.start)
data.end = pd.to_datetime(data.end) 
# Threshold setting to consider the difference "threshold is in seconds"
threshold = 500
# Calling the function for each ID
data.groupby('userid').apply(lambda x: func(threshold,x))

Fuera:

     userid        start                end        diff1
userid  diff1               
1        0.0    1.0 2016-05-15 13:51:00 2016-05-15 14:34:00 0.0
2        0.0    2.0 2016-05-15 11:14:00 2016-05-15 11:25:00 0.0
2     17460.0   2.0 2016-05-15 11:14:00 2016-05-15 11:25:00 0.0
0
Naga Kiran 9 sep. 2018 a las 14:31