Supongamos que tengo este archivo TSV

Parece que:

status=200  protocol=http   region_name=Podolsk datetime=2016-03-10 15:51:58    user_ip=0.120.81.243    user_agent=Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.116 Safari/537.36    user_id=7885299833141807155 user_vhost=tindex.ru    method=GET  page=/search/

Y necesito extraer los navegadores de los usuarios y las estadísticas de uso del sistema operativo. Aquí está el código que funciona bien, excepto que es REALMENTE lento:

from ua_parser import user_agent_parser
import user_agents
dict0 = {}
def grep(filename, pattern):
    for n,line in enumerate(open(filename)):
        ua_start = line.find(pattern) + len(pattern)
        ua_end = line.find('\t', ua_start)
        ua = str(user_agents.parse(line[ua_start:ua_end]).browser.family)
        try:
            dict0[ua] += 1
        except KeyError:
            dict0[ua] = 1

grep('data/data.tsv', 'user_agent=')

Me da una buena idea de estadísticas en un diccionario que se ve así:

{'Android': 10890,
 'Apache-HttpClient': 59,
 'Avant': 21,
 'BlackBerry WebKit': 16,
 'CFNetwork': 301,
 'Chrome': 20963,
 'Chrome Mobile': 1442,
 'Chrome Mobile iOS': 69,
 'Chromium': 290,
 'Dolfin': 34,
 'Edge': 872,
 'Edge Mobile': 12,
 'Epiphany': 1,
 'Firefox': 9757,
 'Firefox Beta': 4,
 'Firefox Mobile': 22,
 'Firefox iOS': 1,
 'Galeon': 1,
 'Googlebot': 1,
 'IE': 5399,
 'IE Large Screen': 4,
 'IE Mobile': 340,
 'Iceweasel': 12,
 'Iron': 7,
 'Jasmine': 3,
 'Mail.ru Chromium Browser': 649,
 'Maxthon': 137,
 'Midori': 1,
 'Mobile Safari': 2778,
 'Mobile Safari UI/WKWebView': 51,
 'Nokia Browser': 14,
 'Nokia OSS Browser': 1,
 'Obigo': 2,
 'Opera': 10652,
 'Opera Coast': 2,
 'Opera Mini': 675,
 'Opera Mobile': 299,
 'Opera Tablet': 25,
 'Other': 13424,
 'PhantomJS': 11,
 'Pinterest': 1,
 'Puffin': 25,
 'Python Requests': 39,
 'Python-urllib': 9,
 'QQ Browser Mobile': 3,
 'Safari': 255,
 'Samsung Internet': 522,
 'SeaMonkey': 1,
 'Sogou Explorer': 2,
 'Spider': 17,
 'UC Browser': 528,
 'Vivaldi': 7,
 'WebKit Nightly': 104,
 'Yandex Browser': 19969,
 'YandexBot': 86,
 'YandexDirect': 2,
 'YandexMobileBot': 1,
 'YandexSearch': 2601}

El componente que es realmente lento aquí es el user_agents en sí mismo. No estoy realmente vinculado a la biblioteca user_agents ni a la forma en que almaceno los resultados, por lo que si tiene ALGUNA idea sobre cómo mejorar la velocidad de procesamiento, será bienvenido.

1
Petr Fedosov 11 may. 2016 a las 05:46

3 respuestas

La mejor respuesta

En realidad, hice un buen camino que podría hacer una gran mejora de velocidad. Básicamente, primero agregamos user_agent = lines al diccionario y los contamos. ¡Luego analizamos las claves a user_agents y contamos los valores!

from ua_parser import user_agent_parser
parsing_dict = {}
os_stats = {}
browser_stats = {}
target = 'tindex.ru'
def grep(filename, pattern):
    def parse_ua(ua):
            p = ua_parser.user_agent_parser.Parse(ua)
            return [p.get('os').get('family'), p.get('user_agent').get('family')]

    for n,line in enumerate(open(filename)):
        if target in line:
            ua_start = line.find(pattern) + len(pattern)
            ua_end = line.find('\t', ua_start)
            ua = line[ua_start:ua_end]
            try:
                parsing_dict[ua] += 1
            except KeyError:
                parsing_dict[ua] = 1

    for key, value in parsing_dict.iteritems():
        ua = parse_ua(key)
        try:
                os_stats[ua[0]] += value
                browser_stats[ua[1]] += value
        except KeyError:
                os_stats[ua[0]] = value
                browser_stats[ua[1]] = value
grep('data/data.tsv', 'user_agent=')
1
Petr Fedosov 12 may. 2016 a las 06:31

Utilicé la PyWurfl, que proporciona mapeo de Agentes de Usuario con Dispositivo, Sistema Operativo y otra información similar.

Requiere que descarguemos el último archivo wurfl.xml y luego usemos el archivo wurfl2python.py para convertir los datos en un objeto de Python . Para mejorar el rendimiento, puede modificar esto un poco.

Lo que puede hacer es cargar los últimos datos wurfl.xml proporcionados por la biblioteca (de manera convencional la primera vez) y luego convertirlos a formato csv . Luego cargue el contenido del archivo csv en la memoria (como un objeto de diccionario). Luego, para mi requerimiento, utilicé Spark Jobs para procesar los datos transmitiendo este objeto dictionary a través de los nodos.

0
Sameer Mirji 12 may. 2016 a las 08:14

Puedes usar la expresión regular:

/user_agent=(.*) user_id /

enter image description here

0
bertramlau 11 may. 2016 a las 03:11