Sé que hay lxml y BeautifulSoup, pero eso no funcionará para mi proyecto, porque no sé de antemano cuál será el formato HTML del sitio del que estoy tratando de raspar un artículo. ¿Existe un módulo de tipo python similar a Readability que haga un trabajo bastante bueno para encontrar el contenido de un artículo y devolverlo?

0
Parseltongue 1 jul. 2011 a las 08:31

3 respuestas

La mejor respuesta

Es posible hacerlo usando PhantomJS (C ++) o PyPhantomJS (Python).

Ambos son navegadores basados en WebKit sin cabeza, que puedes controlar completamente desde JavaScript. Debido a que puede controlarlo desde JavaScript, creo que es realmente fácil hacer cosas como raspar el contenido de un artículo.

PyPhantomJS también tiene un sistema de complementos, por lo que definitivamente es una ventaja. :)

1
John Doe 6 jul. 2011 a las 21:51

La extracción del contenido real de una página de contenido no se puede hacer automáticamente, al menos no con las herramientas estándar. Debe definir / identificar dónde se almacena el contenido real (especificando la ID o clase CSS relacionada en su propio código de extracción HTML).

0
Andreas Jung 1 jul. 2011 a las 04:38

Usando HTQL, la consulta es: & html_main_text

0
seagulf 4 jul. 2011 a las 04:09