Sé que hay lxml y BeautifulSoup, pero eso no funcionará para mi proyecto, porque no sé de antemano cuál será el formato HTML del sitio del que estoy tratando de raspar un artículo. ¿Existe un módulo de tipo python similar a Readability que haga un trabajo bastante bueno para encontrar el contenido de un artículo y devolverlo?
3 respuestas
Es posible hacerlo usando PhantomJS (C ++) o PyPhantomJS (Python).
Ambos son navegadores basados en WebKit sin cabeza, que puedes controlar completamente desde JavaScript. Debido a que puede controlarlo desde JavaScript, creo que es realmente fácil hacer cosas como raspar el contenido de un artículo.
PyPhantomJS también tiene un sistema de complementos, por lo que definitivamente es una ventaja. :)
La extracción del contenido real de una página de contenido no se puede hacer automáticamente, al menos no con las herramientas estándar. Debe definir / identificar dónde se almacena el contenido real (especificando la ID o clase CSS relacionada en su propio código de extracción HTML).
Usando HTQL, la consulta es: & html_main_text
Preguntas relacionadas
Nuevas preguntas
python
Python es un lenguaje de programación multipropósito, de tipificación dinámica y de múltiples paradigmas. Está diseñado para ser rápido de aprender, comprender y usar, y hacer cumplir una sintaxis limpia y uniforme. Tenga en cuenta que Python 2 está oficialmente fuera de soporte a partir del 01-01-2020. Aún así, para preguntas de Python específicas de la versión, agregue la etiqueta [python-2.7] o [python-3.x]. Cuando utilice una variante de Python (por ejemplo, Jython, PyPy) o una biblioteca (por ejemplo, Pandas y NumPy), inclúyala en las etiquetas.