Beautiful Soup es un paquete de Python para analizar HTML / XML. La última versión de este paquete es la versión 4, importada como bs4.

Más sobre beautifulsoup...

Cuando ejecuto mi programa: importar solicitudes de bs4 importar datos de la clase BeautifulSoup (): def __init __ (self): self.tags = open ("tags.txt", "r") self.tag = ".......
28 feb. 2021 a las 02:07
Tengo un problema con el siguiente código. Cuando lo ejecuto en Google Colaboratory, espero que el resultado (un dato numérico del sitio web Coinmarketcap) cambie con el tiempo porque cambia continuamente en el sitio web, pero siempre obtengo un resultado fijo. ¿Cómo puedo solucionar el problema? ....
Estoy aprendiendo a usar BeautifulSoup en un grupo de desafío aleatorio (como ejercicio porque me gustaría empezar a raspar grupos de desafío). importar solicitudes de bs4 importar BeautifulSoup como bs .......
27 feb. 2021 a las 18:27
Quiero detectar si la página web tiene algunos enlaces que comienzan por un número y luego 2 palabras como esta: 23 razones para ... => el estado es "ok" 5 imágenes para ... => el estado es "ok" 10 fotos que ... => el estado es "ok" Estas 10 imágenes => el estado es Ninguno Para verificar una pala....
27 feb. 2021 a las 13:38
Quiero saber si hay una palabra de una lista en una cadena dentro de uno o más enlaces de texto. Intenté esto: keywords = ["word1", "word1", "word1", "word2", "word3"] html_template = "word4 word2 word1 <a href='#'>the link one<a/> <a \ href='#'>the word1 is link 2<a/> word7 <a \ href='#'>word3 exa....
27 feb. 2021 a las 11:32
Estoy tratando de eliminar los precios y los nombres de las listas de autos usados, excluyendo los publicados por un concesionario. Tengo problemas porque me gustaría poner esto en un marco de datos usando panda, pero solo puedo hacerlo una vez que obtenga la información correcta. Aquí está el cód....
27 feb. 2021 a las 00:08
from selenium import webdriver from bs4 import BeautifulSoup as Bs import time driver = webdriver.Chrome(executable_path=r'C:\Users\kaka\PycharmProjects\chromedriver.exe') google_get = driver.get('https://www.google.com/?q=nlp techniques') google_search = driver.find_element_by_xpath( '/html/b....
26 feb. 2021 a las 21:47
Quiere eliminar "" y [] también "image":["https://assets.adidas.com/images/w_600,f_auto,q_auto/c6f0aede76f849a18a27a91500a0c8c9_9366/Continental_80_Shoes_Black_G27707_01_standard.jpg","https://assets.adidas.com/videos/w_600,f_auto,q_auto/dd37d9bb5cd54406b36faa8d00fb8c22_d98c/Continental_80_Shoes_Bla....
26 feb. 2021 a las 16:21
Estoy intentando raspar el resultado de la búsqueda en este enlace: https: //www.inecnigeria. org / elecciones / polling-units / que requiere que seleccione un valor desplegable y luego aparece otro que tengo que seleccionar antes de buscar. Puedo obtener los valores de la primera selección desple....
26 feb. 2021 a las 13:42
Estoy eliminando los datos de la tabla generados con Selenium y enviándolos a Beautiful Soup. El siguiente script extraerá todos los datos de texto (que quiero). Desafortunadamente, parece hacer una lista de un solo elemento que une todo el texto. ¿Cómo puedo tener un hermoso filtro de sopa en la ....
26 feb. 2021 a las 04:11
Soy nuevo en el raspado web y en el uso de la hermosa sopa 4. Estaba tratando de imprimir solo el texto desde dentro de las etiquetas que están anidadas bajo un div. Puedo hacer que se impriman, pero las etiquetas siguen apareciendo y la hermosa sopa no me deja usar la función .text para extraer ....
25 feb. 2021 a las 18:50
Tengo un problema al intentar raspar la siguiente URL: https://www.hiperlibertad.com.ar/lacteos/leches Usé el siguiente código simple como iniciador: def Disco_scrape (url): page = request.get (url) .......
25 feb. 2021 a las 14:45
Tengo la siguiente salida de fragmento HTML almacenada en la variable llamada content de tipo bs4.element.Tag. <li class="item"> Alpha-tocopherol <em>see</em> <a href="https://medlineplus.gov/vitamine.html">Vitam....
25 feb. 2021 a las 05:37
Cuando ejecuto este código, puedo ver que la lista de encabezados se completó con los resultados que quiero, sin embargo, están rodeados de un html que no quiero conservar. desde selenium importar webdriver desde selenium ........
Estoy trabajando en raspar páginas web desarrolladas en JS. Puedo obtener el contenido HTML de la página, sin embargo, cuando visualizo el contenido de BeautifulSoup, parece que a los datos les falta el texto .......
24 feb. 2021 a las 17:05
Aquí está el enlace https://www.adidas.com/us/continental-80-shoes/G27707.html cuando presiono la solicitud para obtener los datos de este sitio web, no imprime ninguna solicitud de importación de datos tiempo de importación url = "https: / .......
Estoy tratando de raspar los resultados del trabajo de un sitio web (jobs.at) con beautifulsoup y una vez que empiezo a recorrer los resultados, solo obtengo una lista del primer resultado. ¿Podrías ayudarme a conseguir una lista .......
24 feb. 2021 a las 12:33
Enlace que estoy raspando: https: //www.indusind. com / in / en / personal / cards / credit-card.html from urllib.request import urlopen from bs4 import BeautifulSoup import json, requests, re, sys from selenium import webdriver import re, time IndusInd_url = "https://www.indusind.com/in/en/person....
Enlace que estoy raspando: https: //www.indusind. com / in / en / personal / cards / credit-card.html from urllib.request import urlopen from bs4 import BeautifulSoup import json, requests, re, sys from selenium import webdriver import re IndusInd_url = "https://www.indusind.com/in/en/personal/car....
Estoy siguiendo el libro "Practical Web Scraping for Data Science Best Practices and examples with Python" de Seppe vanden Broucke y Bart Baesens. Se supone que el siguiente código debe obtener datos de Wikipedia, una lista de episodios de Game Of Thrones: import requests from bs4 import BeautifulSo....
24 feb. 2021 a las 08:34
He estado raspando el feed RSS de Google News para un proyecto y necesito el atributo de enlace del código HTML. Esto es lo que he intentado hasta ahora: desde bs4 import BeautifulSoup import solicitudes encabezados = {.......
24 feb. 2021 a las 07:43
En la captura de pantalla html adjunta, quiero obtener el resumen de texto en la sección 'lema-resumen'. Suele ser la primera oración de una entrada de wikipedia. Esta es una entrada de wikipedia china. Usé esto .......
24 feb. 2021 a las 03:47
Me gustaría tener los enlaces en este sitio web: https://www.bilansgratuits.fr/secteurs/finance-assurance,k.html Pero no todos los enlaces, solo esos: enlaces Desafortunadamente, mi script aquí me da TODOS los .. .....
23 feb. 2021 a las 19:39
Estoy intentando escribir un pequeño proyecto de raspado solo para aprender más sobre todo y Python en general, pero me encuentro con algunos problemas que parece que no puedo resolver a pesar de mis mejores esfuerzos. .......
23 feb. 2021 a las 19:05
En un archivo de texto, estos elementos tienen la misma estructura y me gustaría analizarlos con una hermosa sopa. Un extracto: data = """<text id="1" sig="prenatfra-camppres-2017-part01-viewEvent-1&docRefId-0&docName-news%C2%B720170425%C2%B7LC%C2%B7assignment_862852&docIndex-3_1" title="Éditorial é....
23 feb. 2021 a las 14:37