Парсинг новостных сайтов, таких как CNN и NBC, с использованием Python
Парсинг новостных сайтов, таких как CNN и NBC, с использованием Python Скачать Скрипт на PythonОтправьте ссылку на скачивание по адресу: Новостные сайты содержат много данных. Каждый день на этих сайтах публикуется все больше данных по самым актуальным темам по всему миру. Они являются отличным источником не только новостей, но и других вещей, таких как здоровье, мода, финансы, технологии, гаджеты и т.д. Можно найти новые статьи практически на любые темы, просматривая Новостные сайтыОсновное преимущество очистки новостных сайтов и общих данных заключается в том, парсер amazon что вы можете сделать это практически с любого веб — сайта-пока контент находится в сети, вы можете парсить его, начиная с прогнозов погоды и заканчивая государственными расходами, парсер цен яндекс маркет (webscrapingsite.com) даже если конкретный сайт не имеет API парсер для opencart 3 доступа к необработанным данным. Вам нужны только новостные статьи о “здоровье”? Никаких проблем! Вам нужны сообщения в блоге на определенном языке? Из какой-то конкретной страны? У тебя получилось! Это простое и экономически эффективное решение парсер для opencart 3 получения данных из Интернета, которое сэкономит вам много времени и денег, если будет сделано “устойчиво”, чтобы вы могли сосредоточиться на том, что делать с полученными данными.В этом уроке мы очистим два новых сайта CNN https://edition.cnn.com/ и Новости NBC https://www.nbcnews.com/ . Мы зайдем на эти два сайта и очистим все новостные статьи, связанные с COVID-19.Смотрите полный код ниже:из bs4 импортируйте красивый суп в виде супазапросы на импортСи-Эн-ЭН:from datetime import date today = date.today() d = today.strftime(‘%m-%d-%y’) cnn_url=’https://edition.cnn.com/world/live-news/coronavirus-pandemic–intl/index.html’.format(d) html = requests.get(cnn_url) bsobj = soup(html.content,’lxml’) for link in bsobj.findAll(‘h2’): print(‘Headline : ‘.format(link.text)) Выход:for news in bsobj.findAll(‘article’,’class’:’sc-jqCOkK sc-kfGgVZ hQCVkd’): print(news.text.strip()) Новости Эн-Би-си:nbc_url=’https://www.nbcnews.com/health/coronavirus’ r = requests.get(‘https://www.nbcnews.com/health/coronavirus’) b = soup(r.content,’lxml’) for news in b.findAll(‘h2’): print(news.text) Выход:links = [] for news in b.findAll(‘h2′,’class’:’teaseCard__headline’): links.append(news.a[‘href’]) #for link in links: page = requests.get(link) bsobj = soup(page.content) for news in bsobj.findAll(‘div’,’class’:’article-body__section article-body__last-section’): print(news.text.strip()) Выход:Не только из CNN и NBC, мы также можем собирать данные о новостях с других веб-сайтов. Если вам нужна агрегация новостного контента, то наши услуги по очистке лучше всего соответствуют вашим требованиям.
Here’s more info about парсер excel look into the website.