哎呀，说起这Python 怎么抓取正文，真是一把辛酸泪，也有一路惊喜。我这人啊，干这行有年头了，什么奇奇怪怪的网页没见过？那些花里胡哨的页面，乍一看漂亮，可等你想从中抽取出“干净”的正文，那简直是跟一堆垃圾里淘金子。今天，咱就好好唠唠这事儿，从我的经验出发，看看这Python到底是怎么施展魔法，把那些乱七八糟的东西都扒拉掉，只剩下咱们想要的干货。

你想啊，一个网页，除了文章内容，还有导航栏、广告、侧边栏、推荐链接、页脚信息，甚至那些跳来跳去的弹窗……这都叫“噪音”。我们搞抓取的，最怕的就是这些噪音。你费了老大劲儿把整个页面拖下来，结果呢？一堆无关紧要的代码和文字，把真正有价值的正文埋得严严实实。我刚入行那会儿，没少为此挠头，头发都快薅没了。

最开始，大伙儿都是从最基础的工具用起，比如那对黄金搭档：requests和BeautifulSoup。requests用来把网页内容“请”到本地，它就像个邮递员，只管把包裹送到。而BeautifulSoup呢，那是个万能的“解析器”，你把网页的HTML代码扔给它，它就能帮你整理得井井有条，变成一颗DOM树。想找个div、p、a标签，那简直是小菜一碟。

可问题来了，你用BeautifulSoup能方便地找到各种标签，但哪个标签里装的才是正文？这可就得靠经验了。你得打开浏览器调试工具，一点点地去“检查元素”，看看目标正文被哪个div或者article包裹着，它的id或者class又叫什么。运气好的时候，作者或网站开发者会给正文部分一个明确的id，比如id="article-content"、class="main-text"，那简直是天降甘霖，你直接用soup.find('div', id='article-content')就能抓取到。但更多时候呢？它可能叫class="content"，也可能叫class="post"，甚至干脆就没明确的标识，或者被套在好几层嵌套的div里，div class="a" > div class="b" > p……你得一层层剥洋葱似的找，真是能把人逼疯！这种手动分析DOM结构的活儿，如果碰到网站结构变动，或者你要抓取的网站特别多，那简直是灾难，效率低得可怕。

我以前有个项目，要抓取几百个新闻网站的文章，每个网站结构都不一样，每天都有新增的网站。你说我一个人去手写CSS选择器或XPath表达式？那不是自找苦吃吗！所以，我们就开始琢磨，有没有更“智能”的方法，能让电脑自己去判断，哪个才是真正的正文区域？

这就是今天要讲的重点了。其实，现在有很多成熟的策略和Python库，能帮你高效地解决这个问题。

第一个要说到的，也是我个人最钟爱的，是基于启发式规则（Heuristics）的方法。什么叫启发式？简单说，就是根据一些我们观察到的“普遍规律”来推断。比如，正文区域通常文字量最大，链接数量相对较少；它往往会出现在页面比较“中心”的位置；它的父节点或者祖先节点可能带有“article”、“main”、“content”等语义化的id或class。

Readability-lxml就是这方面的佼佼者。它几乎是很多“阅读模式”功能（比如浏览器自带的阅读视图）的幕后英雄。这库啊，真是神奇，你把一个乱七八糟的HTML页面丢给它，它能“聪明”地把广告、导航、页脚这些干扰元素剔除掉，只给你留下最干净的正文。它背后的逻辑就是一套复杂的启发式算法：它会遍历DOM树，给每个节点打分。比如，文字多的节点得分高，链接多的节点得分低；嵌套层级过深或过浅的节点可能得分不高；某些特定的id/class（如comments、footer、ad）会直接被减分。最终，得分最高的那个节点，很可能就是我们苦苦寻找的正文所在。

用法也特别简单：
“`python
from readability import Document
import requests

url = “一个你想要抓取正文的网页链接”
response = requests.get(url)
doc = Document(response.text)
title = doc.title() # 标题
content_html = doc.summary() # 抓取到的正文HTML
content_text = doc.text_content() # 抓取到的正文纯文本
`` 你看，寥寥几行代码，它就像个老道的侦探，总能从一堆乱麻里揪出目标。我在处理新闻类、博客类文章的时候，**Readability-lxml`**的出错率非常低，大概九成以上的文章都能提取得干干净净。这可比我当年手动写选择器效率高了不知道多少倍！

当然了，它也不是万能的。有些网站结构特别奇葩，或者内容被大量JavaScript动态渲染出来，Readability-lxml可能就束手无策了。这时候，你可能需要考虑另一个强大的库：newspaper3k。

newspaper3k不仅仅是抓取正文那么简单，它是一个全功能的新闻文章抓取、解析和内容提取库。它能帮你提取文章标题、作者、发布日期、甚至图片和视频链接！它在内部也使用了类似Readability的算法，但又额外增加了对新闻文章特性的考量，比如对meta标签的解析、对图片和视频的判断等。它在处理各种新闻网站时表现尤其出色。

“`python
from newspaper import Article

url = “一个新闻文章链接”
article = Article(url)
article.download()
article.parse()

print(“Title:”, article.title)
print(“Authors:”, article.authors)
print(“Publish Date:”, article.publish_date)
print(“Text:”, article.text) # 这就是正文了
print(“Top Image:”, article.top_image)
`` 这玩意儿，就像个瑞士军刀，功能多到你惊叹。对于专注于新闻**抓取**的朋友来说，**newspaper3k`**绝对是首选，它帮你省去了大量处理细节的时间。

还有个不得不提的，Trafilatura，这几年也越来越火。它在抓取正文方面表现也非常强悍，尤其擅长处理多语言和一些比较复杂的文档结构，甚至能从一些PDF或XML文件中尝试提取内容。它的策略和Readability-lxml类似，也是基于启发式，但它有更细致的参数调控，能让你根据实际情况进行优化。我用它来处理过一些学术论文网站，效果出奇地好。

但说到头，这些基于规则的库，再怎么智能，也逃不过一个“死穴”：动态内容。很多网站，为了反爬虫或者为了更好的用户体验，内容并不是直接写在HTML里的，而是通过JavaScript脚本在浏览器加载完毕后才“渲染”出来的。requests这种只管下载HTML原始代码的工具，对此是无能为力的。它就像个不带眼睛的听众，只听到了最初的广播，却没看到后来才出现的表演。

这时候，你就得请出“大杀器”了：无头浏览器。比如Selenium或者现在更推荐的Playwright。它们能模拟真实的浏览器行为，执行JavaScript，加载CSS，甚至点击按钮，填写表单。你用Selenium控制浏览器打开目标网页，等页面完全加载并渲染完毕，再把此时的页面HTML代码取出来，交给BeautifulSoup或者前面提到的那些正文提取库进行处理。

“`python
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from readability import Document # 也可以是BeautifulSoup等

设置Chrome选项，这里是无头模式，即不显示浏览器窗口

chrome_options = Options()
chrome_options.add_argument(“–headless”)
chrome_options.add_argument(“–disable-gpu”) # 某些系统可能需要

启动Chrome浏览器 (需要事先下载对应的WebDriver，比如ChromeDriver)

service = Service(‘/path/to/chromedriver’) # 替换为你的chromedriver路径
driver = webdriver.Chrome(service=service, options=chrome_options)

url = “一个动态加载内容的网页链接”
driver.get(url)

等待一定时间，确保所有JS内容加载完毕 (也可以用显式等待条件)

driver.implicitly_wait(10) # 等待最多10秒

获取渲染后的页面HTML

html_content = driver.page_source

使用Readability-lxml或其他库处理HTML

doc = Document(html_content)
print(“Title:”, doc.title())
print(“Content:”, doc.text_content())

driver.quit() # 关闭浏览器
`` 看到没？Selenium/Playwright的加入，让**Python**的**抓取**能力达到了一个新高度。但是，这也带来了新的问题：资源消耗大，速度慢，而且容易被网站检测到是自动化工具。每个**抓取**请求都相当于启动了一个完整的浏览器，这开销可不小。所以，除非万不得已，否则我通常还是会优先选择requests配合**Readability-lxml`**这类轻量级的方案。

除了这些，还有一些更高级、更“玄乎”的玩法，比如结合机器学习（ML）和自然语言处理（NLP）。你可以训练一个模型，让它通过学习大量带有标注的网页数据（哪些是正文，哪些是噪音），来自动判断新页面的正文区域。这种方法理论上最准确，泛化能力也最强，但投入也最大：你需要大量的人工标注数据，构建复杂的模型，而且训练和部署都需要不小的算力。除非你真要搞个通用型的内容提取器，或者面对的页面结构变化无常且没有规律可循，不然还是先从简单高效的来。

最后，我想说几句掏心窝子的话。Python 抓取正文这活儿，没有一劳永逸的解决方案。每个网站都是一个独立的个体，有它自己的脾气秉性。你要做好心理准备，这活儿啊，得具体问题具体分析。

我的经验是：
1. 先尝试最简单的： requests + Readability-lxml。它能解决你绝大部分问题，而且速度飞快。
2. 遇到动态内容再升级： 如果Readability-lxml提取出来的内容不完整，那就考虑Selenium或Playwright。
3. 多看、多试、多调试： 遇到难题，打开浏览器的开发者工具，一点点地观察页面结构，看看正文到底藏在哪里。
4. 注意礼貌，遵守规则： 记得检查robots.txt文件，别给人家服务器造成过大压力，这是最基本的爬虫道德。

说到底，Python在抓取正文这方面，给咱们提供了太多趁手的工具。从简单粗暴的解析，到智能化的内容识别，再到模拟浏览器行为，几乎没有它搞不定的。但技术归技术，核心还是在于我们这些抓取者对问题的理解和解决问题的耐心。搞定这事儿，成就感那是满满当当的，就像从一堆乱麻里抽出了一根金线，你说是不是这个理儿？

声明：本站所有资料均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。若您的权利被侵害，请联系214278591@qq.com。

Python网页正文抓取深度解析：揭秘其核心技术与高效策略

设置Chrome选项，这里是无头模式，即不显示浏览器窗口

启动Chrome浏览器 (需要事先下载对应的WebDriver，比如ChromeDriver)

等待一定时间，确保所有JS内容加载完毕 (也可以用显式等待条件)

获取渲染后的页面HTML

使用Readability-lxml或其他库处理HTML

文章展示

Python怎么写飞机？从零开始，用代码实现你的空中梦想！

Python Selenium 安装指南：轻松配置你的自动化测试环境，掌握 Python Selenium 安装

Python怎么发送HTTP请求？一看就会的实用指南！

Python编程：深度解析如何用代码生动表示各种概念与数据类型

Python列表取值精髓：list怎么取值Python的奥秘全解析

python怎么导入ipynb

Python网页正文抓取深度解析：揭秘其核心技术与高效策略

设置Chrome选项，这里是无头模式，即不显示浏览器窗口

启动Chrome浏览器 (需要事先下载对应的WebDriver，比如ChromeDriver)

等待一定时间，确保所有JS内容加载完毕 (也可以用显式等待条件)

获取渲染后的页面HTML

使用Readability-lxml或其他库处理HTML

相关文章

文章展示