学习Python语言(第十二章 如果获取网页文本?)

现在越来越多人利用Python从网络上爬取对自己有用的数据,然后进行分析,最终得到自己想要的结论,那么从爬取数据到分析的过程是怎么样的呢?

学习Python语言(第十二章如果获取网页文本?)

上图是一个简单的从爬取数据到统计分析的过程。

关于robot.txt

Robots协议是网站国际互联网界通行的道德规范,其目的是保护网站数据和敏感信息、确保用户个人信息和 隐私不被侵犯。(摘自网络)

Robots.txt是一个小文本文件,位于网站的根目录中。它告诉抓取工具是否要抓取网站的某些部分。该文件使用简单的语法,以便爬虫可以放置到位。(摘自网络)

因此,在学习如何抓取数据前,应熟知利用爬虫爬取数据的一些规范。

哪些是网页文本?

这是我们平常看到的页面

学习Python语言(第十二章如果获取网页文本?)

平常的页面

对该页面点击鼠标“右键”,然后查看“源代码”,就可以看到我们想要的网页文本,如:

学习Python语言(第十二章如果获取网页文本?)

我们平常所看到的网页时该网页文本在本地加载后生成的,也是我们要抓取的数据。

如何抓取数据?

Python有很多种可以抓取网页文本的工具,今天就先讲利用“BeautifulSoup”和“requests”包抓取数据:

第一步:要先确定网页位置,如:http://movie.douban.com

第二步:向该网页位置发送获取文本请求

第三步:配置网页编码,如:utf-8

第四步:输出网页文本

学习Python语言(第十二章如果获取网页文本?)

获取网页文本示例

然后我们开始对该文本进行分析,获取该文本下的“<a>”标签的数据:

学习Python语言(第十二章如果获取网页文本?)

获取“<a>”标签内容的示例

到这里,我们就可以进行对“<a>”标签内容进行统计分析了。

这只是一个简单的案例,在我们的日常网页浏览中,还会碰到很对使用js生成的网页,还有带“登录”才能查看的网页,我们陆续会讲解如何解决。