学习Python语言（第十二章如果获取网页文本？）

现在越来越多人利用Python从网络上爬取对自己有用的数据，然后进行分析，最终得到自己想要的结论，那么从爬取数据到分析的过程是怎么样的呢？

上图是一个简单的从爬取数据到统计分析的过程。

关于robot.txt

Robots协议是网站国际互联网界通行的道德规范，其目的是保护网站数据和敏感信息、确保用户个人信息和隐私不被侵犯。(摘自网络)

Robots.txt是一个小文本文件，位于网站的根目录中。它告诉抓取工具是否要抓取网站的某些部分。该文件使用简单的语法，以便爬虫可以放置到位。(摘自网络)

因此，在学习如何抓取数据前，应熟知利用爬虫爬取数据的一些规范。

哪些是网页文本？

这是我们平常看到的页面

学习Python语言（第十二章如果获取网页文本？）

平常的页面

对该页面点击鼠标“右键”，然后查看“源代码”，就可以看到我们想要的网页文本，如：

学习Python语言（第十二章如果获取网页文本？）

我们平常所看到的网页时该网页文本在本地加载后生成的，也是我们要抓取的数据。

如何抓取数据？

Python有很多种可以抓取网页文本的工具，今天就先讲利用“BeautifulSoup”和“requests”包抓取数据：

第一步：要先确定网页位置，如：http://movie.douban.com

第二步：向该网页位置发送获取文本请求

第三步：配置网页编码，如：utf-8

第四步：输出网页文本

学习Python语言（第十二章如果获取网页文本？）

获取网页文本示例

然后我们开始对该文本进行分析，获取该文本下的“<a>”标签的数据：

学习Python语言（第十二章如果获取网页文本？）

获取“<a>”标签内容的示例

到这里，我们就可以进行对“<a>”标签内容进行统计分析了。

这只是一个简单的案例，在我们的日常网页浏览中，还会碰到很对使用js生成的网页，还有带“登录”才能查看的网页，我们陆续会讲解如何解决。

学习Python语言（第十二章 如果获取网页文本？）