一个网页就是一篇代码、各种超链接、图片和文字的组合。而载入网页的过程,就是运行代码和超链接,显示图片和文字的过程。根据代码的先后顺序,不同的元素和组件依次显示出来,并耗费一定的时间。只不过在网络速度很好的情况下,这种毫秒级别度量的加载过程我们是无法分辨先后顺序的。但是在开发者工具的监控记录之下,network模块中详细的记录了打开一个网页的每一个加载步骤、加载文件的大小和所耗费的时间,并且根据反馈结果我们可以根据状态码确定网页状态。这个状态码,以前经常在打开网页的时候出现,不知道什么意思,没想到今天在学习的过程中,竟然以一种如此流畅的方式让我茅塞顿开:

代码200:请求执行成功,同时返回数据;
代码404:请求失败,网页不存在;
代码503:请求失败,连接服务器超时;
代码204:请求执行成功,但不返回数据;
代码304:请求成功,客户端有缓存。
以往,见到404的机会会很多,503偶尔会看到,200、204、304就非常不常见,亦或许是经常出现,但是我从未打开过开发者模式,也不知道在状态栏中可以看到这些状态的反馈。当然在这5个代码中,“客户端有缓存”这几个字,依靠我目前掌握的知识,我还是无法理解。

在network菜单里面加载网页,网络比较慢的情况下,我看到了整个网页的加载过程。当然可能由于我所处的网络环境问题,我加载*今条头日**的主页竟然需要花费13.6秒的时间,而同样的网页,在教材中讲解的时候几乎是瞬间添加完毕。
在preview预览 和response 响应结果两个板块中,整个网络页面被分解成了不同的元素。建立网页是个正向的过程,但是通过这两个板块,实现了逆向的分解。一个完整的网络被分解为代码、图片、文档,整个网站在我的面前和之前完全不同了:之前是一个有机的整体,觉得信息是我更加关注的内容;现在除了信息之外,我还可以关注他们是怎么样被组合在一起的。这就是知其然,知其所以然吧。

在这里,我学到了第一个爬虫挖掘数据的方法,追踪XHR资源类型的资源响应。XHR资源文件HTTP请求返回的为JSON数据对象,这个可能成为爬虫的目标,在Headers请求头窗口中找到文件所在的URL后,数据可以直接爬取到本地。
当我针对*今条头日**中的XHR资源文件的返回数据进行爬虫的时候,*今条头日**很强硬的反馈给我了一个404 page not found,看来*今条头日**已经将这个爬虫路线给封堵或者就是我的爬虫方法不对。
不过还是很开心,终于开始进入了python挖掘数据的第一步。
#加油,girl.
#一点一滴的努力,未来都会有回报。
#岁月静好,不去羡慕旁人,只做好自己,花朵总会绽放。
#以上学习感悟来自于《网络爬虫进化论:从Excel爬虫到Python爬虫》(中国水利水电出版社2021年出版)第二章。