怎么在网络上挖掘你想要的资源 (如何在互联网上获取免费资源)

★如何禁用“国别重定向”?

如何获取有效有用免费的网络资源,如何在网上挖掘你想要的网络资源

★为啥要使用加密搜索?

★两个加密搜索域名有啥差异?

★加密搜索能规避浏览器的监控吗?

★Google 的网页缓存(快照)有啥用处?

★如何快速打开某页面的 Google 缓存?

★结尾

按照原定计划,本系列的第三篇应该聊聊“搜索关键字的技巧”。但是考虑到经常有人来询问关于 Google 搜索的一些问题,今天先整理一个 FAQ 统一回答一下。以后再有人问,就让他们直接来看此帖 :)

★如何禁用“国别重定向”?

(这个问题是问的人最多的)

Google 通常会根据“发起搜索的 IP 地址”来进行“国别重定向”。

比如:你通过 I2P 科学上网访问 Google 搜索,可能会被重定德国的 Google——因为 I2P 的出口节点在德国。

要想禁止国别重定向,可以点击如下网址,然后 Google 会在你本地保存一个 cookie 设置,下次再访问,就不会被重定向了。

http://www.google.com/ncr

★为啥要使用加密搜索?

Google 大概是在 2011 年开始提供基于 HTTPS 的加密搜索。在那之前,主流的搜索引擎都是明文搜索的。

为啥 Google 要提供 HTTPS 的加密搜索捏?主要目的是:避免你的搜索行为被别人监控。

◇明文搜索的隐患

那么,什么情况下,你的搜索行为会被监控捏?主要有如下几种可能性(注意,是【可能性】,不是必然会发生的):

1. 在公司上网

如果你所在的公司部署了上网审计,或者你公司的网管有*窥偷**癖。那么你在网上进行明文的搜索(包括 Google、Baidu、Bing 等),有可能会被看到。

2. 在网吧上网

如果你去网吧上网,道理同上。

3. 使用公共 wifi 热点

如果你到公共场合,使用公共的 WIFI 上网(比如某些咖啡吧提供的免费 WIFI),也存在类似隐患。道理同上。。

◇加密搜索的好处

先表扬一下:在【主流的】搜索引擎中,Google 最先提供了基于 HTTPS 的加密搜索。

用了加密搜索之后,即使有人监控你的上网流量(术语叫“网络嗅探”),也只能知道你在用搜索引擎;以下几项内容,监控者是【无法】知道滴。

1. 你在搜索引擎上搜了哪些关键字,监控者是看不到滴

2. 搜索引擎返回给你的查询结果,监控者是看不到滴

提醒一下:

如果你在 Google 的搜索结果中点击某个网页,并且那个网页是明文的(网址以 http:// 开头);那么,你点击的这个网页的内容,还是可能被监控者看到。

★两个加密搜索域名

有啥差异?

Google 目前有两个加密搜索的网址,网址分别是:

https://encrypted.google.com/
https://www.google.com/

可能很多人不清楚这两个域名有啥区别。好奇的同学可以看 Google 官方的帮助。

总的来说,https://encrypted.google.com/ 比 https://www.google.com/ 略为安全一些。

★加密搜索能规避浏览器的监控吗?

答案是:不能!

加密搜索只能规避网络流量的监控(网络嗅探),但是无法防止浏览器窥探你的上网行为。

拿老流氓 360 来举例:

前几年 360 浏览器就被曝光过严重的用户隐私问题。它的行为很恶劣,会把用户访问的每一个网址都收集下来,然后发送到 360 自己的服务器上。这种情况下,加密搜索是帮不了你的。因为浏览器可以直接拿到地址栏里面的内容(也就是网址)。如果你使用搜索引擎,那么,根据相应的网址就可以判断出你输入了哪些搜索关键字。

所以,俺顺便再啰嗦一句:

别用那帮国产的浏览器。不论 360 还是腾讯,都不是啥好鸟。360 尤其恶心,整天嚷嚷着要维护用户利益,背地里不知道干了多少龌龊事情。

★Google 的网页缓存(快照)有啥用处?

很多网友都知道,搜索引擎的缓存,可以帮你看到已经被删除的页面。其实捏,搜索引擎的缓存还有如下好处。

◇支持 HTTPS

刚才介绍了加密搜索的好处,但是也提到了一点:如果你点击某个搜索结果的页面,并且该页面是明文的,那么你的上网行为还是有可能被监控。换句话说:如果有人监控你,可以知道你点开了哪个页面。

如何避免这种情况捏?办法之一就是:访问【加密的】搜索引擎缓存(快照)。目前 Google 的缓存是支持 HTTPS 加密的。所以,你可以通过 HTTPS 方式访问某个网页的缓存,就可以部分降低(但不是完全避免)被监控的风险。

为啥不是“完全避免”捏?因为 Google 的缓存,只是保存了页面本身的 HTML 内容。它并不保存页面上附加的网页元素(比如:图片、JS、CSS)。如果某个网页元素是通过 HTTP 明文传输的,那么,当你打开这个页面的缓存时,这些明文传输的内容还是会被监控到。

拿维基百科举个例子:

你可以用加密方式访问维基百科的缓存。但是因为维基百科有图片(右上方的 Logo),而且这个图片是明文传输的。这种情况下,虽然缓存本身是 HTTPS,但 HTTP 明文传输的图片,还是会被监控者看到。但是,网页的 HTML 文本(也就是网页的文字内容)是 HTTPS 加密的,所以监控者比较难判断你在看哪一篇博文。

要想解决此问题,有一个替代方法——仅查看缓存的“纯文字版”(下面会提到)。

◇查看有风险的网页(避免网页挂马)

Google 在缓存网页的时候,会检查页面上是否有恶意代码。这样有一个额外的好处——规避网页上的挂马。另外,Google 的缓存有两种:一个是完全版,另一个是纯文字版。完全版基本上是页面的原貌,而纯文字版会滤掉网页的附加元素(JavaScript 脚本、CSS 样式表)。显然,“纯文字版”比“完全版”更加安全。

举个“纯文字版”的使用场景:

时不时会有某读者给俺来信,说某某网页上的内容很有趣,并附上网址。通常情况下,俺是不会直接去点这个网址的。

俺的做法是:在 Google 缓存里面查看该网页的(纯文字版)。这样的好处在于:万一这个网址是个陷阱,也不容易中招。

★如何快速打开某页面的 Google 缓存?

◇在搜索框输入网址

在 Google 的搜索框中输入:

cache:你要看的网址

举例:

本系列的目录页,网址是:https://www.google.com.hk/

你只需在 Google 搜索框输入如下,即可看到该页面的缓存:

cache https://www.google.com.hk/:.html

上述方式看到的是缓存的“完全版”,在页面上方有一个链接,可以让你切换到“纯文字版”。

◇在地址栏输入网址

如果你想用缓存的方式,查看某个有风险的网页。这时候你自然想直接打开“纯文字版”,那么可以在浏览器地址栏输入如下:

https://webcache.googleusercontent.com/search?strip=1&q=cache:

然后把你要看的网址,追加到上述地址后面,变成这样

https://webcache.googleusercontent.com/search?strip=1&q=cache:https://program-think.blogspot.com/2013/03/internet-resource-discovery-0.html

上述网址中的 strip=1 表示“纯文字版”,滤掉页面的附加元素(JavaScript、CSS、等);如果改为 strip=0 就表示“完全版”,不滤掉页面的附加元素。

提醒一下,有些网站的功能非常依赖于 JavaScript 和 CSS,用纯文字版的缓存,可能会显示不正常。

◇使用浏览器书签

上述那串网址很长,不好记。如果你用的是 Firefox,可以添加一个带变量的书签,就可以做到快速打开 Google 缓存。具体做法如下:

在 Firefox 书签菜单或书签工具栏上点右键,选“新建书签”,会弹出创建书签的对话框。

名称随便写一个,地址用如下两个之一。(这两个网址只有 strip 部分有差异,刚才解释过这两者的不同)

“纯文字版”的缓存

https://webcache.googleusercontent.com/search?strip=1&q=cache:%s

“完全版”的缓存

https://webcache.googleusercontent.com/search?strip=0&q=cache:%s

在书签的“关键字”一栏,写 cache(如果你喜欢,也可以用其它单词),点“确定”按钮,就 OK 了。

使用举例:

如果你想看Google 缓存,只需要在浏览器地址栏输入

cache https://www.google.com.hk/

Firefox 就会自动转向到如下

https://webcache.googleusercontent.com/search?strip=1&q=cache:https://www.google.com.hk/

就可以显示出谷歌主页的缓存。