回溯器 (回溯机制香肠派对)

什么是 回溯机 Wayback Machine?

互联网档案馆的 Wayback Machine 是互联网上信息的数字档案。总部位于旧金山的非营利组织互联网档案馆于2001年将其公之于众。

用户可以使用 Wayback Machine 访问网页的存档版本。Wayback Machine 拥有超过 8320 亿个存档网页,可追溯到 1996 年。除网页外,互联网档案馆还存储书籍、电影、电视、音乐和其他内容。Internet Archive 占用了超过 40 PB 的数据存储空间,而 Wayback Machine 占据了其中的很大一部分。

为什么 Wayback Machine 很重要?

互联网档案馆是最早将互联网存档的组织之一。因此,Wayback Machine 是互联网早期的独特记录,在大多数人记录它之前。

互联网在不断发展和变化,网页可以随时删除或编辑,而不会留下任何人工制品。Wayback Machine 即使在编辑或删除这些页面后也会保留互联网的历史记录。

Wayback Machine 是如何工作的?

Wayback Machine 会自动抓取并捕获不同时间点的网页快照。然后,这些快照将被存储,附加到时间戳并可供用户访问。

Wayback Machine 使用几种不同的爬虫——有些来自第三方来源,有些来自互联网档案馆。用户还可以提交页面进行手动存档。

网站通常使用文件组合构建,例如图像文件、超文本标记语言 (HTML)、JavaScript 和级联样式表。每个文件都有自己的 URL,Wayback Machine 会捕获这些 URL,以显示用户所看到的整个页面。例如,网页上的图像具有与主页不同的 URL。文件URL可能在从URL到页面本身的不同时间捕获。例如,在抓取网页的主 HTML 几天后,可能会对图像进行抓取和记录。

要从 Wayback Machine 主页进行搜索,用户需要在搜索栏中输入站点的 URL 以及他们想要访问的内容的日期范围。

Wayback Machine 搜索结果页面显示自 1996 年以来网页被抓取次数的图表,以及列出每天抓取次数的日历。用户可以滚动浏览每个爬网,查看每个爬网的日期、时间和原因。

Wayback Machine 具有多种不同的功能来显示网页数据,包括:

  • “集合”页面。这样一来,用户就可以了解网页被抓取的原因。
  • “更改”页。这显示了页面随时间的变化程度。
  • 比较功能。 这使用户可以并排比较两个不同时间的两个不同捕获。
  • 摘要功能。这将显示有关整个域的信息。
  • 站点地图功能。这显示了有关网站链接结构随时间推移的信息。

用户可以单击特定的捕获并查看页面的出处。用户还可以将页面保存到其帐户中的个人 Web 存档中。

除了按 URL 搜索外,用户还可以按关键字搜索。Wayback Machine 上的关键字搜索与 Google 或类似搜索引擎上的关键字搜索不同。Wayback Machine 的关键字搜索会查找有关特定关键字的整个域,而不是单个页面。

“立即保存页面”功能可保存在搜索栏中输入的一个 URL。还有 Wayback Machine Chrome 扩展程序、网络浏览器插件、WordPress 插件和 iOS 应用程序。

Wayback Machine 是如何使用的?

以下是使用 Wayback Machine 的一些基本方法:

  • 查看和比较网页的两次迭代之间的更改。
  • 了解网页被抓取的原因或时间。
  • 查看谁在抓取哪些网页。
  • 查看旧版本的网页。
  • 查看不再存在的网页。
  • 解决网页问题。
  • 手动将页面保存到 Wayback Machine。
  • 链接到旧网页。
  • 进行大规模爬网。

这些基本功能有许多应用用途,包括搜索引擎优化 (SEO)、Web 开发、新闻、开源情报 (OSINT) 收集和法律研究。例如,受 SEO 激励的用户可以找到从未重定向到实时版本的旧版本网站并修复损坏的链接。他们还可以重新访问性能更好的旧版本页面,看看是否有任何值得重新包含在新内容中的元素。

用户还可以查看 Wayback Machine 以了解他们的竞争对手更新内容的频率。法律研究人员可以使用该工具为法律案件收集证据。Web 开发人员可以使用它来对网站进行故障排除或调试,方法是访问网站的过去版本,以查看何时引入特定错误。记者可以使用该服务访问历史文件或进行事实核查。网络安全研究人员可以寻找隐藏在网页的旧版本或已删除信息中的 OSINT。维基百科的档案管理员可以使用Wayback Machine来帮助缓解链接腐烂。

Wayback Machine 应用程序编程接口 (API) 允许用户大规模自动执行数据检索功能。API 可以在 Internet Archive 中的项目中读取和写入元数据。它们还可以在项目之间写入和读取媒体或其他文件。Wayback Machine 具有多个 API,包括以下内容:

Wayback 可用性 JSON。这将测试 URL 是否已存档并在 Wayback Machine 中访问。

纪念品。这为在 Wayback Machine 中查询快照提供了额外的接口。

Wayback CDX 服务器。这样就可以对 Wayback Machine 捕获数据进行复杂的过滤、查询和分析。

互联网档案馆的订阅服务 - Archive-It - 允许组织存档网站并创建自定义内容集合。

Wayback Machine 的历史

互联网档案馆成立于 1996 年,旨在对处于起步阶段的互联网进行存档,并追求提供对所有知识的普遍访问的目标。互联网档案馆是一个非营利组织,由 Brewster Kahle 和 Bruce Gilliat 创立。Wayback Machine 于 1996 年开始索引网页,并于 2001 年正式向公众发布,当时它包含超过 100 亿个存档页面。Kahle 创立了营利性网络爬虫公司 Alexa Internet,该公司至今仍是互联网档案馆最著名的网络爬虫之一。

互联网档案馆现在还拥有其他几个项目,包括美国国家航空航天局图像档案馆和图书信息网站开放图书馆。互联网档案馆还与许多机构合作维护这些图书馆,包括国会图书馆和史密森学会。

Wayback Machine 这个名字参考了动画片《洛基历险记》和《布温克尔和朋友们》。在其中,角色使用WABAC(发音为wayback)机器穿越时空并参与各种历史事件。

Wayback Machine 的局限性

并非所有网页都存档在 Wayback Machine 中。一些网站屏蔽了 Wayback Machine 的爬虫。其他网站可能由于各种原因而无法存档,例如要求匿名的特定网站所有者或需要密码才能访问的页面。有时,网站的漫游器 .txt 文件会阻止网站被抓取。机器人 .txt 文件会引导网络爬虫,并指示他们可以访问和不能访问哪些网站。没有来自其他网站的入站链接的页面也更难存档。在某些情况下,JavaScript 也很难存档。HTML 是 Wayback Machine 最容易存档的内容类型。

此外,快照的频率可能会有所不同,因此不会捕获对网站的每个更改。有时,网页在被收集后可能需要几个月的时间才能出现在 Wayback Machine 中。

一般来说,Wayback Machine 不会收集或存档来自私人来源的个人电子邮件或聊天记录。它也不能很好地收集动态信息。例如,从 2010 年开始,用户无法访问 Google 搜索引擎并使用它来搜索其他网站。

原文地址

[1] https://www.techtarget.com/whatis/definition/Wayback-Machine