#1 - 2022-12-15 16:45
magsom (Digital Lumpen Proletariat)
最近一年我开始保存自己玩过的游戏的官方网站,例如即将停运的网络游戏的官网,因为不久它就会消失。令人伤心遗憾的是更多网站会在不知不觉中消失,没有人能预测网站内容消失的速度。小型企业和独立社团的网站寿命通常会更短。大型企业任天堂还保留着 SFC、GBA 时代游戏产品的官网,微软则是会删除旧产品的网页。
互联网档案馆的时光机也不是万能的,无法保存手机版网站,无法保存地理限制的网站,部分页面缺失,也不能方便地下载网站到本地。
将网站保存到自己的电脑上就可以克服这个问题,除此之外还有其它好处:极快的加载速度。
保存网站的方法:
1、使用 Save All Resources 扩展或 wget 递归下载原始 HTML 和子资源文件,直接本地浏览 HTML 文件。这样方便编辑,但新式 JavaScript 功能可能执行异常,JavaScript 和 Flash 内容的子资源可能无法下载。一些 HTML 文件对超链接和子资源的路径可能是绝对路径,需要编辑才能正常浏览,对于 Flash 则需要反编译。
2、使用 Webrecorder ArchiveWeb.page 扩展录制网络流量到 WARC 格式,不方便编辑,一些资源下载不完整的记录就比较麻烦,但 JavaScript 和 Flash 回放兼容性高。此外还可以将 WARC 上传到互联网档案馆上分享开来。
子资源的完整保存是困难的费时间的课题,例如有时需要调整窗口大小或使用移动设备模拟器来获取手机版网站,需要点遍网站上的所有链接和按钮才能获取完整,嵌入的 Youtube 视频,问卷式提交表单的网页,动态更新分页的新闻列表等等棘手的格式。
互联网档案馆的时光机也不是万能的,无法保存手机版网站,无法保存地理限制的网站,部分页面缺失,也不能方便地下载网站到本地。
将网站保存到自己的电脑上就可以克服这个问题,除此之外还有其它好处:极快的加载速度。
保存网站的方法:
1、使用 Save All Resources 扩展或 wget 递归下载原始 HTML 和子资源文件,直接本地浏览 HTML 文件。这样方便编辑,但新式 JavaScript 功能可能执行异常,JavaScript 和 Flash 内容的子资源可能无法下载。一些 HTML 文件对超链接和子资源的路径可能是绝对路径,需要编辑才能正常浏览,对于 Flash 则需要反编译。
2、使用 Webrecorder ArchiveWeb.page 扩展录制网络流量到 WARC 格式,不方便编辑,一些资源下载不完整的记录就比较麻烦,但 JavaScript 和 Flash 回放兼容性高。此外还可以将 WARC 上传到互联网档案馆上分享开来。
子资源的完整保存是困难的费时间的课题,例如有时需要调整窗口大小或使用移动设备模拟器来获取手机版网站,需要点遍网站上的所有链接和按钮才能获取完整,嵌入的 Youtube 视频,问卷式提交表单的网页,动态更新分页的新闻列表等等棘手的格式。
bgm的用户主页似乎定期有来自wayback machine的抓取。另外还有像博客等有相当价值的内容, 希望有心人多用wayback machine等保存下来吧。