ArchiveBox: 你的个人互联网时光机 ylc3000 2025-11-14 0 浏览 0 点赞 resource ### ArchiveBox: 你的个人互联网时光机 `ArchiveBox` 是一个强大、开源的自托管网络归档解决方案,旨在帮助用户永久保存他们关心的网页内容,以防止“链接失效”(link rot)和信息丢失。 把它想象成一个由你完全掌控的、私人的 Wayback Machine。 你可以喂给它各种来源的URL,它会以多种持久的格式将网页离线保存下来。 **项目地址**: [github.com/ArchiveBox/ArchiveBox](https://github.com/ArchiveBox/ArchiveBox) --- #### **核心理念:拥有你的数据** 互联网是短暂的,网页、文章、图片甚至视频都可能随时消失。 `ArchiveBox` 的核心理念是让个人和组织能够完全控制他们自己的数据,通过自托管的方式,将重要的网络内容安全地保存在本地或私有云上,确保其长期可用性和隐私性。 --- #### **主要功能与特色** * **全面的输入支持**: `ArchiveBox` 可以从多种来源导入需要归档的链接,包括: * **浏览器**: 可导入书签和完整的浏览历史记录。 * **链接保存服务**: 支持从 Pocket、Pinboard、Instapaper 等服务导入。 * **RSS 订阅源**: 可定期从RSS或Atom订阅源中抓取新链接。 * **文件导入**: 支持从文本文件、HTML、Markdown等格式批量导入URL。 * **手动添加**: 可以通过命令行、Web UI或浏览器扩展程序随时添加单个URL。 * **多种存档格式**: 为了实现冗余和长期可用性,`ArchiveBox` 会将每个URL保存为多种标准格式,包括: * **Wget 克隆**: 网站的完整HTML、CSS和JS文件副本。 * **SingleFile**: 将整个页面保存为一个独立的、自包含的HTML文件。 * **PDF**: 使用无头浏览器生成的页面打印版。 * **截图 (PNG)**: 页面的完整视觉快照。 * **WARC (Web ARChive)**: 标准的、高保真的网页存档格式,包含所有请求和响应。 * **可读性视图**: 提取文章的正文内容,去除广告和无关元素。 * **媒体提取**: 自动使用 `yt-dlp` (youtube-dl 的一个分支) 下载页面中的音频和视频。 * **Git 仓库**: 如果链接指向一个Git仓库,会自动将其克隆下来。 * **灵活的访问方式**: 你可以通过多种方式与你的存档互动: * **Web UI**: 提供一个友好的网页界面,用于浏览、搜索和管理存档内容。 * **命令行 (CLI)**: 功能强大的命令行工具,适合自动化和脚本集成。 * **文件系统**: 所有存档都以普通文件的形式存储在清晰的目录结构中,可以直接访问和备份。 * **Python API, REST API (Alpha)**: 为高级用户和开发者提供编程接口。 * **易于部署**: 官方推荐使用 Docker 或 Docker Compose 进行安装,这极大地简化了环境配置和依赖管理。 同时,也支持通过 `pip`、`apt` 和 `brew` 等包管理器进行安装。 --- #### **工作流程** 1. **初始化**: 在一个空目录下运行 `archivebox init` 来创建一个新的归档集合。 2. **添加链接**: 使用 `archivebox add 'https://example.com'` 或通过Web UI等方式添加URL。 3. **自动处理**: `ArchiveBox` 会在后台启动任务,使用各种工具(如 Chromium、wget、yt-dlp)来抓取内容并保存为多种格式。 4. **浏览和管理**: 启动 `archivebox server`,即可通过浏览器访问你的个人存档,随时查看已保存的快照。 总而言之,`ArchiveBox` 是数字信息保存领域一款瑞士军刀般的工具。它为记者、研究人员、开发者以及任何希望建立个人数字图书馆的人提供了一个可靠、灵活且完全由自己控制的解决方案,确保有价值的网络信息能够抵御时间的侵蚀。 网闻录 ArchiveBox: 你的个人互联网时光机