Awesome-Public-Real-Time-Datasets: 实时数据流的宝库 ylc3000 2025-11-14 0 浏览 0 点赞 resource ### Awesome-Public-Real-Time-Datasets: 实时数据流的宝库 `awesome-public-real-time-datasets` 是一个由流处理框架 **Bytewax** 团队维护和策划的 GitHub 开源项目。它是一个精心收集的“Awesome List”,旨在为开发者、数据科学家和爱好者提供一个集中的、高质量的公开实时数据集资源目录。 **项目地址**: [github.com/bytewax/awesome-public-real-time-datasets](https://github.com/bytewax/awesome-public-real-time-datasets) --- #### **核心价值与定位** 在构建和测试实时数据处理应用、流处理管道或任何需要动态数据的项目时,寻找稳定、可靠且公开的实时数据源往往是第一个挑战。 这个项目正是为了解决这一痛点而创建的。 与许多专注于静态、历史数据集的列表不同,`awesome-public-real-time-datasets` **完全聚焦于那些通过 WebSocket、HTTP 流、MQTT 或其他协议持续不断产生新数据的实时数据源**。 #### **内容分类与示例** 该列表将众多数据源按照不同领域进行了清晰的分类,并且区分了免费和付费服务,方便用户根据需求进行选择。 其涵盖的主要领域包括: * **金融/加密货币 (Finance/Crypto)**: 这是列表内容最丰富的部分之一,包含了来自各大交易所的实时市场数据。 * **Coinbase**: 提供包括L2订单簿在内的市场数据的WebSocket接口。 * **Binance**: 提供实时的加密货币交易数据和订单更新的WebSocket API。 * **Yahoo Finance**: 一个(非官方文档记录的)WebSocket流,用于更新网站上的实时金融数据。 * **SEC EDGAR**: 美国证券交易委员会提供的监管文件(如10-K, 8-K)的实时流。 * **交通运输 (Transportation)**: 涵盖全球范围内的公共交通、航空和航海数据。 * **Open Rail Data (英国)**: 通过STOMP协议提供英国铁路网络的时刻表和实时服务更新。 * **GBFS (全球)**: 公共自行车共享数据的标准格式,列表中以纽约为例。 * **OpenSky Flight**: 可通过轮询HTTP端点获取全球航班的实时位置数据。 * **挪威海岸管理局 (AIS)**: 提供船舶自动识别系统数据,显示船只的身份、航速和航向。 * **信息 (Information)**: 包含新闻、社交媒体和百科等信息流。 * **Wikimedia**: 提供维基媒体基金会旗下页面的近期更改事件流。 * **X (Twitter)**: 为企业和研究者提供的数据流接口。 * **NewsAPI**: 追踪全球50多个国家、上百家主流媒体的头条新闻。 * **地理空间/天气 (Geospatial/Weather)**: 提供来自政府和商业机构的环境与气象数据。 * **Seismic Portal**: 地震事件的实时WebSocket接口。 * **Open Weather API**: 提供当前天气数据的API。 * **NOAA (美国国家海洋和大气管理局)**: 提供实时的浮标和天气数据。 * **英国洪水数据**: 英国政府提供的实时洪水API。 --- #### **目标用户与应用场景** 这个仓库对于以下人群极具价值: * **数据工程师和开发者**: 在学习或使用流处理框架(如 Bytewax, Apache Flink, Spark Streaming 等)时,可以利用这些数据源进行原型设计、功能测试和性能调优。 * **数据科学家**: 可以利用实时数据来开发和验证实时异常检测、预测模型等算法。 * **Web开发者**: 可以用这些数据源来构建具有实时功能的仪表盘、地图可视化或其他动态Web应用。 * **学生和爱好者**: 为个人项目和学习实时数据处理概念提供了丰富的实践素材。 总而言之,`awesome-public-real-time-datasets` 是一个非常实用且不断更新的资源库。它通过系统性地整理和分类,极大地降低了寻找和接入公开实时数据流的难度,是任何需要与动态数据打交道的开发者的必备收藏。 网闻录 Awesome-Public-Real-Time-Datasets: 实时数据流的宝库