告别IDE!2026最强“智能体工程”工作流
22个实战绝招:抛弃手敲代码,全程语音指挥!核心是“遇事必让AI先写计划”,逼其思考再执行,人类只做决策。靠终端多开与CLI,让AI自动写代码、做调研甚至生活跑腿。快喂给AI直接抄作业!
22个实战绝招:抛弃手敲代码,全程语音指挥!核心是“遇事必让AI先写计划”,逼其思考再执行,人类只做决策。靠终端多开与CLI,让AI自动写代码、做调研甚至生活跑腿。快喂给AI直接抄作业!
当前爆火的“世界模型”实分三类:重视觉的渲染器、遵物理的模拟器与定行动的规划器。其中模拟器是核心枢纽。未来三者将融合为统一基础模型。语言让AI“谈论”世界,而世界模型将让AI真正理解并改造现实物理世界,彻底引爆空间智能!
这篇 PyTorch DevLog 文章讨论了 PyTorch 团队在 2026 年 5 月面对 AI 编码代理快速进入开源协作流程时形成的一套实践准则:AI 生成代码可以提升效率,但 PyTorch 作为生产级基础设施,仍要求代码正确、可理解、可维护;因此,人类作者必须对提交内容负责,AI 可以辅助生成代码、拆分变更、回答审查问题或修复小问题,但不能替代人类对代码的理解与所有权。
docs.pytorch.org/devlogs/ai-agents/2026-05-30-ai-coding-playbook/本书由 Carlos Fernandez-Granda 撰写,是为纽约大学数据科学中心的同名课程开发的学习笔记 。其目标是从第一性原理出发,概述概率论和统计学的基础概念 。本书系统地介绍了数据科学所需的概率论与统计学核心知识,从基本概念到多维变量,再到随机过程和两大统计推断流派(频率派和贝叶斯),最后介绍了一些具体的统计方法如假设检验和线性回归。
cims.nyu.edu/~cfgranda/pages/stuff/probability_stats_for_DS.pdf两本书都围绕“从内部理解系统”这个主题展开。 Linux Inside 是一本深入讲解 Linux 内核内部机制的书,主题覆盖启动流程、内存管理、中断、系统调用、调度、同步等内核核心概念。它更适合已经有一定 C、Linux 和计算机系统基础,想通过源码和底层机制理解 Linux “为什么这样运行”的读者。目前仍在进行中,进度约 10%。 Assembly 是一组面向 Linux 的 x86-6
0xax.dev/“在这本书中,我们将循序渐进地构建两个功能完备的语言解释器。考虑到这可能是您首次涉足语言实现领域,我会详细讲解构建一个完整、实用且高效的语言实现所需的每个概念和每行代码。 为了在一本书中容纳两个完整实现而不至于让它变得 像砖头般厚重,本书对理论的探讨比其他书籍更为精简。在构建系统的每个 组件时,我会介绍其背后的历史渊源和核心概念,并帮助 您掌握专业术语,以便未来参加编程语言 鸡尾酒会上满是编程语
craftinginterpreters.com/contents.html手机总连着弱信号 AP 不放?本文分享了纯本地 OpenWRT 优化方案:在保持 2.4G/5G 独立下,通过配置 usteer 与 static-neighbor-reports 补齐 802.11k 邻居报告,成功消灭“粘性客户端”,实现全屋平滑无缝漫游!
Kapa 构建能够根据技术文档回答问题的 AI 助手。我们处理的知识库中包含数百万张图像:截图、架构图、电路原理图、带注释的 UI 操作指南等。我们花了数月时间研究如何让这些图像在我们的 RAG 流水线中发挥作用。 简而言之:我们不会在查询时将图像发送给模型。相反,我们在建立索引时使用廉价的视觉模型对每张图像进行一次描述,将这些描述以文本形式存储,并在检索时与普通文本块一起返回。 建立索引是一
www.kapa.ai/blog/how-we-index-images-for-ragAI和教育结合,一定会发生革命性变化
dayofai.org使用 ChatGPT Images 2.0 生成完整 16:9 PPT 页面图,再封装为 PPTX、PDF、网页 PPT 三件套。 默认工作方式是: 先为每一页设计标题、文案、构图和视觉叙事。 使用 ChatGPT Images 2.0 直接生成完整的 16:9 PPT 页面图。 将每一页完整页面图封装进 PPTX。 同步交付 PDF 和网页 PPT。 也就是说,用户拿到的 PPTX 默认是“
github.com/ansuelele/KK-Chinese-Style-PPT-Song-Aesthetics/Learn World Models 是一门以项目为驱动的世界模型课程,从 VAE 编码器与潜在动力学,到 Dreamer、TD-MPC、STORM,再到语言与物理世界的前沿争论。 你将学到什么 为什么需要世界模型:从 Craik(1943)到 JEPA 的历史脉络。 观测编码:VAE、CNN 编码器、ELBO,以及通往 Dreamer 的桥梁。 潜在动力学:GRU、MDN-RNN 与 RSSM
datawhalechina.github.io/learn-world-model/zh/市面的AI剪辑都忽略了核心痛点:素材缺乏标签。作者榨干5年前M1 Max的性能,本地运行Gemma 4大模型,自动分析画面与语音,为一整年的原始素材生成详细元数据。零成本实现自然语言查视频,彻底打通自动化剪辑的底层
Start-MLLM 是一个面向中文学习者的多模态大模型教程项目 这份教程不想只停留在“知道一些名词”,而是希望带大家走完一条更完整的学习链路: 先理解什么是多模态大模型,以及它与传统 CV、NLP、LLM 的关系。 再理解视觉编码器、跨模态对齐、投影层和生成式架构是怎么工作的。 接着学习数据、训练、评测、部署与应用设计。 最后亲手跑通一个视觉语言模型,并做一个简单的图像问答 Demo。 如果
github.com/datawhalechina/start-mllmagents-best-practices 是一套跨平台的 Agent 技能,专注于帮助开发者设计、生成 MVP 蓝图、审计和重构各类 Agent 运行时框架。 它不仅提供统一的模型-工具-观测循环,还支持工具权限分级、审批门控、上下文压缩、提示缓存以及工作流编排,让 Agent 在真实业务系统中安全可靠地运行。 主要功能: 提供 MVP Agent 蓝图模板,快速搭建生产级运行框架; -
github.com/DenisSergeevitch/agents-best-practicesGemma Skills 是一套专为 Gemma 模型与智能体交互打造的技能库,提供了模型开发与知识问答的完整能力支持。 仓库内已包含 gemma-dev 技能,可用于快速构建基于 Gemma 的应用或进行通用知识查询。安装方式灵活,既可通过 Vercel Skills CLI 交互式浏览和全局安装,也可使用 Context7 Skills CLI 完成指定技能部署,方便开发者按需扩展。 Gi
github.com/google-gemma/gemma-skillssag 是一款现代化的命令行文本转语音工具,灵感来自 macOS 的 say 命令,却接入了 ElevenLabs 的高质量语音引擎。默认直接将文本输出到扬声器,也能保存为音频文件或列出可用音色。 安装只需一条命令:brew install steipete/tap/sag,或 go install github.com/steipete/sag/cmd/saglatest。支持 macOS、L
github.com/steipete/sagImage Extender 是一款基于 AI 的开源图像扩展工具,能无缝向任意方向扩展图片,并支持生成完整的 2D 游戏美术素材。应用通过 Gemini 模型与 OpenRouter 提供服务,内置 Poisson 融合算法消除接缝,并提供三选一的最佳结果挑选机制。 主要功能包括: 支持任意方向的图像扩展,结合最佳接缝质量的三选一机制; 提供 Parallax、Tiles、Sprit
github.com/boona13/image-extenderOpenDataLoader PDF 是一款专为 AI 准备数据而生的 PDF 解析工具,可自动完成 PDF 无障碍改造,项目完全开源。 它不仅能将任意 PDF 精准转换为 Markdown、JSON(含边界框)和 HTML,还在 200 份真实文档的基准测试中以 0.907 的综合得分排名第一;支持复杂表格、扫描件 OCR(80+ 语种)、LaTeX 公式及图表描述,并提供本地确定性模式与 A
github.com/opendataloader-project/opendataloader-pdf专为采用板载内存且无法升级的笔记本电脑打造。如果你有一张配备 8GB 显存的 RTX 显卡,而系统已经开始将数据换出到 SSD,那么这个工具可以让这些显存发挥作用。
github.com/c0dejedi/nbd-vrammathVideoMaker 是一套专为数学教学打造的 Cursor Agent Skill,能同时生成高质量讲解视频和交互式网页。它把 Manim 动画渲染与自包含 HTML 结合,让数学概念的推导过程既能“看明白”,又能“玩明白”。 通过结构化检查与文字化验证,即使模型视觉能力有限,也能稳定输出准确、生动的数学内容。视频强制展示推导过程,网页提供参数拖拽交互,二者共享设计语言,互为补充。内置
github.com/GordenSun/mathVideoMaker