大模型强化学习:从套路背诵到工程落地的硬核演进
AI面试正在经历一场变革。过去考八股文和RAG,如今在Reasoning时代,强化学习(RL)算法成了衡量真假AI专家的分水岭。 这份2026年RL面试题库揭示了技术演进的底层逻辑:从PPO到GRPO,本质是去掉昂贵的Critic(估值网络),用群体相对得分来算优势(Advantage),从而砍掉一半显存。而DeepSeek V4提出的OPD(在线策略蒸馏),则是让学生模型自己探索,老师只在学生
k-a.in/rl-algo.htmlAI面试正在经历一场变革。过去考八股文和RAG,如今在Reasoning时代,强化学习(RL)算法成了衡量真假AI专家的分水岭。 这份2026年RL面试题库揭示了技术演进的底层逻辑:从PPO到GRPO,本质是去掉昂贵的Critic(估值网络),用群体相对得分来算优势(Advantage),从而砍掉一半显存。而DeepSeek V4提出的OPD(在线策略蒸馏),则是让学生模型自己探索,老师只在学生
k-a.in/rl-algo.html好奇当你在电脑上运行一个程序时,到底发生了什么吗?阅读这篇文章,你将了解多进程是如何工作的、系统调用到底是什么、计算机如何通过硬件中断来管理内存,以及 Linux 是如何加载可执行文件的。 “ 在电脑方面,我已经做过很多事情,但我的知识里一直有一个缺口:当你在电脑上运行一个程序时,到底发生了什么? 我一直在思考这个问题。我其实已经具备了大部分所需的底层知识,但始终很难把所有东西串起来。程序真的会
cpu.land/no-mistakes 是一套本地 Git 代理工具,它把代码提交前的质量把关全部自动化,提供了从开发到干净 PR 的完整解决方案。 它在你的真实远程仓库前架设一层代理,当你推送代码到 no-mistakes 时,会自动创建一次性 worktree、运行 AI 驱动的验证流程,只有全部检查通过后才同步到上游并自动开启干净的 PR。 主要功能: 本地 Git 代理,非阻塞地在隔离 work
github.com/kunchenguid/no-mistakesLathe 是一款由 LLM 驱动的动手式技术教程生成工具,它的目标不是替你写代码,而是引导你亲手完成从零到一的学习过程。 Lathe 可以根据任意提示即时生成单篇或系列技术教程,配套的本地界面则让你在阅读的同时手动敲出每一行代码,真正把学习的过程留给自己。教程生成后,你可以通过技能继续提问、验证或扩展内容;同时还能对已有教程进行搜索、筛选和管理。每个教程都会记录使用的模型、提示词和参考来源,方
github.com/devenjarvis/lathe“在这篇博客文章中,我会从系统程序员的视角,分享我对 LLM 推理的理解。 我选择了 Qwen3.6-35B-A3B-UD-Q4KM.gguf 这个模型,因为它既能在大多数机器上运行,又足够复杂,可以算作一个“现代 LLM”¹。这里我们只支持这一个模型。到最后,我们将能够实现 prefill 约 100 tokens/s、decode 约 15 tokens/s;对于一台纯 CPU 机器来说
blog.xiangpeng.systems/posts/how-to-llm-inference/Gorden Super PPT Skills 把 GPT 的生图与视觉解析能力发挥到极致,先用 GPT 生成一张张精美图片格式的 PPT,再通过视觉拆解把背景、框架、图标、文本四层元素还原成完全可编辑的 PPTX 文件。整个流程已拆成三个独立技能:GordenImagePPTGen 负责出图、GordenImage2PPTX 负责转可编辑、GordenSuperPPTSkill 则把前两者串联,
github.com/GordenSun/GordenSuperPPTSkills10个能重塑科研工作流的宝藏网站,它们将帮助你从繁琐的文献检索中解脱,把精力回归到思考本身。 1、知识的开源图书馆 (Library Genesis) annas-archive.org 这是全球规模极大的开放图书馆。无论是教授指定的教材还是稀缺的学术专著,你几乎都能在这里找到。它在很大程度上终结了知识的付费门槛。 2、 Google Scholar scholar.google.com 学术
github.com/AIEraDev/Clypra本文将从零开始用 Python 讲解感知器,并提供交互式演示。学习权重、偏差、决策边界、迭代次数、学习率以及数据归一化的原因。 感知机虽然只是由权重、偏置和简单判断组成的最小学习单元,却是神经网络的基础。整篇文章通过 Python 和交互式示例,从零解释感知机如何接收输入、加权计算、根据决策边界输出“是/否”,并通过训练中的错误修正逐步学会分类;同时也顺带说明了偏置、epoch、学习率和数据归一
anpara.net/posts/perceptron-explained-from-scratch/RaptorQ 是一种前向纠错编码算法,常用于在网络传输中对抗丢包。 "不得不承认,RaptorQ 的存在让我感到由衷震惊。你可以把任意一个文件转换成一串可互换的“数据块”,以完全任意的顺序接收这些数据块,而且每收到一个新的数据块,都会帮助你重建原始文件——光是这个想法就已经相当令人惊叹了。 但接着你会发现,完成这一切所需的总开销不到 5%,而且接收方通常只需要比理论最小值多出两个符号,就能以近
www.jeffreyemanuel.com/writing/raptorqClypra 是一款基于 Tauri、React 和 TypeScript 构建的现代开源视频编辑器,专注于实现专业级 CapCut 功能并免费开放给所有用户。 它不仅提供多轨时间线、帧精准剪辑和实时波形显示,还支持多格式导入、文本叠加、项目保存与 100 级撤销重做,全部操作在桌面级性能下完成。 主要功能: 多格式支持,可导入视频、音频和图片文件; 专业时间线界面,支持多轨编辑与可
github.com/AIEraDev/ClypraSupervisor-Skills 将博导十年顶会经验凝练成可直接调用的 AI 科研技能,从灵感生成到投稿自查,为你打造一位全天候在线的 AI 副导师。 项目包含系统性的科研写作手册与结构化 Prompt 技能包:Idea 评估遵循“更高更快更强”五维框架;Introduction 写作内置 Flowchart 模型;技术类与 Benchmark 类论文各有专属思考模板;投稿前还能用审稿人视角进
Supervisor-Skills 将博导十年顶会经验凝练成可直接调用的 AI 科研技能Agent Reach 是一套让 AI Agent 拥有互联网能力的工具,它通过统一的 CLI 接口打通了 Twitter、Reddit、YouTube、B站、小红书等多个平台的读取和搜索功能,让 Agent 真正具备「上网」的能力。 无需为每个平台单独配置 API 或处理反爬,安装后即可直接让 Agent 读取网页内容、提取视频字幕、搜索社交媒体信息,甚至支持 RSS 订阅和全网语义搜索。所有
github.com/Panniantong/Agent-ReachDeepSeek GUI 是一款专为 DeepSeek 模型打造的本地桌面工作台,内置 Code 与 Write 两种模式,让开发者能在真实项目里稳定地使用智能体完成编码、写作与任务协作。 它以高 Token ROI 的 Kun 运行时为核心,把本地工作目录、文件变更审查、计划与 Todo 管理、代码审查、旁支对话等能力整合到一起,同时支持飞书、微信等 IM 接入和定时任务,让 AI 真正参与到
github.com/XingYu-Zhong/DeepSeek-GUISupermemory 是一套专为 AI 时代打造的记忆与上下文引擎,它让 AI 拥有持久的记忆能力,彻底解决“每次对话都从零开始”的问题。 Supermemory 不仅能从对话中自动提取事实、构建用户画像,还支持知识更新与矛盾消解、过期信息自动遗忘,以及一键返回最相关的上下文。内置 RAG、连接器与多模态文件处理,一套系统即可覆盖完整上下文栈。 主要功能: 记忆引擎:从对话中提取事实,处
github.com/supermemoryai/supermemoryMemanto 是一款专为 AI Agent 打造的主动式记忆系统,能让智能体真正拥有长期记忆、持续目标追踪和上下文一致性。 它提供 remember、recall、answer 三种核心操作,让 Agent 可以即时存储、精准检索并基于记忆生成答案,无需等待索引,也无需额外 LLM 密钥。内置 13 种记忆类型,支持冲突检测、版本管理和时序查询,检索延迟低至 90 毫秒,零摄入延迟,零闲置成本
github.com/moorcheh-ai/memantoKaliGPT 是一款面向道德黑客与网络安全学习者的 Agentic AI 工具,它将 Gemini、ChatGPT、Ollama、OpenRouter 等模型集成在 Linux CLI 中,让渗透测试与安全研究流程更智能、更高效。 KaliGPT 支持在线与离线两种模式,提供多模型切换、工具调用、API 密钥管理等功能,可一键启动官方网页版或直接在终端使用。项目包含一键安装脚本,兼容 Kali
github.com/SudoHopeX/KaliGPTHermes Desktop 是一款专为 Hermes Agent 打造的原生桌面应用,整合了安装、配置与日常聊天等全部功能,让自适应 AI 助手的使用变得更加直观。 它不仅提供本地或远程后端的灵活切换,还支持多模型提供商接入、流式对话、工具调用进度展示与 Token 用量实时统计,同时内置 22 条快捷指令、会话全文搜索、14 套工具集、记忆系统、Persona 编辑器、定时任务与 16 种消
github.com/fathah/hermes-desktopSniffnet 是一款跨平台网络流量监控工具,专注于让用户直观、可靠地查看互联网活动。支持选择网卡、设置过滤器、导入导出 PCAP 报告,并实时呈现流量统计与图表;还能识别本地连接、远程主机地理位置、域名与 ASN,同时识别 6000 多种上层服务、协议及潜在威胁程序。支持收藏常用主机、服务与程序、自定义通知、IP 黑名单及多主题界面。提供 Windows、macOS、Linux 版本,可通过
github.com/GyulyVGC/sniffnet传统 RAG 有个根本缺陷:它只搜一次。问"Project X 用的服务器规格",文档里只有服务器 ID,规格在另一个数据库——系统直接返回"未找到",因为它不知道还需要再搜一步。 Google 在 Gemini Enterprise Agent Platform 上发布的 Agentic RAG,本质是把"检索"变成一个会迭代的研究流程。 多 Agent 分工 整个系统有五个角色: -
research.google/blog/unlocking-dependable-responses-with-gemini-enterprise-agent-platforms-agentic-ragThe Engineering Handbook这个项目里存了两本工程手册:HLD / High-Level Design 系统设计手册 和 DSA / Data Structures & Algorithms 数据结构与算法手册。 HLD 系统设计手册覆盖高阶系统设计、分布式系统、现代基础设施等内容。README 里写到它包含 159 个教学章节、12 个部分、22 页 trade-off 决
github.com/handbook-academy/engineering-handbook