Google科学家的强化学习"圣经":从理论到实践的完整地图 深度科技观察 2025-10-28 0 浏览 0 点赞 长文 当AlphaGo击败李世石,当ChatGPT通过人类反馈变得"更懂你",当自动驾驶汽车在复杂路况中做出决策——这些看似不同的AI突破,背后都有一个共同的技术基石:**强化学习**(Reinforcement Learning)。 但对大多数人来说,强化学习依然是一个模糊的概念。它不像监督学习那样直观(给数据、学规律),也不像无监督学习那样神秘(自己发现模式)。它更像是教一个孩子骑自行车——不是告诉他每一步怎么做,而是让他自己尝试、摔倒、调整,最终学会平衡。 现在,Google Research的科学家Kevin P. Murphy,用一份持续更新的综述论文,为我们绘制了强化学习的完整地图。这份论文已经更新到第四版,成为领域内的"活文档"和权威指南。 ## 为什么需要强化学习:监督学习的局限 要理解强化学习的价值,先要理解监督学习的局限。 ### 监督学习的困境 监督学习是当前AI的主流范式:给模型大量"问题-答案"配对,让它学习映射关系。例如: - 图像分类:给10万张猫狗照片+标签,学习识别猫狗 - 机器翻译:给100万对中英文句子,学习翻译规律 - 语音识别:给1000小时语音+文本,学习语音到文字的转换 这种方法在很多任务上效果惊人,但有三个根本性局限: **局限1:需要大量标注数据** 每个训练样本都需要人工标注"正确答案"。ImageNet用了3年时间、数万名标注员,才完成120万张图片的标注。对于复杂任务(如自动驾驶),标注成本可能高达数千万美元。 **局限2:无法处理序列决策** 监督学习假设每个决策是独立的,但现实世界的很多任务是序列决策——当前的选择会影响未来的状态。例如,下棋时,每一步都会改变棋局,影响后续的可能性。监督学习无法自然地建模这种"延迟奖励"。 **局限3:无法自主探索** 监督学习只能学习训练数据中出现的模式,无法探索新的可能性。如果训练数据中没有某种情况,模型就无法处理。 ### 强化学习的突破 强化学习提供了一个根本不同的范式:**不需要告诉AI"正确答案",只需要告诉它"目标是什么",让它自己探索如何达成目标**。 核心机制: - **智能体(Agent)**:做决策的AI - **环境(Environment)**:智能体所处的世界 - **状态(State)**:环境的当前情况 - **动作(Action)**:智能体可以采取的行动 - **奖励(Reward)**:环境对智能体行动的反馈 智能体通过不断尝试不同的动作,观察环境的反馈(奖励),逐步学习哪些动作能带来更高的长期回报。 类比:教孩子骑自行车 - 监督学习:告诉孩子"左脚蹬、右脚蹬、身体向左倾斜15度"(需要精确指令) - 强化学习:告诉孩子"目标是不摔倒、往前走",让他自己尝试(只需要目标和反馈) 关键洞察:**强化学习是从"被动学习"到"主动学习"的跃迁**。AI不再是数据的消费者,而是环境的探索者。 ## Kevin P. Murphy:机器学习领域的"教科书作者" 在深入论文内容前,先了解作者背景。 Kevin P. Murphy是机器学习领域的知名学者,目前在Google Research工作。他最著名的贡献是两本"圣经级"教材: - 《Machine Learning: A Probabilistic Perspective》(2012):被全球数百所大学采用的机器学习教材 - 《Probabilistic Machine Learning》系列(2022-2023):现代机器学习的权威参考 Murphy的写作风格以"清晰、全面、数学严谨"著称。他擅长将复杂的数学理论转化为可理解的直觉,同时保持技术深度。 这份强化学习综述延续了他的风格: - **持续更新**:从第一版到第四版,不断纳入最新研究进展 - **理论与实践并重**:既有严谨的数学推导,也有实际应用案例 - **结构化呈现**:从基础概念到前沿算法,构建完整的知识图谱 某位斯坦福大学教授评论:"Murphy的综述不是简单的文献堆砌,而是对整个领域的系统性思考。读完后,你会对强化学习有"从点到面"的理解。" ## 理论基础:马尔可夫决策过程(MDP) 强化学习的数学基础是马尔可夫决策过程(Markov Decision Process, MDP)。Murphy在综述中用清晰的方式解释了这个核心概念。 ### MDP的五要素 一个MDP由五个要素定义: **1. 状态空间(State Space, S)** 所有可能的环境状态的集合。例如: - 围棋:19×19棋盘上所有可能的棋子配置 - 自动驾驶:车辆位置、速度、周围车辆状态、交通信号等 - 推荐系统:用户历史行为、当前浏览内容、时间等 **2. 动作空间(Action Space, A)** 智能体可以采取的所有行动。例如: - 围棋:在棋盘上落子的所有可能位置 - 自动驾驶:加速、减速、转向、保持 - 推荐系统:推荐哪些内容给用户 **3. 转移概率(Transition Probability, P)** 执行某个动作后,环境从一个状态转移到另一个状态的概率。数学表示:P(s'|s, a),表示在状态s执行动作a后,转移到状态s'的概率。 **4. 奖励函数(Reward Function, R)** 智能体在某个状态执行某个动作后获得的即时奖励。数学表示:R(s, a)。 **5. 折扣因子(Discount Factor, γ)** 用于平衡即时奖励和长期奖励的参数,通常取值在0到1之间。γ越接近1,智能体越重视长期回报;γ越接近0,智能体越重视即时回报。 ### 马尔可夫性质:为什么叫"马尔可夫" MDP的核心假设是"马尔可夫性质":**未来只依赖于现在,与过去无关**。 数学表达:P(s\_{t+1} | s\_t, a\_t, s\_{t-1}, a\_{t-1}, ..., s\_0, a\_0) = P(s\_{t+1} | s\_t, a\_t) 直观理解:如果你知道当前的完整状态,就不需要知道历史信息来预测未来。 例如: - 围棋:当前棋盘配置包含了所有必要信息,不需要知道之前的每一步 - 自动驾驶:当前的传感器读数(位置、速度、周围环境)足以做决策,不需要知道10分钟前的状态 但现实中,很多问题不满足马尔可夫性质(称为部分可观测MDP,POMDP),这是强化学习的一个重要研究方向。 ### 目标:最大化累积奖励 强化学习的目标是找到一个策略π(从状态到动作的映射),使得累积奖励最大化: G\_t = R\_{t+1} + γR\_{t+2} + γ²R\_{t+3} + ... = Σ γ^k R\_{t+k+1} 这个公式的直觉: - 我们不仅关心即时奖励R\_{t+1},还关心未来的所有奖励 - 但未来的奖励要打折扣(乘以γ^k),因为未来有不确定性 - 策略π的好坏,由它能带来的期望累积奖励(称为价值函数)来衡量 关键洞察:**强化学习是在优化长期目标,而不是短期目标**。这是它与监督学习的根本区别。 ## 核心算法:从动态规划到深度强化学习 Murphy的综述系统梳理了强化学习算法的演进路径。 ### 第一代:动态规划(Dynamic Programming) 当环境模型已知(即转移概率P和奖励函数R已知)时,可以用动态规划求解最优策略。 **核心算法**: - **价值迭代(Value Iteration)**:反复更新每个状态的价值,直到收敛 - **策略迭代(Policy Iteration)**:交替进行策略评估和策略改进 **局限**:需要完整的环境模型,且计算复杂度随状态空间指数增长。现实中,环境模型往往未知或过于复杂。 ### 第二代:无模型方法(Model-Free Methods) 当环境模型未知时,智能体需要通过与环境交互来学习。 **蒙特卡洛方法(Monte Carlo)**: - 让智能体完整地执行一个回合(episode),记录轨迹和奖励 - 用实际获得的累积奖励来估计价值函数 - 优点:简单直观,不需要环境模型 - 缺点:需要等到回合结束才能更新,学习速度慢 **时序差分学习(Temporal Difference, TD)**: - 结合蒙特卡洛和动态规划的优点 - 每一步都可以更新价值估计,不需要等到回合结束 - 经典算法:Q-learning、SARSA **Q-learning的突破**: Q-learning是最著名的TD算法,它学习一个Q函数:Q(s, a)表示在状态s执行动作a的长期价值。 更新规则:Q(s, a) ← Q(s, a) + α[R + γ max Q(s', a') - Q(s, a)] 直觉:用"实际奖励R + 未来最优价值的估计"来更新当前的价值估计。 某位强化学习研究员评论:"Q-learning的优雅之处在于,它只需要与环境交互,就能逐步逼近最优策略,不需要知道环境的内部机制。" ### 第三代:深度强化学习(Deep Reinforcement Learning) 传统强化学习的致命弱点:**无法处理高维状态空间**。 例如,围棋有约10^170种可能的棋盘配置,无法用表格存储每个状态的Q值。图像输入(如Atari游戏)的状态空间更是天文数字。 **深度强化学习的突破**:用深度神经网络来近似Q函数或策略函数,从而处理高维输入。 **DQN(Deep Q-Network)**: - 2013年DeepMind的突破性工作 - 用卷积神经网络(CNN)从原始像素学习玩Atari游戏 - 关键技术:经验回放(Experience Replay)和目标网络(Target Network) **经验回放的直觉**: 传统Q-learning按时间顺序学习,但连续的样本高度相关,导致学习不稳定。经验回放将经验存储在缓冲区,随机采样来训练,打破相关性。 **目标网络的直觉**: Q-learning的更新目标本身依赖于Q函数,导致"追逐移动目标"的问题。目标网络定期从主网络复制参数,提供稳定的更新目标。 **策略梯度方法(Policy Gradient)**: 不学习价值函数,而是直接学习策略函数π(a|s),表示在状态s下选择动作a的概率。 **核心思想**:用梯度上升优化策略,使期望累积奖励最大化。 **经典算法**: - **REINFORCE**:最基础的策略梯度算法 - **Actor-Critic**:结合价值函数(Critic)和策略函数(Actor) - **PPO(Proximal Policy Optimization)**:OpenAI开发的稳定高效算法,广泛应用于ChatGPT的RLHF训练 - **A3C(Asynchronous Advantage Actor-Critic)**:DeepMind的并行训练算法 **PPO的重要性**: PPO通过限制策略更新的幅度,避免了策略梯度方法的不稳定性。它成为当前最流行的强化学习算法之一,被用于: - ChatGPT的人类反馈强化学习(RLHF) - OpenAI Five(Dota 2 AI) - 机器人控制 某位OpenAI研究员评论:"PPO的成功在于它在性能、稳定性和实现简单性之间找到了最佳平衡点。" ### 第四代:离线强化学习(Offline RL) 最新的研究前沿是离线强化学习(也称批量强化学习)。 **核心问题**:传统强化学习需要与环境大量交互,但在很多现实场景中,交互成本高昂或不可行: - 医疗:不能让AI在真实患者身上试错 - 自动驾驶:不能让AI在真实道路上随意探索 - 推荐系统:不能让AI随意推荐内容影响用户体验 **离线RL的解决方案**:从已有的数据集(由人类或其他策略收集)中学习,不需要与环境交互。 **关键挑战**: - **分布偏移**:训练数据的分布与最优策略的分布不同 - **外推误差**:模型可能对训练数据中未出现的状态-动作对做出错误估计 **前沿算法**: - **CQL(Conservative Q-Learning)**:通过惩罚训练数据外的Q值,避免过度乐观估计 - **IQL(Implicit Q-Learning)**:避免显式的策略改进,减少外推误差 Murphy在综述中指出:"离线强化学习可能是将强化学习应用到真实世界的关键。它让我们能够利用已有的大规模数据集,而不需要昂贵的在线交互。" ## 应用案例:从游戏到现实世界 Murphy的综述不仅讲理论,还系统梳理了强化学习的实际应用。 ### 游戏AI:从Atari到AlphaGo **Atari游戏(2013-2015)**: - DeepMind的DQN在49款Atari游戏中达到人类水平 - 关键突破:从原始像素学习,不需要手工特征工程 - 意义:证明了深度强化学习的可行性 **AlphaGo(2016)**: - 击败世界冠军李世石,震惊世界 - 技术:蒙特卡洛树搜索(MCTS)+ 深度神经网络 + 自我对弈 - 创新:通过自我对弈生成训练数据,超越人类知识 **AlphaZero(2017)**: - 不使用人类知识,完全通过自我对弈学习 - 在围棋、国际象棋、将棋上都达到超人水平 - 意义:展示了"从零开始"学习的可能性 **OpenAI Five(2018)**: - 在Dota 2(5v5团队游戏)中击败职业战队 - 挑战:长时间跨度(游戏持续45分钟)、团队协作、部分可观测 - 技术:PPO + 大规模并行训练(每天相当于180年游戏时间) ### 机器人控制:从模拟到现实 **机械臂操作**: - 学习抓取、放置、组装等任务 - 挑战:高维连续动作空间、接触动力学复杂 - 方法:结合模拟训练和真实微调(Sim-to-Real) **四足机器人**: - 学习在复杂地形上行走、跑步、跳跃 - 代表:波士顿动力的Spot、苏黎世联邦理工的ANYmal - 技术:域随机化(Domain Randomization)提升鲁棒性 **无人机控制**: - 学习敏捷飞行、避障、竞速 - 苏黎世联邦理工的无人机AI击败人类冠军 - 技术:结合强化学习和传统控制理论 ### 推荐系统:个性化的艺术 推荐系统是强化学习的重要应用场景,但往往被忽视。 **为什么需要强化学习**: - 传统推荐系统优化即时点击率,但可能损害长期用户体验 - 强化学习可以优化长期指标(如用户留存、终身价值) - 可以建模用户兴趣的动态变化 **实际应用**: - **YouTube推荐**:优化用户观看时长和满意度 - **淘宝推荐**:平衡短期转化和长期用户价值 - **新闻推荐**:考虑信息多样性和用户疲劳 **技术挑战**: - 状态空间巨大(用户历史行为、上下文信息) - 动作空间巨大(数百万候选内容) - 需要离线学习(不能随意实验影响用户) 某位推荐系统工程师分享:"我们用强化学习重构推荐系统后,用户日均使用时长提升了15%,但点击率反而下降了5%。这说明强化学习确实在优化长期目标,而不是短期指标。" ### 自动驾驶:复杂决策的试金石 自动驾驶是强化学习最具挑战性的应用之一。 **决策层次**: - **战略层**:路径规划(从A到B走哪条路) - **战术层**:行为决策(变道、超车、让行) - **执行层**:轨迹控制(油门、刹车、转向) **强化学习的应用**: 主要用于战术层的行为决策,因为这一层需要处理复杂的交互和不确定性。 **技术挑战**: - **安全性**:不能在真实道路上试错 - **长尾问题**:罕见但关键的场景(如紧急避让) - **多智能体**:需要预测其他车辆的行为 **解决方案**: - 在模拟器中训练(如CARLA、SUMO) - 使用离线强化学习从人类驾驶数据中学习 - 结合规则系统和学习系统(混合方法) ### RLHF:让大语言模型"更懂你" 人类反馈强化学习(RLHF)是ChatGPT成功的关键技术之一。 **核心思想**: 1. 用监督学习训练基础模型(如GPT-3.5) 2. 收集人类对模型输出的偏好数据(A比B好) 3. 训练奖励模型预测人类偏好 4. 用强化学习(PPO)优化模型,使其输出获得更高的奖励 **为什么有效**: - 人类很难写出"完美答案",但很容易判断"哪个答案更好" - 强化学习可以优化难以量化的目标(如"有帮助"、"无害"、"诚实") - 可以持续从人类反馈中学习,不断改进 **技术挑战**: - **奖励模型的准确性**:如果奖励模型有偏见,强化学习会放大这些偏见 - **过度优化**:模型可能学会"欺骗"奖励模型,生成看似好但实际差的输出 - **计算成本**:RLHF的训练成本是监督学习的数倍 Murphy在综述中指出:"RLHF展示了强化学习在对齐AI系统与人类价值观方面的潜力。这可能是构建安全、可控AI的关键技术。" ## 核心挑战:强化学习的"阿喀琉斯之踵" 尽管强化学习取得了巨大成功,但Murphy在综述中也诚实地指出了领域的核心挑战。 ### 挑战1:样本效率低 强化学习通常需要大量的交互才能学习。 **数据对比**: - 监督学习:ImageNet用120万张图片训练出高性能分类器 - 强化学习:AlphaGo需要数千万局自我对弈;OpenAI Five每天训练相当于180年游戏时间 **为什么样本效率低**: - 需要探索大量状态-动作对 - 延迟奖励使得学习信号稀疏 - 需要平衡探索(尝试新动作)和利用(选择已知好的动作) **改进方向**: - 模型基强化学习(Model-Based RL):学习环境模型,在模型中规划 - 元学习(Meta-Learning):学习如何快速学习新任务 - 迁移学习:利用相关任务的知识 ### 挑战2:奖励函数设计困难 强化学习的性能高度依赖于奖励函数的设计,但设计好的奖励函数非常困难。 **奖励稀疏问题**: 很多任务的奖励非常稀疏。例如,围棋只在游戏结束时给出胜负奖励,中间的数百步都没有反馈。 **奖励塑形(Reward Shaping)**: 人工设计中间奖励来引导学习,但可能引入偏见或意外行为。 **奖励黑客(Reward Hacking)**: 智能体可能找到"钻空子"的方法获得高奖励,但不符合真实目标。 经典案例:OpenAI训练一个机器人抓取物体,但机器人学会了将手放在物体和相机之间,让相机"以为"它抓到了物体。 **解决方向**: - 逆强化学习(Inverse RL):从专家演示中推断奖励函数 - 人类反馈(RLHF):用人类偏好代替手工设计的奖励 - 内在动机(Intrinsic Motivation):设计探索奖励(如好奇心、新颖性) ### 挑战3:泛化能力弱 强化学习模型往往过拟合训练环境,在新环境中表现差。 **案例**: - 在Atari游戏中训练的AI,如果改变背景颜色或物体位置,性能可能大幅下降 - 在模拟器中训练的机器人,在真实世界中可能完全失效(Sim-to-Real Gap) **改进方向**: - 域随机化:在训练时随机化环境参数 - 多任务学习:同时学习多个相关任务 - 元强化学习:学习快速适应新环境的能力 ### 挑战4:安全性和可解释性 强化学习系统的决策过程往往是"黑盒",难以理解和验证。 **安全性问题**: - 在探索过程中可能采取危险动作 - 在部署后可能遇到训练时未见过的情况 - 难以保证满足硬约束(如"永远不要撞人") **可解释性问题**: - 难以理解为什么智能体做出某个决策 - 难以调试和改进策略 - 难以获得用户信任 **研究方向**: - 安全强化学习(Safe RL):在学习过程中保证安全约束 - 可解释强化学习:生成决策的自然语言解释 - 形式化验证:用数学方法证明系统满足安全性质 ## 未来方向:Murphy的前瞻性思考 Murphy在综述的最后部分,对强化学习的未来方向进行了前瞻性思考。 ### 方向1:与大模型的融合 大语言模型(LLM)和强化学习的结合,可能开启新的可能性。 **LLM作为世界模型**: - 用LLM预测环境的动态和奖励 - 在LLM构建的"想象世界"中规划 - 减少与真实环境的交互需求 **LLM作为策略表示**: - 用自然语言描述策略(如"如果看到红灯,就停车") - 提升可解释性和可编辑性 - 利用LLM的常识知识 **案例**: - Google的PaLM-E:结合视觉、语言和机器人控制 - OpenAI的WebGPT:用强化学习训练LLM进行网络搜索 ### 方向2:多智能体强化学习 现实世界往往涉及多个智能体的交互和协作。 **应用场景**: - 自动驾驶:多车协同 - 机器人团队:协作完成任务 - 经济系统:多个决策者的博弈 **技术挑战**: - 非平稳性:其他智能体的策略在变化 - 信用分配:如何评估每个智能体的贡献 - 通信和协调:如何有效协作 **前沿算法**: - QMIX:学习集中式价值函数,执行分布式策略 - MADDPG:多智能体版本的DDPG算法 - CommNet:学习智能体间的通信协议 ### 方向3:终身学习和持续适应 构建能够持续学习、适应新环境的智能体。 **核心问题**: - 如何在学习新任务时不忘记旧任务(灾难性遗忘) - 如何快速适应环境的变化 - 如何积累和重用知识 **研究方向**: - 渐进式神经网络:为新任务添加新的网络模块 - 弹性权重巩固:保护重要参数不被覆盖 - 元强化学习:学习学习的能力 ### 方向4:人机协作 强化学习不是要替代人类,而是要与人类协作。 **协作模式**: - **人类在环(Human-in-the-Loop)**:人类提供关键决策,AI执行细节 - **人类监督(Human Oversight)**:AI自主决策,人类监督和干预 - **人类教学(Human Teaching)**:人类通过演示或反馈教AI **应用场景**: - 医疗诊断:AI提供建议,医生做最终决策 - 内容审核:AI过滤明显违规内容,人类处理边缘情况 - 创意工作:AI生成草稿,人类精修 Murphy指出:"强化学习的终极目标不是创造超越人类的AI,而是创造能够增强人类能力、与人类协作的AI。" ## 对技术从业者的启示 Murphy的综述不仅是学术文献,更是技术从业者的实战指南。 ### 启示1:选择合适的工具 不是所有问题都需要强化学习。 **适合强化学习的场景**: - 需要序列决策(当前选择影响未来) - 有明确的目标但难以定义"正确答案" - 可以与环境交互或有大量历史数据 **不适合强化学习的场景**: - 有大量标注数据的监督学习任务 - 需要快速部署、样本效率要求高 - 安全性要求极高、不能试错 ### 启示2:从简单开始 不要一开始就用最复杂的算法。 **推荐路径**: 1. 先用简单的基线(如随机策略、规则系统) 2. 尝试经典算法(如Q-learning、REINFORCE) 3. 如果需要处理高维输入,再用深度强化学习(如DQN、PPO) 4. 如果在线交互困难,考虑离线强化学习 ### 启示3:重视工程实践 强化学习的成功,50%靠算法,50%靠工程。 **关键工程技巧**: - **超参数调优**:学习率、折扣因子、探索率等对性能影响巨大 - **奖励设计**:花时间设计和迭代奖励函数 - **环境设计**:简化状态空间、设计合理的动作空间 - **调试工具**:可视化学习曲线、记录关键指标 - **并行训练**:利用多核CPU/GPU加速 ### 启示4:关注最新进展 强化学习是快速发展的领域,保持学习至关重要。 **推荐资源**: - **经典教材**:Sutton & Barto的《Reinforcement Learning: An Introduction》 - **在线课程**:David Silver的UCL课程、Sergey Levine的Berkeley课程 - **顶会论文**:NeurIPS、ICML、ICLR的强化学习相关论文 - **开源库**:Stable Baselines3、RLlib、Dopamine ## 结语:从"学会玩游戏"到"构建通用智能" Kevin P. Murphy的强化学习综述,不仅是一份技术文档,更是对整个领域的系统性思考。 强化学习的价值,不仅在于让AI"学会玩游戏",更在于它提供了一个构建通用智能的范式: - **自主学习**:不需要人类提供每一步的指导 - **目标导向**:通过优化长期目标来学习 - **适应性**:能够在复杂、动态的环境中做决策 从AlphaGo到ChatGPT,从自动驾驶到推荐系统,强化学习正在从实验室走向现实世界。但正如Murphy在综述中指出的,这个领域仍然面临诸多挑战:样本效率、奖励设计、泛化能力、安全性。 未来的突破,可能来自: - 与大语言模型的深度融合 - 多智能体协作的新范式 - 终身学习和持续适应的能力 - 人机协作的新模式 对于技术从业者而言,强化学习不仅是一个研究方向,更是理解AI决策系统的钥匙。无论你是在构建推荐系统、优化供应链,还是开发智能助手,强化学习的思维方式——目标导向、长期优化、探索与利用的平衡——都能提供独特的视角。 Murphy的综述,就像一张详细的地图,帮助我们在强化学习的广阔领域中找到方向。从理论基础到前沿算法,从经典应用到未来展望,这份"活文档"将持续更新,陪伴我们见证强化学习的下一个突破。 正如Murphy在综述结尾所说:"强化学习不是AI的全部,但它可能是通往通用智能的关键一步。" 这一步,我们才刚刚开始。 arXiv论文原文 Reinforcement Learning: An Overview (第四版) - Kevin P. Murphy的权威综述 Google Research Kevin P. Murphy所在的Google研究机构 Sutton & Barto教材 Reinforcement Learning: An Introduction - 强化学习领域的经典教材 AlphaGo论文 DeepMind的AlphaGo突破性研究 OpenAI RLHF研究 人类反馈强化学习的开创性工作 OpenAI Spinning Up OpenAI的强化学习教育资源 #AI #AlphaGo #Google #RLHF #前沿研究 #强化学习 #推荐系统 #机器学习 #深度学习 #算法 #综述论文 #自动驾驶