概率分布函数入门 (PDF, PMF, CDF) Pankaj Kumar Deora 2025-10-31 0 浏览 0 点赞 长文 在概率论和统计学中,我们使用函数来描述一个随机变量(Random Variable)取不同值的可能性。这些函数就是概率分布函数。理解它们是数据科学和机器学习的基础。本文将介绍三种最核心的分布函数:PMF, PDF, 和 CDF。 首先,我们需要区分两种不同类型的随机变量: * **离散随机变量 (Discrete Random Variable)**: 只能取有限个或可数个特定值的变量。例如:掷骰子的点数(1, 2, 3, 4, 5, 6),抛硬币的结果(正面,反面)。 * **连续随机变量 (Continuous Random Variable)**: 可以取某个区间内任意值的变量。例如:一个人的身高(可以是175cm, 175.1cm, 175.11cm...),明天的气温。 ## 1. 概率质量函数 (Probability Mass Function - PMF) PMF 用于描述 **离散随机变量** 的概率分布。它直接给出了随机变量取 **某一个特定值** 的概率。 * **定义**: `PMF(x) = P(X = x)`,即随机变量 X 等于特定值 x 的概率。 * **例子**: 对于一个公平的六面骰子,其PMF为: * `PMF(1) = 1/6` * `PMF(2) = 1/6` * ... * `PMF(6) = 1/6` * **特性**: 1. 所有可能值的概率都介于0和1之间。 2. 所有可能值的概率之和必须等于1。 ## 2. 概率密度函数 (Probability Density Function - PDF) PDF 用于描述 **连续随机变量** 的概率分布。与PMF不同,PDF本身 **并不直接代表概率**。对于一个连续变量,它取某一个精确值的概率实际上是0(因为有无穷多个可能的取值)。 * **定义**: PDF描述了随机变量在某个点附近的 **概率密度或可能性**。一个点的PDF值越高,意味着变量落在这个点周围一个小区间内的概率就越大。 * **如何使用**: 我们通过计算PDF曲线下的 **面积** 来得到概率。变量落在区间 `[a, b]` 内的概率等于PDF曲线在 `a` 和 `b` 之间与x轴围成的面积。 * **例子**: 成年男性的身高大致呈正态分布(钟形曲线)。PDF曲线在身高175cm处的值可能很高,但在140cm或220cm处的值就非常低。我们不能问“身高恰好等于175cm的概率”,而应该问“身高在170cm到180cm之间的概率”,这个概率就是对应区间下的面积。 * **特性**: 1. PDF的值总是非负的。 2. 整个PDF曲线下的总面积必须等于1。 ## 3. 累积分布函数 (Cumulative Distribution Function - CDF) CDF 是一个通用的概念,它对 **离散和连续** 随机变量都适用。它给出了随机变量取值 **小于或等于** 某一个特定值的概率。 * **定义**: `CDF(x) = P(X ≤ x)`,即随机变量 X 的值小于或等于 x 的概率。 * **例子 (离散)**: 对于掷骰子: * `CDF(1) = P(X ≤ 1) = PMF(1) = 1/6` * `CDF(3) = P(X ≤ 3) = PMF(1) + PMF(2) + PMF(3) = 1/6 + 1/6 + 1/6 = 3/6 = 0.5` * **例子 (连续)**: 对于身高分布,`CDF(180)` 代表一个成年男性身高小于或等于180cm的概率。在图形上,这等于PDF曲线从负无穷到180cm所覆盖的全部面积。 * **特性**: 1. CDF是一个单调不减的函数,其值域在0到1之间。 2. 随着 x 趋向负无穷,CDF(x) 趋向0;随着 x 趋向正无穷,CDF(x) 趋向1。 ## 总结 * **PMF**: 用于离散变量,给出取 **某个点** 的概率。 * **PDF**: 用于连续变量,给出某个点附近的 **概率密度**,通过 **计算面积** 得到概率。 * **CDF**: 通用于两者,给出取值 **小于或等于某个点** 的累积概率。 阅读 Medium 原文 本文的原始来源。 #CDF #PDF #数据科学 #概率论 #统计学