Geeks_Z の Blog Geeks_Z の Blog
首页
  • 学习笔记

    • 《HTML》
    • 《CSS》
    • 《JavaWeb》
    • 《Vue》
  • 后端文章

    • Linux
    • Maven
    • 汇编语言
    • 软件工程
    • 计算机网络概述
    • Conda
    • Pip
    • Shell
    • SSH
    • Mac快捷键
    • Zotero
  • 学习笔记

    • 《数据结构与算法》
    • 《算法设计与分析》
    • 《Spring》
    • 《SpringMVC》
    • 《SpringBoot》
    • 《SpringCloud》
    • 《Nginx》
  • 深度学习文章
  • 学习笔记

    • 《PyTorch》
    • 《ReinforementLearning》
    • 《MetaLearning》
  • 学习笔记

    • 《高等数学》
    • 《线性代数》
    • 《概率论与数理统计》
  • 增量学习
  • 哈希学习
GitHub (opens new window)

Geeks_Z

AI小学生
首页
  • 学习笔记

    • 《HTML》
    • 《CSS》
    • 《JavaWeb》
    • 《Vue》
  • 后端文章

    • Linux
    • Maven
    • 汇编语言
    • 软件工程
    • 计算机网络概述
    • Conda
    • Pip
    • Shell
    • SSH
    • Mac快捷键
    • Zotero
  • 学习笔记

    • 《数据结构与算法》
    • 《算法设计与分析》
    • 《Spring》
    • 《SpringMVC》
    • 《SpringBoot》
    • 《SpringCloud》
    • 《Nginx》
  • 深度学习文章
  • 学习笔记

    • 《PyTorch》
    • 《ReinforementLearning》
    • 《MetaLearning》
  • 学习笔记

    • 《高等数学》
    • 《线性代数》
    • 《概率论与数理统计》
  • 增量学习
  • 哈希学习
GitHub (opens new window)
  • 线性代数

  • 概率论与数理统计

  • 矩阵

  • 分布

    • 统计量及其分布
      • 统计量及其分布
        • 总体与样本
        • 样本数据的整理与显示
        • 统计量及其分布
    • 参数估计
    • 假设检验
    • 先验分布与后验分布
    • 分布度量
    • 交叉熵
    • 最优运输概述
    • Wasserstein距离
    • 基于最优传输的分类损失函数
    • 最优传输之生成模型
    • 最优传输之梯度流
    • 两个多元正态分布的KL散度巴氏距离和W距离
  • 数学笔记
  • 分布
Geeks_Z
2022-12-26
目录

统计量及其分布

统计量及其分布

总体与样本

  1. 总体

      在一个统计问题里,研究对象的全体叫做总体,构成总体的每个成员称为个体。根据个体的数量指标数量,定义总体的维度,如每个个体只有一个数量指标,总体就是一维的,同理,个体有两个数量指标,总体就是二维的。总体就是一个分布,数量指标就是服从这个分布的随机变量。   总体根据个体数分为有限总体和无限总体,当有限总体的个体数充分大时,其可以看为无限总体。

  2. 样本

    • 定义:

      从总体中随机抽取的部分个体组成的集合称为样本,样本个数称为样本容量。

    • 性质:

      • 二重性:抽取前随机,是随机变量;抽取后确定,是一组数值。

      • 随机性:每个个体都有同等的机会被选入样本。

    • 独立性:每个样本的取值不影响其他样本取值,即分部独立。

      满足后面两个性质称为简单随机样本,则

      F(x1,x2,...,xn)=∏i=1nF(xi),f(x1,x2,...,xn)=∏i=1nf(xi),p(x1,x2,...,xn)=∏i=1np(xi)
  3. 分组样本

      只知样本观测值所在区间,而不知具体值的样本称为分组样本。缺点:与完全样本相比损失部分信息。优点:在样本量较大时,用分组样本既简明扼要,又能帮助人们更好地认识总体。

样本数据的整理与显示

  1. 经验分布函数

      若将样本观测值x1,x2,...,xn 小到大进行排列,得到有序样本x(1)≤x(2)≤...≤x(n),用有序样本定义如下函数

    当当当Fn(x)={0当x<x(1)k/n当x(k)≤x<x(k+1),k=1,2,...,n−11当x≥x(n)

    则称为Fn(x) 该样本的经验分布函数。

  2. 格里纹科定理

      设x1,x2,...,xn 取自总体分布函数为F(x) 样本,Fn(x) 该样本的经验分布函数,则当n→+∞ ,有

    P(sup−∞<x<+∞|Fn(x)−F(x)|→0)=1

    表明当 n 相当大时,经验分布函数Fn(x) 总体分布函数F(x) 一个良好的近似。它是经典统计学的一块基石。

  3. 频数频率分布表

      有样本x1,x2,...,xn 作频数频率分布表的操作步骤如下:

    • 确定组数 k;
    • 确定每组组距,通常取每组组距相等为 d(方便起见,可选为整数);
    • 确定组限(下限a0 小于最小观测值,上限ak 大于最大观测值);
    • 统计样本数据落入每个区间的频数,并计算频率。

    该表能够简明扼要地把样本特点表示出来。不足之处是该表依赖于分组,不同的分组方式有不同的频数频率分布表。

  4. 直方图

    • 利用频数频率分布表上的区间(横坐标)和频数(纵坐标)可作为频数直方图;
    • 若把纵坐标改为频率就得频率直方图;
    • 若把纵坐标改为频率/组距,就得到单位频率直方图。这时长条矩形的面积之和为 1.
  5. 茎叶图

      把样本中的每个数据分为茎与叶,把茎放于一侧,叶放于另一侧,就得到一张该样本的茎叶图。比较两个样本时,可画出背靠背的茎叶图。茎叶图保留数据中全部信息,当样本量较大,数据很分散,横跨二、三个数量级时,茎叶图并不适用。

统计量及其分布

  1. 统计量

      不含未知参数的样本函数称为统计量。统计量的分布称为抽样分布。

  2. 样本均值

    • 定义:

        样本x1,x2,...,xn 算数平均值称为样本均值,记为x¯.分组样本均值x¯=1n∑i=1kxifi,其中 n 为样本量,k 为组数,xi fi 第 i 组的组中值和频率,分组样本均值是完全样本均值的一种较好的近似。

        样本均值是样本的位置特征,样本中大多数值位于x¯ 右。平均可消除一些随机干扰,等价交换也是在平均数中实现的。

    • 性质:

      • ∑i=1n(xi−x¯)=0,样本数据xi 样本均值x¯ 偏差之和为零;
      • 样本数据xi 样本均值x¯ 偏差平方和最小,即对任意的实数 c 有∑i=1n(xi−x¯)2≤∑i=1n(xi−c)2;
      • 若总体分布为N(μ,σ2),则x¯ 精确分布为N(μ,σ2/n);
      • 若总体分布未知,但其期望μ 方差σ2 在,则当 n 较大时,x¯ 渐进分布为N(μ,σ2/n),这里渐进分布是指 n 较大时的近似分布。
  3. 样本方差与样本标准差

      样本方差有两种,s∗2=1n∑i=1n(xi−x¯)2 s2=1n−1∑i=1n(xi−x¯)2,后者为无偏方差,也是最常用的。(这是因为当σ2 总体方差时,总有E(s∗2)=n−1nσ2,E(s2)=σ2,表明s∗2 系统偏小的误差,s2 此系统偏差。)称s2 样本标准差。

      样本方差是样本的散布特征,s2越大样本越分散,s2 小分布越集中,样本标准差比样本方差使用更频繁,因为前者和样本均值有着相同的单位。

    s2 计算有如下三个公式可供选用:

    s2=1n−1∑(xi−x¯)2=1n−1[∑xi2−(∑xi)2n]=1n−1(∑xi2−nx¯2)

    在分组样本场合,样本方差的近似计算公式为

    s2=1n−1∑i=1kfi(xi−x¯)2=1n−1(∑i=1kfixi2−nx¯2)

    其中 k 为组数,xi,fi 别为第 i 个区间的组中值与频数,x¯ 分组样本的均值。

  4. 样本矩及其函数

    • 样本的 k 阶原点矩ak=1n∑i=1nxik,样本均值x¯ 样本的一阶原点矩;
    • 样本的 k 阶中心距bk=1n∑i=1n(xi−x¯)k,样本方差s2 s∗2 为样本的二阶中心矩;
    • 样本变异系数Cr=s/x¯;
    • 样本的偏度βs^=b3/b23/2,反映样本数据与对称性偏离程度和偏离方向;
    • 样本的峰度βk^=b4b22−3,反映总体分布密度曲线在其峰值附近的陡峭程度和尾部粗细.
  1. 次序统计量及其分布

      设x1,...,xn 取自某总体的一个样本,x(i) 为该样本的第 i 个次序统计量(升序排序后,第 i 个样本)。

    • x(1)=min{x1,...,xn} 为该样本的最小次序统计量;
    • x(n)=max{x1,...,xn} 为该样本的最大次序统计量;
    • (x(1),x(2),...,x(n)} 为该样本的次序统计量,即不独立也不同分布;
    • R=x(n)−x(1) 为样本极差。 设总体X 密度函数为f(x),分布函数为F(x),x1,...,xn 样本,则有
    • 样本第 k 个次序统计量x(k) 密度函数为
    fk(x)=n!(k−1)!(n−k)!(F(x))k−1(1−F(x))n−kf(x);
    • 样本第 i 个与第 j 个次序统计量的联合密度函数为
    fij(y,z)=n!(i−1)!(j−i−1)!(n−j)!(F(y))i−1(F(z)−F(y))j−i−1(1−F(z))n−jf(xy)f(z),y≤z,1≤i<j≤n
  2. 样本中位数与样本分位数

    设x1,...,xn 取自某总体的样本,x(1)≤x(2)≤...≤x(n) 该样本的次序统计量,则样本中位数m0.5 义为

    为奇数为偶数m0.5={x(n+12)n为奇数12(x(n2)+x(n2+1))n为偶数

    样本的 p 分位数mp 义为

    不是整数是整数mp={x[np+1]np不是整数12(x(np)+x(np+1))np是整数

    其中[x]表示向下取整。中位数对样本的极端值有抗干扰性,或称有稳健性。 样本分位数的渐近分布:设总体的密度函数为f(x),xp 总体的 p 分位数。若p(x) xp 连续且p(xp)>0,则当 n 充分大时,有

    mp∼N(xp,p(1−p)n⋅p2(xp)),m0.5∼N(x0.5,14n⋅p2(x0.5))
  3. 五数概括与箱线图

      五数指用样本的五个次序统计量,即最小观测值,最大观测值,中位数,第一 4 分位数和第三 4 分位数。其图形为箱线图,可描述样本分布形状。

#概率论与数理统计
上次更新: 2025/06/25, 11:25:50
Monarch矩阵
参数估计

← Monarch矩阵 参数估计→

最近更新
01
帮助信息查看
06-08
02
常用命令
06-08
03
学习资源
06-07
更多文章>
Theme by Vdoing | Copyright © 2022-2025 Geeks_Z | MIT License
京公网安备 11010802040735号 | 京ICP备2022029989号-1
  • 跟随系统
  • 浅色模式
  • 深色模式
  • 阅读模式