Distributions Derived From the Normal Distribution

some distribution

  • inflection point:拐点 bell curve:正态曲线
  • moment generating function:矩生成函数
    • 矩生成函数可用于计算分布的矩:关于 0 的第n个矩是矩生成函数的第n阶导数,在 0 处求值。(另一种对概率分布的描述)
      • 矩可以视为(moving to average)

chi-square distribution(卡方分布)

  • gamma distribution:描述的是等待n个事件发生的时间之和
    (Y=i=0nXiY=\sum^n_{i=0} X_i),记为(YGamma(α,λ)Y\sim Gamma(\alpha ,\lambda))前者为事件次数,后者为单位时间内的的发生率

student’s t distribution

  • 自由度为r的t分布,当k<r时,积分收敛,k次矩存在(重尾性)
  • T的矩生成函数除了在0均不存在

F distribution

Statistics from Normal Samples

  • n个正态分布的随机变量中取样出来仍服从正态分布:利用MGF 即可证明

  • why 样本方差是除以1/(n-1):

    • 最简单的原因,是因为因为均值已经用了n个数的平均来做估计在求方差时,只有(n-1)个数和均值信息是不相关的。而你的第n个数已经可以由前(n-1)个数和均值 来唯一确定,实际上没有信息量。所以在计算方差时,只除以(n-1)(无偏估计)
  • 证明思路(该情况下不相关等价于独立)

  • 证法(联合MGF分解为分别的MGF乘积)

  • 证明:从已知的分布出发(n个标准正态分布的平方和)


以上为sp15内容(没video还是太吃操作了)


Introduction to Statistics

  • 统计与建模

  • 大数定理告诉我们:当实验的次数足够的多的时候,对每次实验结果的随即变量求均值将可由正态分布极好得近似

  • asymptotic confidence interval (渐进置信区间)


  • 霍夫丁不等式

不同类型的收敛

  • (几乎处处收敛和依据条件收敛)
  • (LpL_p收敛和分布收敛)
  • 分布收敛的等价表述
  • 几种收敛的强弱比较(a.s:几乎必然收敛almost surely convergence)

  • 另一个例子
    • delta 方法
    • Slutsky’s theorem

problemset1

  • 马尔可夫不等式
  • problem1


    • 凑中心极限定理那个分布

Parametric Inference

样本数的限制:需要假设以限制模型在一个看似合理的子空间

  • statistic models

    • 有限参数即可描述的模型:参数化模型
    • 样本空间的取值范围中不能含有要估计的参数(均匀分布,在实验之前应该是所有可能的值)
  • identification
    injective:单射
  • parameter estimation

  • confidence interval

  • strongly consistent:强一致性(as收敛),弱一致就是概率收敛

problemset2

  • consistent estimater(一致估计量):就是按那4种收敛过去
  • 对n重伯努利的p(1-p)的无偏估计:
    • 直接用Xnˉ(1Xnˉ)\bar{X_n}(1-\bar{X_n}),估算出来有偏差p(1p)n-\frac{p(1-p)}{n}所以将其缩放为n/n-1倍
  • quantile:就是标准正态分布下概率为多少的值(0.95的约为1.96,意思就是负无穷到1.96的概率累积函数值为.95)
  • Mn=max(xi),p(Mnt)=tθnM_n=max(x_i),p(M_n\le t)={\frac{t}{\theta}}^n

Maximum Likelihood Estimation

total variation distance



- 一些性质(类似线代里面的广义向量、满足这些就算距离)
- 连续的就是差的绝对值积分
- A是全集的一个子集!!!

- 一种利用该距离搜索最优参数的方法,建立估计器并最小化(老问题,真实参数不知道算不了)

KL divergence



- 由KL散度建立的估计器

- definiteness so the minimizer is unique from p to KL
- identities so unique from θ\theta to KL
- 期望的分布(概率)仅仅决定了采样方式,与被采样的数据无关

- intuition:就是在得到一些观测值之后最大化这些观测值在曲线(密度)上的概率值

  • concave:凹函数(二阶导小于零)
  • 多维情况:xT2h(θ)x0,xRdx^T\nabla^2h(\theta)x\le 0,\forall x\in \mathbb{R}^d
  • likelihood
    • 连续就是PMF换PDF

最大似然估计器

  • 费雪信息
    • 实际上实在反映我的曲线的陡峭程度(曲线越陡,最小化KL散度计算出的参数估计值和真实值之间越接近how robust my estimator be)


Eθ[l(θ)]=0E_{\theta}[\nabla\mathscr{l}(\theta)]=0

  • 一些假设

The method of Moment

斯通-魏尔斯特拉斯定理


- weierstrass approximation


- 仅对连续变量有用,要求研究范围有界,并且不知道d要算到多少阶

  • Gaussian quadrature(高斯积分)
    • 当随机变量离散的时候:由于概率和为1,我们仅需要至多r-1个参数即可描述分布
      • x矩阵是个范德蒙行列式,肯定有唯一解

method of moment

  • tip:矩阵的condition number(条件数)用于衡量对输入波动的敏感性
    • 矩阵的诱导范数(induced norm):
    • 条件数为AA1||A|| ||A^{-1}||
  • 矩方法估计器就是该函数的取逆(所以该可逆函数的性质非常重要)
    • 对该估计器的分析:

  • 两者的比较:从风险上看MLE更优,但是MLE的优化通常比较困难,尤其在目标函数非凹时。

problemset3

  • 连续变量的似然估计就是直接密度函数
  • 最大似然估计的时候不一定有导数零点
    • 双线表示指示函数,满足条件为1
  • 算KL散度:先别急着化成期望(两个期望不一定好算)
  • dirac distribution
    • δ(x)=0 except 0,and the integral is 1\delta(x)=0 \text{ except 0,and the integral is 1}
    • in distribution concept:it takes 1 in the only point of support set

problemset4

  • !!!正态分布的第二个参数是σ2\sigma^2所以费雪矩阵是对平方求导
    • 对数正态分布:令y=lnx,则有服从一般正态分布
    • 矩估计:样本矩等于理论矩
      • 这里有个矩生成函数

Parametric hypothesis testing

  • 我们只关心均值,所以我们可以做出方差和分布类型均不变的假设
  • 直接中心极限定理的缺点:均值是渐进意义上的接近,如果样本量小,有波动
  • 更好的方法是留下一个buffer(这个buffer在n接近无穷的时候接近0)在x和103.5之间
  • placbo(安慰剂)
  • Heuristics(启发式)
  • status quo:现状




  • test statistic:检验统计量(statistic:measurable function depend on data)

example:


- 实际上算T的时候应该是所有在0区间的参数的值,因为该例子中的区间中的值只有一个所以直接算的0.5
- 存在一个level为反转点(大于这个level我就reject)
- 根据我的数据来假设使p value偏大实际上违背了统计原则

some weird distribution


  • 这实际上是在使用中心极限定理(我们通常使用经验方差代替真实方差)的时候直接带真实方差(实际上可能有一个细微的差别,因为样本方差实际服从的是n-1的卡方分布)
  • e.g:
    • 计算实际参数和真实参数是否接近:直接算欧几里得范数
    • 信息几何:在费雪矩阵定义的空间(可能是一些很奇怪的弯曲的空间)上加权求距离
  • e.g:likihood ratio test
    null hypothesis:假设一部分参数为固定值
    有两个最大似然估计的估计器:仅考虑null假设、考虑全体,后者估计器的数值必定大于等于前者

test implicit hypothesis


- 随机变量服从K维标准正态分布,则其二次型服从K个自由度的卡方分布
-

  • 卡方检验

    • test:是否参数向量为某个参数向量(e.g:测试是否某个分布为均匀分布)
  • t 检验

    • 非渐进、并且可以运行在小样本上
    • 但是要求你假设你的数据本身是正态分布的

testing goodness of fit

  • 我们想要知道假设的分布是否能够很好地近似拟合数据

经验累计函数

  • 这实际上强于大数定理:可能n是一个依赖于其它参数的函数

    • 实际上B指布朗桥(当检验正态性时不能直接插入经验均值和方差)
    • 检验:是否服从正态分布:
      • ϕμ^,σ^2(x)=ϕ0,1(xμ^σ^)\phi_{\hat{\mu},\hat{\sigma}^2}(x)=\phi_{0,1}(\frac{x-\hat{\mu}}{\hat{\sigma}})
      • 然后可以换元将前一项变为1ni=1n1(xμ^σ^<u)\frac{1}{n}\sum_{i=1}^{n}\mathbb{1}(\frac{x-\hat{\mu}}{\hat{\sigma}}<u)
      • 可以同除变换证明左边不依赖我的统计数据
      • (直接查表,数值模拟)
      • 这就是KLtest:数据是否服从某未知参数的正态分布(KS是已知)
  • KS test


    • reordered:实际给你的数据不一定是按照大小排好的,我们重新排过
  • (QQ plot)检验一分布是否符合高斯:实际上主要是看它的尾部而不是均值附近
    • 可以判别左尾部和右尾部与高斯相比哪个更重(分位数映射回密度函数再比较)
  • 卡方拟合优度检验
    • 要不本身离散,要不分箱离散化分布
    • (参数维度越大,越难以逃离空间,自由度越小)

problemset6

  • 区分:单边检验和双边检验(前者绝对值小于某个阈值)
    • 检验要得到的是关于估计量的分布!!!
    • 构造检验:

      • 看清楚:到底算的是统计量的方差还是理论值

regression

linear(single)

  • trick:先X=XE[X]X^{'}=X-E[X]带进去更好算(也不好说( )
  • 若设Y=a+bx+ϵY=a+bx+\epsilon(当最小化时)
    • 则有E(ϵ)=0,Cov(x,ϵ)=0\mathbb{E(\epsilon)}=0,Cov(x,\epsilon)=0

linear(multivariate)

  • intercept:截距

  • homoscedasticity:同方差性(误差项的方差在所有的观察值中保持不变)
  • ϵ\epsilon实际上可以理解为我的观测值从真正的超平面中偏离的向量值


  • 直接将β^\hat{\beta}中的y带入真实值,可以得到估计值与真实值之间相差一个均值为0的高斯分布
  • 当误差不是独立同分布的高斯时,MLE可能会产生某些奇怪的估计器
  • 预测误差:这里复习一下线代

significance test

  • claim:对向量v,vj=vTej\vec{v},v_j=\vec{v}^T \cdot\vec{e}_j ej就是仅在j位置为1的向量
  • β^j=βj+N(0,σ2(XTX)j,j1)\hat{\beta}_j=\beta_j+N(0,\sigma^2 (X^TX)^{-1}_{j,j})

这种方法同时检验多个不太好

more test

  • claim:if X=Np(0,Σ) then XTΣ1X=χp2\text{if }X=N_p(0,\Sigma)\text{ then }X^T\Sigma^{-1}X=\chi^2_p

  • 线性回归只能展现相关性,不能说明因果关系

  • 上述均建立在我们的X矩阵为方阵(样本数和特征数相同)的前提下,此时我们可以求x与其转置乘积的逆

  • 当x的秩不是p的时候:我们的估计不唯一

    • 矩阵广义逆

high dimension

当p过大的时候:降维(假设只有一部分的系数非零)

  • AIC(赤池信息准则):倾向于准确度高的
  • BIC:倾向于简单的

上述找的是相当于矩阵的0阶范数作罚项(计算困难,非凸)
solution:b0=1{bj=0}||b||_0=\mathbb{1}\{b_j=0\}换成一阶范数(lasso estimator)

nonparametric regression

  • 回归的时候,常规的做法都是对其参数进行了一定的假设
  • idea(假设函数f是光滑的,f可以被分段常值函数很好地近似)
  • h接近于0时过拟合,无穷时欠拟合
  • 选h:如果曲率知道,根据这个来选,不知道就得cross validation了

problemset7

  • qq plot 实际上可以检验很多,常见为正态分布
  • pivitol statistic:不依赖未知参数的统计量
  • 一串独立同分布的随机变量X序列,按大小来排,各序列的概率是相等的,所以其rank变量序列与X无关
  • 所以独立变量对(R,Q)和独立变量对(R`,Q`)均独立同分布(后者为任意分布中取的n个变量的分位数)
  • 独立变量的函数也是独立的

bayesian statistics

  • 先验belief->后验belief(通过数据
  • e.g:想测试某地的人口性别比是不是1:1
    • 假设我们有90%的把握女性在0.4~0.6之间,我们可以把p建模为一个随机变量(虽然实际上的比例p不是随机变量,这只是建模方法)
    • 常见(0,1)上的分布

xβ(α,β),f(x)=xα1(1x)β101uα1(1u)β1dux\sim\beta(\alpha,\beta),f(x)=\frac{x^{\alpha-1}(1-x)^{\beta-1}}{\int_0^1u^{\alpha-1}(1-u)^{\beta-1}du}

    • 如果后验和先验是一样的分布,这叫共轭先验(conjugate prior)

bayesian rules

  • 理解:实际上后验分布只是缩放了我根据先验加权过的似然

non informative prior


  • 实际上虽然我只是给出了参数在0~1的范围,实际上蕴含着它不太可能是0或1(所以最后的分布参数有个+1)


  • 重参数化不变原则

bayesian estimate

  • 贝叶斯适合小样本,并且理论上能说参数落在这里面的概率是



problemset 8

  • 矩阵范数:自身转置乘自身求迹
  • 想清楚你求导的是矩阵还是向量
    线代复习:linear algebra