Distributions Derived From the Normal Distribution

some distribution

inflection point:拐点 bell curve:正态曲线
moment generating function:矩生成函数
- 矩生成函数可用于计算分布的矩：关于 0 的第n个矩是矩生成函数的第n阶导数，在 0 处求值。(另一种对概率分布的描述)
- - 矩可以视为(moving to average)

chi-square distribution(卡方分布)

gamma distribution:描述的是等待n个事件发生的时间之和
( $Y=\sum^n_{i=0} X_i$ )，记为( $Y\sim Gamma(\alpha ,\lambda)$ )前者为事件次数，后者为单位时间内的的发生率

student’s t distribution

自由度为r的t分布，当k<r时，积分收敛，k次矩存在(重尾性)
T的矩生成函数除了在0均不存在

F distribution

Statistics from Normal Samples

n个正态分布的随机变量中取样出来仍服从正态分布:利用MGF 即可证明
why 样本方差是除以1/(n-1):
- 最简单的原因，是因为因为均值已经用了n个数的平均来做估计在求方差时，只有(n-1)个数和均值信息是不相关的。而你的第ｎ个数已经可以由前(n-1)个数和均值　来唯一确定，实际上没有信息量。所以在计算方差时，只除以(n-1)(无偏估计)
证明思路(该情况下不相关等价于独立)
证法(联合MGF分解为分别的MGF乘积)
证明:从已知的分布出发(n个标准正态分布的平方和)

以上为sp15内容(没video还是太吃操作了)

Introduction to Statistics

统计与建模
大数定理告诉我们:当实验的次数足够的多的时候，对每次实验结果的随即变量求均值将可由正态分布极好得近似
asymptotic confidence interval (渐进置信区间)
霍夫丁不等式

不同类型的收敛

(几乎处处收敛和依据条件收敛)
( $L_p$ 收敛和分布收敛)
分布收敛的等价表述
几种收敛的强弱比较(a.s:几乎必然收敛almost surely convergence)
另一个例子
- delta 方法
- Slutsky’s theorem

problemset1

马尔可夫不等式
problem1
- 凑中心极限定理那个分布

Parametric Inference

样本数的限制:需要假设以限制模型在一个看似合理的子空间

statistic models
- 有限参数即可描述的模型:参数化模型
- 样本空间的取值范围中不能含有要估计的参数(均匀分布,在实验之前应该是所有可能的值)
identification
injective:单射
parameter estimation
confidence interval
strongly consistent:强一致性(as收敛),弱一致就是概率收敛

problemset2

consistent estimater(一致估计量):就是按那4种收敛过去
对n重伯努利的p(1-p)的无偏估计:
- 直接用 $\bar{X_n}(1-\bar{X_n})$ ,估算出来有偏差 $-\frac{p(1-p)}{n}$ 所以将其缩放为n/n-1倍
quantile:就是标准正态分布下概率为多少的值(0.95的约为1.96，意思就是负无穷到1.96的概率累积函数值为.95)
$M_n=max(x_i),p(M_n\le t)={\frac{t}{\theta}}^n$

Maximum Likelihood Estimation

total variation distance

- 一些性质(类似线代里面的广义向量、满足这些就算距离)
- 连续的就是差的绝对值积分
- A是全集的一个子集!!!

- 一种利用该距离搜索最优参数的方法,建立估计器并最小化(老问题，真实参数不知道算不了)

KL divergence

- 由KL散度建立的估计器

- definiteness so the minimizer is unique from p to KL
- identities so unique from $\theta$ to KL
- 期望的分布(概率)仅仅决定了采样方式，与被采样的数据无关

- intuition:就是在得到一些观测值之后最大化这些观测值在曲线(密度)上的概率值

concave:凹函数(二阶导小于零)
多维情况: $x^T\nabla^2h(\theta)x\le 0,\forall x\in \mathbb{R}^d$
likelihood
- 连续就是PMF换PDF

最大似然估计器

费雪信息
- 实际上实在反映我的曲线的陡峭程度(曲线越陡,最小化KL散度计算出的参数估计值和真实值之间越接近how robust my estimator be)

$E_{\theta}[\nabla\mathscr{l}(\theta)]=0$

一些假设

The method of Moment

斯通-魏尔斯特拉斯定理

- weierstrass approximation

- 仅对连续变量有用,要求研究范围有界,并且不知道d要算到多少阶

Gaussian quadrature(高斯积分)
- 当随机变量离散的时候:由于概率和为1,我们仅需要至多r-1个参数即可描述分布
  - x矩阵是个范德蒙行列式,肯定有唯一解

method of moment

tip:矩阵的condition number(条件数)用于衡量对输入波动的敏感性
- 矩阵的诱导范数(induced norm):
- 条件数为 $||A|| ||A^{-1}||$
矩方法估计器就是该函数的取逆(所以该可逆函数的性质非常重要)
- 对该估计器的分析:
两者的比较:从风险上看MLE更优，但是MLE的优化通常比较困难,尤其在目标函数非凹时。

problemset3

连续变量的似然估计就是直接密度函数
最大似然估计的时候不一定有导数零点
- 双线表示指示函数,满足条件为1
算KL散度:先别急着化成期望(两个期望不一定好算)
dirac distribution
- $\delta(x)=0 \text{ except 0,and the integral is 1}$
- in distribution concept:it takes 1 in the only point of support set

problemset4

!!!正态分布的第二个参数是 $\sigma^2$ 所以费雪矩阵是对平方求导
- 对数正态分布:令y=lnx,则有服从一般正态分布
- 矩估计:样本矩等于理论矩
- - 这里有个矩生成函数

Parametric hypothesis testing

我们只关心均值,所以我们可以做出方差和分布类型均不变的假设
直接中心极限定理的缺点:均值是渐进意义上的接近,如果样本量小,有波动
更好的方法是留下一个buffer(这个buffer在n接近无穷的时候接近0)在x和103.5之间
placbo(安慰剂)
Heuristics(启发式)
status quo:现状

test statistic:检验统计量(statistic:measurable function depend on data)

example:

- 实际上算T的时候应该是所有在0区间的参数的值,因为该例子中的区间中的值只有一个所以直接算的0.5
- 存在一个level为反转点(大于这个level我就reject)
- 根据我的数据来假设使p value偏大实际上违背了统计原则

some weird distribution

这实际上是在使用中心极限定理(我们通常使用经验方差代替真实方差)的时候直接带真实方差(实际上可能有一个细微的差别,因为样本方差实际服从的是n-1的卡方分布)
e.g:
- 计算实际参数和真实参数是否接近:直接算欧几里得范数
- 信息几何:在费雪矩阵定义的空间(可能是一些很奇怪的弯曲的空间)上加权求距离
e.g:likihood ratio test
null hypothesis:假设一部分参数为固定值
有两个最大似然估计的估计器:仅考虑null假设、考虑全体,后者估计器的数值必定大于等于前者

test implicit hypothesis

- 随机变量服从K维标准正态分布,则其二次型服从K个自由度的卡方分布
-

卡方检验
- test:是否参数向量为某个参数向量(e.g:测试是否某个分布为均匀分布)
t 检验
- 非渐进、并且可以运行在小样本上
- 但是要求你假设你的数据本身是正态分布的

testing goodness of fit

我们想要知道假设的分布是否能够很好地近似拟合数据

经验累计函数

这实际上强于大数定理:可能n是一个依赖于其它参数的函数
- 实际上B指布朗桥(当检验正态性时不能直接插入经验均值和方差)
- 检验:是否服从正态分布:
  - $\phi_{\hat{\mu},\hat{\sigma}^2}(x)=\phi_{0,1}(\frac{x-\hat{\mu}}{\hat{\sigma}})$
  - 然后可以换元将前一项变为 $\frac{1}{n}\sum_{i=1}^{n}\mathbb{1}(\frac{x-\hat{\mu}}{\hat{\sigma}}<u)$
  - 可以同除变换证明左边不依赖我的统计数据
  - (直接查表,数值模拟)
  - 这就是KLtest:数据是否服从某未知参数的正态分布(KS是已知)
KS test
- reordered:实际给你的数据不一定是按照大小排好的,我们重新排过
(QQ plot)检验一分布是否符合高斯:实际上主要是看它的尾部而不是均值附近
- 可以判别左尾部和右尾部与高斯相比哪个更重(分位数映射回密度函数再比较)
卡方拟合优度检验
- 要不本身离散,要不分箱离散化分布
- (参数维度越大,越难以逃离空间,自由度越小)