最近自己也跟着了解学习机器学习方面知识,打算先从统计数理基础知识开始着手。已下为对微积分和概率论基础知识总结,后续将补充更深入更全面的知识总结。
微积分
函数与极限
两遍夹定理
$$\forall x \in \cup (x0,r) ,g(x)\leqslant f(x)\leqslant h(x)$$
$$\mbox{且 }\lim _{x\to x _0}g(x)=A,\lim _{x\to x _0}h(x)=A,\mbox{则 } \lim _{x\to x _0}f(x)=A$$
极限存在定理
数列单调递增(减)且有上(下)界,则该数列必有极限
$$\lim_{x\to \infty}(1+\frac{1} {x})^x=e$$
上面极限使用两遍夹定理求得
导数与积分部分
导数
一阶导数就是曲线的斜率,是曲线变化快慢的反应。而二阶导数是斜率变化的快慢的反应,表示曲线的凹凸性
求导常用的关系式
$${(u+v)}’={u}’+{v}’$$
$${uv}’={u}’{v}+{v}’{u}$$
幂指函数的一般处理策略
$$\mbox{已知幂指 }f(x) = x^x,x\gt 0,\mbox{求 }f(x) \mbox{最大值}$$
$$\mbox{设 }t = x^x,\mbox{则 } \ln t = x\ln x$$
$$\frac{1} {t} t’ = \ln x+1 \mbox{两边求导},\mbox{令 }t’ = 0,\ln x+1=0,\mbox{得 }x=e^-1,t=e^{- \frac{1} {e}}$$
泰勒Taylor公式
$$f(x)=f(x_0)+f’(x_0)(x-x_0)+\frac{f’’(x_0)} {2!} (x-x_0)^2+…+\frac{f^{n}(x_0)} {n!}(x-x_0)^n+R_n(x)$$
$R_n(x)$为函数$X$在$x_0$处的n阶段无穷小
方向导数与梯度
方法导数讨论的是二元函数 $z=f(x,y)$在一定$P$上沿着某个方向的变化率问题。
$$\frac{\partial f}{\partial x}=\lim_{\rho\to0} \frac{f(x+\Delta x,y+\Delta y)-f(x,y)} {\rho}$$
若此极限存在,称该极限为函数$z=f(x,y)$在点$p$沿方向$l$上的方向导数
关于方向导数的定理如下:
如果函数$z=f(x,y)$在点$P$上可微分,那么函数在该点的任意方向$l$的方向导数都存在,而且有:
$$\frac{\partial f} {\partial l}=\frac{\partial f} {\partial x} cos\varphi+\frac{\partial f} {\partial y}sin\varphi$$
其中$\varphi$为$x$轴正方向到射线$l$的转角
凸函数
凸函数的定义:
函数$f(x)$在区间$I$,如果对区间$I$上的任意两点$x,y$,恒有以下不等式成立:
$$f(\theta x+(1-\theta)y)\leqslant\theta f(x)+(1-\theta)f(y),\mbox{其中 }\theta\in[0,1]$$
则称$f(x)$在区间$I$上是凸的
凸函数的判定:如果$f(x)$在区间[a,b]上连续,在(a,b)内二阶可导,那么:
- 如果$f’’(x)>0$,则$f(x)$是凸的;
- 如果$f’’(x)<0$,则$f(x)$是凹的;
假如$f(x)$为凸函数,还可对上面的不等式进行拓展:$$f(\theta_1x_1+…+\theta_nx_n)\leqslant\theta_1f(x_1)+…+\theta_nf(x_n)$$
其中$\theta_i\in[0,1],\theta_1+…+\theta_n=1$
概率论
条件概率
定义:设$A,B$是两个事件,且P(A)>0,称$$P(B|A)=\frac{P(AB)} {P(A)}$$
为在事件$A$发生的条件下事件$B$发生的条件概率
乘法定理
设$P(A)>0$,则有$$P(AB)=P(B|A)P(A)$$
推广到多个事件的积事件的情况,例如,假设$A,B,C$为事件,且$P(AB)>0$,这有$$P(ABC)=P(C|AB)P(B|A)P(A)$$
全概率公式和贝叶斯公式
定义:设$S$为试验$E$的样本空间,$B_1,B_2,\cdots,B_n$为$E$的一组事件。若
- $B_i B_j=\varnothing ,i\neq j,i,j=1,2,\cdots,n$
- $B_1\cup B_2\cup\cdots\cup B_n=S$
则称$B_1,B_2,\cdots,B_n$为样本空间$S$的一个划分
若$B_1,B_2,\cdots,B_n$是样本空间$S$的一个划分,则对每次试验,事件$B_1,B_2,\cdots,B_n$中必有且仅有一个发生
定理 设试验$E$的样本空间为$S$,$A$为$E$的事件,$B_1,B_2,\cdots,B_n$为$S$的一个划分,且$P(B_i)>0(i=1,2,\cdots,n)$,则$$P(A)=P(A|B_1)P(B_1)+P(A|B_2)P(B_2)+\cdots+P(A|B_n)P(B_n)$$
称为全概率公式
定理 设试验$E$的样本空间为$S$,$A$为$S$的事件,$B_1,B_2,\cdots,B_n$为$S$的一个划分,且$P(A)>0,P(B_i)>0 (i=1,2,\cdots,n)$,则$$P(B_i|A)=\frac{P(B_i A)} {P(A)}=\frac{P(A|B_i)P(B _i)} {\sum _{i=1}^{n} P(A|B _i)P(B _i)}$$
称为贝叶斯公式
常见分布
常见分布包括:
离散型概率分布:两点分布、二项分布、泊松分布;
连续型概率分布:均匀分布、指数分布、高斯分布;
两点分布(伯努利实验)
离散分布的期望:$E(X)=1\cdot p+0\cdot (1-p)=p$
方差:$D(X)=E(X^2)-[E(X)]^2=pq$
二项分布
将伯努利试验单独重复地进行$n$次,称这一串重复的独立实验为$n$重伯努利实验。重复是指每次试验$p$保持不变;独立指的是每次试验结果互不影响。在抛$n$次硬币的试验中,令随机变量$X$表示字面朝上的次数,那么令$f(x)=P(X=x)$为概率质量函数,则:$$f(x)=\begin{cases}
& \binom{n}{x}p^x(1-p)^{n-x} ,x=0,\cdots n \
& 0,els
\end{cases}$$
如果某一随机变量的概率质量函数如上式所述,那么我们称这类随机变量为二项分布随机变量,可以表示为$X\sim Binomial(n,p)$,即随机变量$X$服从参数为(n,p)二项分布。
二项分布的期望:
$$E(X)=\sum _{k=0}^{n}k\cdot p(X=x)=\sum _{k=0}^{n}k\cdot \binom{n}{x}p^x(1-p)^{n-x} \\ =\sum _{k=0}^{n}k\cdot \frac{n!} {k!(n-k)!}p^k (1-p)^{n-k}=np\sum _{k=1}^{n}\cdot \frac{(n-1)!} {(k-1)!(n-k)!}p^{k-1}(1-p)^{n-k}$$
设$a=k-1,b=n-1$,那么$$=np\sum _{a=0}^{b}\frac{b!} {a!(b-a)!}p^a(1-p)^{b-a}=np\sum _{a=0}^{b}\binom{b}{a}p^a(1-p)^{b-a}=np$$
泊松分布
如果试验次数n很大,二项分布的概率p很小,且乘积λ= np比较适中,则事件出现的次数的概率可以用泊松分布来逼近。事实上,二项分布可以看作泊松分布在离散时间上的对应物。
回顾$e$的定义:$$\lim_{n\to\infty}(1-\frac{\lambda} {n})^n=e^{-\lambda}$$
此定义由上文推导得来。
二项分布定义:$$P(X=k)= \binom{n}{x}p^x(1-p)^{n-x}$$
如果令$p=\frac{\lambda} {n}$,$n$趋于无穷时$P$的极限:
$$\lim _{n\to\infty}P(X=k)=\lim _{n\to\infty}\binom{n}{k}p^x(1-p)^{n-x}=\lim _{n\to\infty}\frac{n!}{(n-k)!k!}\left(\frac{\lambda}{n}\right)^k\left(1-\frac{\lambda}{n}\right)^{n-k}\\ =\lim _{n\to\infty}\left[\frac{n!}{n^k(n-k)!}\right]\left(\frac{\lambda^k}{k!}\right)\left(1-\frac{\lambda}{n}\right)^n\left(1-\frac{\lambda}{n}\right)^{-k}\\ =\lim _{n\to\infty}\left[\left(1-\frac{1}{n}\right)\left(1-\frac{2}{n}\right)\cdots\left(1-\frac{k-1}{n}\right)\right]\left(\frac{\lambda^k}{k!}\right)\cdot e^{-\lambda}\cdot 1\ =\left(\frac{\lambda ^k}{k!}\right)\cdot e^{-\lambda}$$
泊松分布期望推导:
回顾泰勒公式,将函数$e^x$在$x$处的泰勒公式展开:$$e^x=1+x+\frac{x^2}{2!}+\cdots+\frac{x^k}{k!}+R _k$$
式子两侧同事乘以$e^{-x}$,可以得到:$$1=1\cdot e^{-x}+x\cdot e^{-x}+\frac{x^2}{2!}\cdot e^{-x}+\cdots+\frac{x^k}{k!}\cdot e^{-x}+R _k\cdot e^{-x}$$
如此可以看出,上面展开式右侧每一项的$\frac{x^k}{k!}\cdot e^{-x}$就是上文泊松分布的概率质量函数,只不过此处$x=\lambda$,接下来使用上述结论推导期望:
设$X \sim \pi (x)$,则概率质量函数为:$$P(X=k)=\frac{\lambda ^k}{k!}\cdot e^{-\lambda}$$
则有期望:$$E(X)=\sum _{k=0}^{\infty}k\cdot \frac{\lambda ^k}{k!}\cdot e^{-\lambda}=\lambda\sum _{k=1}^{\infty}(\frac{\lambda ^{k-1}}{(k-1)!}e^{-\lambda})=\lambda\cdot 1=\lambda$$
推导方差:$$E(X^2)=E[X(X-1)+X]=\sum _{k=0}^{+\infty}k(k-1)\cdot \frac{\lambda ^k}{k!}e^{-\lambda}+\lambda\\ =\lambda^2e^{-\lambda}\sum _{k=2}^{+\infty}\cdot\frac{\lambda^{k-2}}{(k-2)!}+\lambda=\lambda^2e^{-\lambda}e^\lambda+\lambda=\lambda^2+\lambda$$$$D(X)=E(X^2)-[E(X)]^2=\lambda$$
泊松定理
设$\lambda >0$是一个常数,$n$是任意一个正整数,设$np _n=\lambda$(在二项分布(n,p)中p即为$p _n$),则对于任一固定的非负整数$k$,有:$$\lim _{n\to\infty}\binom{n}{k}p _n^k(1-p _n)^{n-k}=\frac{\lambda^k}{k!}\cdot e^{-\lambda}$$
定理的条件 $np _n=\lambda$(常数)意味当n很大时 $p _n$ 必然很小,因此,上述定理表明当n很大且p很小时有以下近似值:
$$ \binom{n}{k}p^k(1-p)^{n-k}\approx \frac{\lambda^k}{k!}\cdot e^{-\lambda} $$
也就是说已n,p为参数的二项分布的概率值可以由参数为 $ \lambda=np $ 的泊松分布的概率值来近似。当然这必须满足一定的条件:n很大且p很小。
均匀分布
设$X\sim U(a,b)$,其概率密度为:$$f(x)=\begin{cases}
& \frac{1}{b-a} ,a<x<b, \\
& 0, els
\end{cases}$$那么可以得到$$E(X)=\int _{-\infty}^{+\infty}xf(x)dx=\int _{a}^{b}x\cdot \frac{1}{b-a}dx=\frac{1}{2}(a+b)$$
方差$$D(X)=E(X^2)-[E(X)]^2=\int _{a}^{b}x^2\cdot \frac{1}{b-a}dx-[\frac{1}{2}(a+b)]^2=\frac{(b-a)^2}{12}$$
指数分布
假设随机变量$X$服从指数分布,它的概率密度函数可以写成两种形式:
$$f(x)=\begin{cases}& \frac{1}{\theta}e^{-\frac{x}{\theta}} ,x>0, \\ & 0, x\leqslant 0 .\end{cases} \mbox{其中 }\theta>0 and f(x)=\begin{cases}&\lambda e^{-\lambda x} ,x>0, \\ & 0, x\leqslant 0 .\end{cases} \mbox{其中 }\lambda>0 $$
其中$\lambda >0 $被称为率参数,即每个单位时间内发生某事件的次数。简单记为:$X\sim Exponential(\lambda) \mbox{或 }X\sim E(\lambda)$
无后效性是指数分布的特征。
正态分布
正态分布又称为高斯分布,在机器学习领域正态分布使用得非常广泛。
设$\mu$是常数,$\sigma$是正常数,如果$X$的密度是
$$f(x)=\frac{1}{\sqrt{2\pi\sigma^2}}e\left(-\frac{(x-\mu)^2}{2\sigma^2}\right),x\in R$$
就称$X$服从参数为$(\mu,\sigma)$的正态分布,记作$X\sim N(\mu,\sigma)$。这里N为Normal的缩写
特别的,当$X\sim N(0,1)$时,称$X$服从标准正态分布,标准正态分布的密度函数有特殊的地位,所以用一个特定的符号$\varphi$表示:
$$\varphi(x)=\frac{1}{\sqrt{2\pi}}e\left(-\frac{x^2}{2}\right),x\in R$$
正态分布的密度特点:
- 参数$\mu$是密度的中心和最大值点,密度在$\mu$两侧对称;
- 参数$\sigma$代表密度的宽度,$\varphi$越大密度越宽。
资料
- 《高等数学》同济大学
- 《概率统计讲义》 何书元
- 三月机器学习在线班第一课 @frank-shaw
以上公式在Markdown中采用LaTeX排版,可以在以下获取帮助
- The LATEX Project 官网
- ShareLaTeX 在线编辑器
- 简易编辑器
Hexo对LaTeX的支持参考
温馨提示 :多行公式中 \\ 换成 \\\\ 才有效