数据科学与工程算法基础1-7章

MorphLing 10月 31, 2021

1 绪论

混淆矩阵

预测\真实	正例	负例
正例	TP	FP
负例	FN	TN

召回率$R=\frac{TP}{TP+FN}$

准确率$P=\frac{TP}{TP+FP}$

$F_\beta=\frac{(\beta^2+1)PR}{\beta^2P+R}$

回归问题

平均绝对误差$MAE$

均方误差$MSE$

均方根误差$RMSE$

2 抽样算法

系统抽样

直线等距抽样
圆形等距抽样

特点：简便、均匀、潜在分层，但会有偏差，误差计算复杂

分层抽样

样本量分配方法：

等额样本法
按比例分配法

水库抽样

分布是水库抽样算法

3 尾概率不等式

Markov

$P(X\geqslant a)\leqslant\frac{E(X)}{a}$

Chebyshev

$P(|X-E(X)|\geqslant \epsilon)\leqslant \frac{Var(X)}{\epsilon^2}$

Chernoff

$P(X<(1-\delta)\mu)<(\frac{e^{-\delta}}{(1-\delta)^{1-\delta}})^\mu$

$P(X>(1+\delta)\mu)<(\frac{e^\delta}{(1+\delta)^{1+\delta}})^\mu$

推论

$P(X<(1-\delta)\mu)<e^{-\frac{\mu\delta^2}{2}}$

$P(X>(1+\delta)\mu)<e^{-\frac{\mu\delta^2}{3}}$

Moris

以$1/2^X$的概率更新X的值为X+1，返回近似估计值$2^X-1$

是无偏估计（归纳法证明）

方差$Var(2^{X_N}-1)\simeq \frac{1}{2}N^2$

Moris+

对多次Moris算法取平均值

对n个数取均值，方差被减小到$O(N^2/n)$

当$n\geqslant O(1/(\delta\epsilon^2))$，$P(|\hat N-N|>\epsilon N)<\delta$（由Chebyshev不等式证）

Moris++

运行$t=ln(1/\delta)$次Moris+算法，每个Moris+算法由$n=1/\epsilon^2$构成，取n次Moris+算法结果的中位数

当$n=O(1/\epsilon^2)$，$P(|\hat{N_i}-N|>\epsilon N)<\frac{1}{2n\epsilon^2}<\frac{1}{3}$（Chebyshev）

指示变量$Y_i=1$表示Moris+算法失败，则$E(Y_i)=P(Y_i=1)<\frac{1}{3}$

算法至少失败t/2次时Moris++算法失败，$P(\sum Y_i>\frac{t}{2})= P(\sum Y_i>(1+\frac{1}{2})\frac{t}{3})\leqslant P(\sum Y_i>(1+\frac{1}{2})\mu)\leqslant exp(-\mu(\frac{1}{2})^2/4)<\delta$（Chernoff）

即$\mu\geqslant 16\ln\frac{1}{\delta}$，$\frac{t}{3}\geqslant \mu\geqslant 16\ln\frac{1}{\delta}$

有$t=O(\ln(1/\delta))$

4 哈希算法

布隆过滤器

参数m（数组位数），k（哈希函数个数）

误判率分析：

任意一次哈希没有选中某位的概率$1-\frac{1}{m}$
插入一个元素需要被哈希k次，k次哈希后某位置没有被置为1的概率$(1-\frac{1}{m})^k$
插入n个元素后，某位仍然为0的概率$(1-\frac{1}{m})^{kn}\simeq e^{-\frac{kn}{m}}$
某个元素经过k个哈希函数哈希后，对应的k个位置恰好都被置为1才会发生误判，则误判率为$(1-e^{-\frac{kn}{m}})^k$
令$\rho=e^{-\frac{kn}{m}}=\frac{1}{2}$时误判率最小，此时$k=\ln2\cdot \frac{m}{n}$

局部敏感哈希

Jaccard相似度
最小哈希

基于最小哈希签名矩阵的相似度（最小哈希值相同的比例即为相似度）
局部敏感哈希

两个元素被映射到同一个桶的概率是$(1-s^r)^b$，s：Jaccard相似度，r：行数，b：组数

5 Sketch算法

Misra Gries

可能会出现误报，但不会漏报，且无法知晓每个元素的频数

Count Sketch

简单抽样算法

数据流大小m，抽样后的数据流大小为M，$p=M/m$，元素到达时以p概率更新$c_i$，估计频数为$c_i/p$
Basic Count Sketch

哈希函数$h(\cdot)$将元素均匀映射到k个位置，哈希函数$g(\cdot)$将n个元素映射为-1或+1，对于信道大的元素，将其位置上计数+1或-1，元素a的估计频数为$g(a)C[h(a)]$

$E(\hat{f_a})=0,Var(\hat{f_a})=\frac{1}{k}(\sum_if_i^2-f_a^2)=\frac{||f_{-a}||_2^2}{k}$（用$Var(X)=E(X^2)-E(X)^2$算，最后用了个很奇怪的符号）

$P(|\hat{f_a}-f_a|\geqslant \epsilon||f||_2)\leqslant P(|\hat{f_a}-f_a|\geqslant\epsilon||f_{-a}||_2)\leqslant \frac{Var(\hat{f_a})}{\epsilon^2||f_{-a}||_2^2}=\frac{1}{k\epsilon^2}<\delta$

因此，需要$k=O(1/\epsilon^2\delta)$，使得偏离值超过$\epsilon||f||_2$的概率小于$\delta$
Count Sketch

t次Basic Count Sketch算法取中位数，运用Tug of War

$k=O(\ln(1/\delta)/\epsilon^2)$，证明类似Moris++
Count-Min Sketch

CM Sketch算法中$c_i$严格为正，估计频率返回d个哈希表中的最小值

分析得计数器个数$M=O(\frac{\ln(1/\delta)}{\epsilon})$

6 EM算法

最大似然估计

概统学过了不看了

EM算法

不考不看了

7 随机游走

随机过程

与时间t有关的一个随机变量序列

马尔可夫过程

已知时刻t=n所处状态得条件下，过程在t=n+1时刻得状态与t<n之前的状态无关

若时间集合和状态空间离散，则称为马尔科夫链

转移概率矩阵

矩阵行和为1，列和不一定为1，每个位置上的值[0,1]

平稳分布

存在条件：满足不可约和反周期性质

不可约

若马氏链中任意两个状态都是连通的，则称该马氏链不可约

反周期

若所有状态的周期均为1，则称该马氏链是反周期的

状态x的周期是经过该状态所有环的长度的最大公约数