机器学习数学基础①线性代数

本文最后更新于:2022年7月24日 晚上

机器学习数学基础①线性代数

线性代数的核心问题是将一个向量空间的子空间映射到另一个向量空间的子空间, 这个过程使用过的方法叫线性变换, 而矩阵就是两个向量空间之间线性变换的表达形式

基础概念

  • 矩阵

  • 向量

  • 矩阵乘法: 点积

  • 矩阵转置

  • 逆矩阵: 两个方阵相乘结果为单位阵, 记为\(A^{-1}\),称\(A\)为可逆矩阵

  • 正交: 向量\(x\)\(y\)正交, 则\(x \cdot y=0\), 意味着垂直

  • 正交矩阵: 对于方阵\(A \in \mathbb{R}^{n \times n}\), 若有\(AA^T=I_n=A^TA\), 其中\(A^{-1}=A^T\), 意味着其转置等于其逆的矩阵, 即正交矩阵

  • 对角矩阵

  • 正定矩阵: 有\(n\times n\)实对称矩阵\(A\)和n维非零向量\(x\), 如果\(x^TAx>0\)则称\(A\)正定矩阵, 如果\(x^TAx\geqslant 0\)则称\(A\)半正定矩阵.

    正定矩阵\(A\)保证变换后的向量\(Ax\)与原向量\(x\)都位于超平面的同一侧.

重要概念

范数

向量的范数就是向量的长度或大小, 通项公式为\(||\vec x||=(\Sigma_{i=1}^{n}|x^i|^p)^{1/p}\)

在ML中常用来限制模型复杂度, 防止过拟合等

其中p为范数的阶, ML中常用两个:

  • p=1,称为一阶范数\(l_1\)范数 L1正则化, \(||\vec x||=\Sigma_{i=1}^{n}|x^i|\), 表示向量\(x\)中的各元素绝对值的和
  • p=2, 称为二阶范数\(l_2\)范数 L2正则化,\(||\vec x||=\sqrt{ \Sigma_{i=1}^{n}|x^i|^2}\), 表示向量中的元素平方和再开平方

柯西不等式

由余弦定理\(\vec a \cdot \vec b=|\vec a||\vec b|\cos \theta\)得: \[ |\vec a \cdot \vec b|\leqslant |\vec a||\vec b| \]

矩阵运算常用技巧

  1. \(A\)\(B\)是n阶方阵, 且\(A+B\)可逆, 有: \[ A(A+B)^{-1}B=B(A+B)^{-1}A \]

  2. 矩阵指数 \(A\)\(B\)是n阶方阵, 有:

    • \[ e^{A^{T}}=(e^A)^T \]

    • \(AB=BA\), 则

    \[ e^Ae^B = e^Be^A = e^{A+B} \]

张量和张量积

张量是在ML中常用的概念, 可理解为存在[标量,向量,矩阵...]等形式的一种数据结构 张量积(tensor product)又称克罗内克积(Kronecker product)

定义

\(A=(a_{ij})_{m\times n}\) , \(B\)\(p\times q\)矩阵, 张量积\(A\otimes B\)是一个\(mp\times nq\)矩阵: $$ AB =

$$

特征分解

是指将矩阵分为一组特征向量和特征值

特征向量和特征值

一个可对角化的矩阵\(A\)特征向量\(v\) 有: \[ Av= \lambda v \]

一个方阵与特征向量相乘 相当于 对特征向量进行缩放.

标量\(\lambda\)就是这个特征向量的特征值

奇异值分解(SVD)

由于特征分解要求矩阵\(A\)是一个可对角化的矩阵, 要求很高

为将特征分解进行推广, 使用的方法叫"矩阵的奇异值分解", 对于一个\(m \times n\)的矩阵\(A\): \[ A= UDV^T \] \(U\)\(m\times m\)方阵, \(D\)\(m\times n\)矩阵, \(V\)\(n\times n\)方阵

\(UV\)都是正交矩阵, \(D\)是对角矩阵, \(D\)的对角线上的元素就是矩阵\(A\)奇异值,\(U\)的列向量被称为左奇异向量, \(V\)的列向量被称为右奇异向量

距离计算

计算两个向量之间的距离, 可以反映之间的相似程度

现有两个n维变量 \[ A= [x_{11},x_{12},\dots,x_{1n}]\\ B= [x_{21},x_{22},\dots,x_{2n}] \]

1. 曼哈顿距离

表示向量对应元素的距离和 \[ d_{12} = \sum \limits _{k=1}^n |x_{1k}-x_{2k}| \]

2. 欧氏距离

就是L2范数, 表示对应元素的距离的平方和的开方 \[ d_{12} = \sqrt{\sum \limits _{k=1}^n (x_{1k}-x_{2k})^2} \]

3. 切比雪夫距离

也是无穷范数, 表示各元素上距离中的最大值 \[ d_{12} = \max (|x_{1k}-x_{2k}|) \]

4. 余弦距离

两个方向的夹角余弦取值范围为[-1,1]

夹角余弦越大,表示两个向量夹角越小; 方向重合的两个向量, 余弦值为1;方向相反时, 余弦值为-1 \[ \begin{aligned} \cos \theta&= \frac {AB}{|A||B|} \\ &= \frac {\sum \limits _{k=1}^{n}x_{1k}x_{2k}}{\sqrt {\sum \limits _{k=1}^{n}x_{1k}^2}\sqrt {\sum \limits _{k=1}^{n}x_{2k}^2}} \end{aligned} \]

5. 汉明距离

定义两个字符串中的不同位数的数目

\(e.g.\) 字符串11111001的汉明距离为2

6. 杰卡德相似系数

两个集合AB的交集元素在并集中的比例 \[ J(A,B) = \frac {|A\cap B|}{|A\cup B|} \]

7. 杰卡德距离

与杰卡德相似系数表示的内容相反 \[ J_{\sigma}=1 - J(A,B) = 1- \frac {|A\cap B|}{|A\cup B|} \]


机器学习数学基础①线性代数
https://ash-one.github.io/2022/07/24/ji-qi-xue-xi-shu-xue-ji-chu-xian-xing-dai-shu/
作者
灰一
发布于
2022年7月24日
许可协议