1. 逻辑回归
目录逻辑回归简介应用场景数学知识逻辑回归原理逻辑回归API函数和案例分类问题评估混淆矩阵、精确率、召回率、F1-score、AUC指标、ROC曲线电信客户流失预测案例1️⃣ 定义逻辑回归是有监督学习有特征、有标签且标签是离散的虽然有回归两个字但它做的不是回归而是做分类2️⃣ 应用场景逻辑回归适用于二分类(也可以做多分类但不推荐)原理数据得到线性回归的处理会得到一个预测值把预测值传给Sigmoid这样一个激活函数(也叫S形函数因为预测后的值比较像一个S)它会帮忙算出概率算出概率后会基于自己定义的阈值决定是A还是B。3️⃣ 总结将线性处理后的映射值给到激活函数它会将这个值映射到[0 1]这个概率区间结合自定义的阈值进行分类这个阈值是A类则是B类。混淆矩阵(真True、False假、Positive正例、Negative反例)真实值的正反例(竖着的)、预测值的正反例(横着的)对于真实值是正例、预测值也是正例的值称为真正例(TP)真实值是反例、但是预测成正例 的值称为伪正例(FP)真实值是假例、预测的也是假例 称为真反例(TN)真实值是正例、但预测反了 称为伪反例(FN)精确率 tp/(tpfb)、召回 tp/(tpfn)…1.1 逻辑回归的sigmoid激活函数sigmoid函数称为激活函数又叫S型函数因为映射后的线是S型(如图)概率值在[0, 1]区间假设阈值时0.5即只要0.5在上半段的区间称为正样本0.5的在下半段区间称为负样本原公式和求导后的公式如图1.2 概率联合概率指两个或多个随机变量同时发生的概率这多个随机变量之间没有关系PA0.7周1早上周2早上同时堵车的概率PAPB0.70.70.49条件概率表示事件A在另外一个事件B已经发生条件下的发生概率(AB同时发生)P(A|B)PA0.7周1早上堵车的情况下中午再堵车的概率PB|A0.70.30.21联合概率和条件概率都是概率相乘1.3 极大似然估计定义根据抽取的样本的分布来预测整体数据的分布推导过程假设正面概率是θ则反面概率是(1-θ)上面六次的结果是相互独立的属于联合概率结果相乘四次正面即4个θ相乘两个反面即2个(1-θ)相乘再将两者结果相乘即为θ⌃4 * (1-θ)⌃2对θ求值即对公式求极值令其导数为0公式求导对公式θ⌃4 * (1-θ)⌃2求导可看成是(A * B)的导数、且B是个复杂函数A * B(复杂)AB A*B AB A*(B复杂函数先外后内)。最后结果是θ⌃3 * (1-θ)(4-6θ)0θ结果有三个值取2/31.4 对数函数2. 逻辑回归原理3. 损失函数为什么说将最大化问题转为最小化问题极大似然指的是最大的概率但求损失函数时是值越小越好求最小值所以可以对极大似然估计的极大值求负值。即先推理出极大似然估计的极大值再求其负数上图H(L)公式求的是最大似然估计所以可以对它前面加符号取其负数从最大值变为最小值逻辑回归 损失函数 负的极大似然估计4. 总结逻辑回归原理解决分类问题把线性回归的输出作为逻辑回归的输入逻辑回归的损失函数即为对数似然损失就是对数最大值的负数形式图中Loss(L)公式就是 极大似然估计再求负数