Vago Mundo

尘世闲游,听凭风引

    常用降维方法的总结

    在NLP等易发生维数爆炸(curse of dimensionality)的情景下,对数据降维则成为一个重要的环节。在《Text Classifification Algorithms: A Survey》中,作者提及了面对文本分类维数过大的情况下,常用的降维方法。这些降维方法显然能用于其余任务,具有普适性,故笔者在这里进行整理。 成分分析 成分分析分为主成分分析 (PCA)和独立成分分...

    XGBoost:A Scalable Tree Boosting System(2)

    实现部分

    承接XGBoost:A Scalable Tree Boosting System(1),在讲完基本的算法后,本文将重点介绍XGBoost的系统实现。 并行学习的Column Block 树学习中最耗时的一步其实是给定数据集对某一特征进行排序。XGBoost为了节省排序时间,将数据放在被称作”块“的内存单元中。块中的数据按照列压缩格式(CSC)进行存储,且每一列都已经排序好了。这样,我们...

    XGBoost:A Scalable Tree Boosting System(1)

    算法部分

    原文:2939672.2939785 (acm.org). 引入 提升树 (Tree boosting)是一种高效的集成学习方法。在这篇文章中,作者陈天奇等人提出了一个可伸缩的、端到端的提升树系统,也就是XGBoost。XGBoost在很多机器学习领域的挑战性任务中取得了最好的效果 (state of art)。此外,他们分别提出了基于稀疏数据的稀疏优化算法,以及用于近似树学习的weig...

    将GBDT应用到分类任务

    推导、实现与分析

    在从残差逼近到GBDT中,我们说到用GBDT方法将弱回归器集成为强回归器。但我们是否能将该方法应用到分类中呢,答案是肯定的。本文的目的便是将残差逼近与GBDT的方法拓展到分类问题上来。 二分类情形 我们这里进行一段不是很严谨的推理。考虑线性回归模型: \[y=\pmb w^T\pmb x+b\tag{1}\] 与之对应的线性二分类模型是对率回归模型: \[p(y=1\vert\pm...

    在线学习简介

    遗憾界与相关算法

    在机器学习中,存在这样一种情景,即数据集不是提前给定的,而是随着时间不断增加 (stream data)。以分类问题为例,该情景不断重复下面的循环: 学习器得到数据$\pmb x$; 学习器预测标签$\hat{y}$; 学习器得到$\pmb x$对应的真实标签$y$。 一个经典的例子是天气预报,$\pmb x$对应此时的观测,$\hat{y}$表示对天气的预报,而$y$是...

    从残差逼近到GBDT

    推导、实验与解释

    本文主要介绍残差逼近——一种集成学习手段,以及如何从残差毕竟推导到梯度提升。 残差逼近 考虑一元回归问题,训练集大小为2,也就是$(\pmb x_1,y_1)$和$(\pmb x_2,y_2)$,设$y_1=1$,$y_2=10$。我们用一个弱学习器,学习并预测,得到$\hat{y}_1=\hat{y}_2=5$,显然弱学习器的学习结果与目标值间存在差距。这时考虑再用弱学习器学习数据的残...

    LIBLINEAR解读

    总结

    LIBLINEAR是一个用于大规模线性分类的开源库,它支持逻辑回归和线性支持向量机。与LIBSVM相比,LIBLINEAR支持更多的模型,更大的数据和更快的训练速度,但它取消了LIBSVM中对核函数的支持,从而达到提升运行速度的目的。 LIBLINEAR支持的模型 LIBLINEAR目前有12种模型,分别是Crammer-Singer多分类模型、单类SVM对偶模型,以及下表的10种模型:...

    卷积神经网络的反向传播

    卷积与池化的求导推导

    前篇:https://welts.xyz/2021/08/22/cnn/,https://welts.xyz/2021/08/22/code_cnn/. 我们在前面对卷积神经网络进行了综述,同时对卷积和池化进行探究。我们列举了几种卷积核,当它们作用于图片时,会有不同的效果。但在真正的CNN中,卷积核(或者说卷积核的参数)和全连接层的偏置与权重一样,都是在不断变化的。也就是说,卷积层与池化层...

    有限假设空间下的样本复杂度

    可分情形与不可分情形

    引入 样本复杂度是满足PAC学习算法$\mathfrak{L}$所需的$m\geq\text{poly}(\frac1\epsilon,\frac1\delta,\text{size}(\pmb x),\text{size}(c))$的最小的$m$,称其为算法$\mathfrak{L}$的样本复杂度。关于PAC学习的一些基本定义,比如PAC辨识、PAC可学、PAC学习算法等概念,由于网上资...

    LIBLINEAR中的多分类

    Crammer-Singer方法

    引入 SVM在最开始是二分类器,因此如何将其扩展到多分类问题是很重要的。较为简单和常用的方法是“一对一”和“一对多”方法,这也是很多机器学习的初学者最早接触到的方法。在刘志刚等人的《支持向量机在多类分类问题中的推广》对多分类方法进行了总结,文中指出,多分类SVM大致分为两类: 通过某种方式构造一系列的两类分类器并将它们组合在一起来实现多类分类; 将多个分类面的参数求解合并到一个...