本篇文章1137字,读完约3分钟
来自雷锋的消息。(公开号码:雷锋。最近,fair Lab在其官方博客中指出,fasttext数据库可以用在智能手机和小型计算机上,并且内存只需要几百千字节,这充分增强了fasttext的可扩展性。
为了实现这个目标,fair Labs需要在运行时最大限度地减少fasttext模型消耗的内存。facebook的faiss团队与fasttext团队合作发表了论文“fasttext.zip:压缩文本分类模型”,该论文可以克服将模型迁移到小型存储设备的挑战。
facebook团队一直在努力提高准确性,尽可能降低计算复杂度,从而使实际应用在使用过程中更加灵活方便。在扩展机器学习的过程中,团队面临的问题是需要涉及一个通用库来解决文本分类问题。因此,快速文本应运而生,它有助于建立文本表达和分类的定量解决方案。
Fair Lab去年开放了数据库fasttext,雷以前也介绍过。
公平快速文本的实现原理已在两篇相关论文中阐述,即高效文本分类和用子词信息丰富词向量的技巧包。当时,开源数据库有很高的内存需求,通常是几千兆字节,所以它主要支持笔记本电脑和x86用户。
对于具有大量类别的数据集,fasttext使用分层分类器将不同类别集成到树结构中。结合线性和多类对数模型,可以大大减少训练时间和复杂度。利用不平衡类别的客观事实,研究人员使用哈夫曼算法建立了一个表征类别的树结构。并且根据树出现的频率,深度是不同的,这也提高了计算效率。
公平实验室使用低维向量来表征文本。高向量自然可以提高精度,但是它也消耗更多的训练时间和计算。研究表明,如果有正确的表示和足够大的语料库,即使是低维向量也能得到最好的结果。在编码期间,可以通过用于获得低维向量的传统优化方法来获得向量大小。该团队使用“单词包”来提取特征,并使用线性分类器来训练模型。由于词袋不能识别句子中的词序,高频词的概括特征不能与低频词共享,导致低频词的准确率较低。“n-gram”模型可以解决词序问题,但也会增加复杂性、时间和培训成本。快速文本部分采用“n-gram”,通过选择主题词前后的字数来平衡训练时间和准确性之间的关系。
结果表明,fasttext比目前流行的word2vec和最先进的形态词表示具有更好的性能,并且兼容多种语言。除了准确性,fasttext还具有更快的速度,比目前最好的神经网络快1000-10000倍。这是使用低级线性模型和二进制等标准函数的结果。
在与小型设备兼容之后,我相信fasttext将来可以为更多的用户服务,雷锋将继续关注它。
相关论文:
fasttext.zip:压缩文本分类模型
高效文本分类的技巧包
viafacebook
雷锋文章版权所有。严禁擅自转载。详情请参考转载说明。
来源:搜狐微门户
标题:FAIR实验室开源的 fastText 资料库,现在可以在小型设备上跑起来啦
地址:http://www.shwmhw.com/shxw/63183.html