FAIR实验室开源的 fastText 资料库，现在可以在小型设备上跑起来啦-搜狐微门户

本篇文章1137字，读完约3分钟

来自雷锋的消息。(公开号码:雷锋。最近，fair Lab在其官方博客中指出，fasttext数据库可以用在智能手机和小型计算机上，并且内存只需要几百千字节，这充分增强了fasttext的可扩展性。

为了实现这个目标，fair Labs需要在运行时最大限度地减少fasttext模型消耗的内存。facebook的faiss团队与fasttext团队合作发表了论文“fasttext.zip:压缩文本分类模型”，该论文可以克服将模型迁移到小型存储设备的挑战。

facebook团队一直在努力提高准确性，尽可能降低计算复杂度，从而使实际应用在使用过程中更加灵活方便。在扩展机器学习的过程中，团队面临的问题是需要涉及一个通用库来解决文本分类问题。因此，快速文本应运而生，它有助于建立文本表达和分类的定量解决方案。

Fair Lab去年开放了数据库fasttext，雷以前也介绍过。

公平快速文本的实现原理已在两篇相关论文中阐述，即高效文本分类和用子词信息丰富词向量的技巧包。当时，开源数据库有很高的内存需求，通常是几千兆字节，所以它主要支持笔记本电脑和x86用户。

对于具有大量类别的数据集，fasttext使用分层分类器将不同类别集成到树结构中。结合线性和多类对数模型，可以大大减少训练时间和复杂度。利用不平衡类别的客观事实，研究人员使用哈夫曼算法建立了一个表征类别的树结构。并且根据树出现的频率，深度是不同的，这也提高了计算效率。

公平实验室使用低维向量来表征文本。高向量自然可以提高精度，但是它也消耗更多的训练时间和计算。研究表明，如果有正确的表示和足够大的语料库，即使是低维向量也能得到最好的结果。在编码期间，可以通过用于获得低维向量的传统优化方法来获得向量大小。该团队使用“单词包”来提取特征，并使用线性分类器来训练模型。由于词袋不能识别句子中的词序，高频词的概括特征不能与低频词共享，导致低频词的准确率较低。“n-gram”模型可以解决词序问题，但也会增加复杂性、时间和培训成本。快速文本部分采用“n-gram”，通过选择主题词前后的字数来平衡训练时间和准确性之间的关系。

FAIR实验室开源的 fastText 资料库，现在可以在小型设备上跑起来啦

结果表明，fasttext比目前流行的word2vec和最先进的形态词表示具有更好的性能，并且兼容多种语言。除了准确性，fasttext还具有更快的速度，比目前最好的神经网络快1000-10000倍。这是使用低级线性模型和二进制等标准函数的结果。

在与小型设备兼容之后，我相信fasttext将来可以为更多的用户服务，雷锋将继续关注它。

FAIR实验室开源的 fastText 资料库，现在可以在小型设备上跑起来啦

相关推荐

临床试验是什么？参加临床试验的风险与收益？

75英寸屏幕版本小米电视5定档3月13日售价7999元起

“Android Q迎来正式发布前的最后一个Beta版本”

腾讯或牵手永辉接盘家乐福中国市场

朋友圈奥迪广告竟错放英菲尼迪宣传片微信致歉！朋友圈广告价格意外曝光

中国5G让美国心塞特朗普政府要建“国有化”5G?

途牛首席财务官将于5月底离职今年以来已有两位高管卸任

二级造价师题型及难度-题乐宝www.tilebao.com

台湾科研人员在尖端晶体材料开发上取得突破

阿里云国际版免实名账户哪里购买：阿里云国际版注册教程

本月热文

阿里云账号代购，阿里云购买相同配置的实例

挑选太仓SMT智能料架公司，绝不踩雷的方法！_佰斯特POUSTO

win10全屏优化会让游戏卡吗_win10全屏优化会让游戏卡吗

阿里云国际服务器购买，阿里云国际代理商

国际版阿里云/腾讯云：免费账号：运用邮箱注册的账号、充值教程

加盟儿童美术教育的投资人要符合哪些条件呢

win10优化开机启动项_win10如何优化开机启动项

win7运行速度提高90pedit_

win10自带清理软件_win10清理软件哪个好

阿里云国际账号24h自助充，阿里云服务器购买

最新发布

when是什么意思_when是什么意思英语

wf展会2022上海_wf展会2022上海延期

ween是什么牌子_ween是什么牌子衣服

ween是什么公司_WeEn是什么公司

电厂工地洗车机是如何进行水循环使用的？

web问如何优化网站_web网页优化

保持防静电贯通式货架高效安全的秘诀_佰斯特POUSTO

阿里云服务器购买，阿里云账号免实名注册

阿里云国际服务器购买，阿里云免实名注册

阿里云国际账号免实名注册，阿里云服务器购买

网站简介