本篇文章2858字,读完约7分钟
据雷锋介绍,深度学习的出现使自然语言处理技术有了很大的突破,但总的来说,自然语言处理在浅层特征提取和分类方面已经成熟,深层语义理解是当前的研究热点。目前,自然语言处理技术在文本处理中的主要应用包括智能搜索引擎、机器翻译、文档摘要自动生成、文本分类等。主要有智能客服、多媒体信息提取和语音文本转换。
与此同时,国内创业公司在nlp领域继续探索其商业化。2012年成立的nlp技术供应商Bolson Data就是这样一个例子。到目前为止,该公司已经找到了一个重点产品:冯宝,据该公司首席技术官赵迎宾说,该公司现在有一个相对健康的现金流。
据赵迎宾介绍,冯宝是一个基于nlp技术的企业智能系统。通过收集大量的政府公共信息和媒体信息包括工商、诉讼、税收、行政处罚等。在整个网络中,nlp技术被用来从不同角度探索实体之间的关系,为企业提供风险控制和智能分析。“在企业智能行业,冯宝相当于百度,是一个收集信息的渠道。”赵迎宾告诉雷锋。通过nlp技术,Wind Report可以帮助企业和个人在海量信息中挖掘有效信息,节省大量人工查询时间和第三方调查成本投资。
2016年,博森数据与钢铁行业b2b电子商务“独角兽”联手寻找钢铁网络,并在其供应链金融业务中使用了风能报告。寻找钢网成立于2012年,到2015年,它已经成为行业中的独角兽。与此同时,通过匹配买家和卖家开始寻找钢铁网的公司,已经开始规划供应链融资,因此风险控制自然是不可或缺的。
供应链金融长期以来一直是贸易领域最常见的融资模式之一,但随着人工智能的发展,新的分支正在这一领域延伸。与消费者金融风险控制不同,供应链金融的最大风险在于企业运营风险,商品价格波动相对稳定。即使存在“产能过剩”,也可以依托大型b2b平台,根据历史交易数据进行相应的风险控制。大数据风险控制的有效前提是掌握尽可能多的数据。一般来说,数据源包括自有平台数据、外部捕获的数据以及与合作机构的数据交换。在获得这些数据之后,进行去噪和清洗以建立风险控制模型。
然而,通过nlp技术,网络上的非结构化数据被结构化并接入到金融领域的风险控制模型中,这可以大大节省数据整理的时间。
博森数据首席执行官李臻表示,对于金融领域的大数据风险控制模型,风报表可以做到两点:一是企业信息过于狭窄的问题,通过对风报表系统的判断文档和信息公告关联的结构分析,挖掘、扩展数据来源;第二,快速获取信息的问题。nlp技术、法院公告和事件信息是wind报告系统的核心,可以帮助企业从海量信息中实时获取所需信息,实现对交易对手的动态监控。
他告诉雷锋,要找的是钢铁网络财务部的副总经理。在钢铁网络平台上有大量的企业交易数据,同时大量的数据在网络上被捕获。“对我们来说,有效的数据样本自然更多。风报告的访问越好,数据源就越大。”“外部捕获的数据是分散的,通过nlp技术构建这些分散的数据源并进行二次处理要方便得多。”
至于产品的体验效果,一般来说是好的,“但是我希望数据源越多越好,而且数据源可以更加结构化。”
风能报告背后的自然语言处理技术据了解,从信息获取到企业情报,风能报告背后有四个步骤:
检索数据
表单信息(使用nlp技术从非结构化文本中提取核心语义)
生成情报(分解和分析新闻,通过数据挖掘对事件进行分类,并在时间轴上呈现企业情报信息)
获得认知(直观展示企业和个人之间的关系)。
在形成信息的过程中,它涉及到如何正确拆分句子;如何识别实体并识别相关人员和团体;并通过机器学习来标记每一项内容。为了说明自然语言处理技术在雷锋身上的应用。通讯器里,赵迎宾举了这样一个例子:
甲乙双方正在进行离婚诉讼,证据提到乙方在中国农业银行的账户,与中国农业银行无关。需要语义分析技术来判断谁是案件的当事人。
根据公开信息,雷锋。据了解,中国有2000多家与“企业信息服务”相关的公司,冯宝、开心宝和企业搜索都属于这一类。
在数据源方面,知名的《信报》是通过信贷中心与相关信贷网站之间的数据接口获取的,而《风报》则侧重于分散在整个网络中的企业外部文本数据,从大规模企业事件的角度切入。博森数据公司的首席执行官李臻认为,80%的商业智能以非结构化自然语言文本的形式存在于网络的每个角落,但没有人处理这些信息。雷锋。(公开号码:雷锋。com)在接受该公司首席执行官李臻的采访时也提到,“与其他产品相比,冯宝的核心是其分析能力。企业信息涉及许多非结构化文本,如判断文档。提炼关键信息需要重复数据消除、实体提取、分词、清理和分析等。,无需信息汇总即可完成。”
博森数据的商业化事实上,企业信息服务行业并不是博森数据从一开始就扎根的领域。
赵迎斌表示,2012年至2014年期间,Bosson Data寻求咨询机构的合作,咨询公司在进行行业研究时使用了大量数据,Bosson Data的nlp技术可以对其进行分析和构建,节省了咨询数据的时间。“我希望通过十几个案例找到一种互联网数据分析的通用方法,但我发现这种尝试行不通。”"咨询业是一个创新驱动的行业,不同的报告分析角度是不同的."
2015年后,随着大量政府信息的披露,博森数据开始提供企业信息服务,同年9月,冯宝发布,2016年开始对外销售。到目前为止,公司一年多来已经积累了120个客户。
风报表主要采用合同销售的形式,并根据使用量进行收费。公司的客户群大致可以分为三类:
第一类是泛金融,包括保险和金融租赁。
第二类是政府,它将对该地区的企业进行风险调查。风报是收集信息的渠道。
在B终端和C终端之前的第三类客户是投资者、媒体等。这些人需要了解很多公司背景信息。
"风闻报纸开始销售后,公司有了健康的现金流."赵迎宾告诉雷锋。据了解,波森数据已经进行了三轮融资,最近正在做B轮。
赵迎宾表示,每周都会发布新版《风报》,主要集中在几个方面:一是整合系统中的新数据源,对公众未发现的与企业相关的数据进行结构化分析;第二,我希望能够覆盖互联网上超过56000个政府网站,成为一个相当于政府网站的百度,比百度更深入。
那么,博森数据的未来将会如何?赵迎宾用博森的立场告诉了雷锋这个答案。
博森数据以自然语言处理技术为核心,在此平台上构建各种商业应用,重点关注saas领域和风能报告。
他补充道:有价值的数据、竞争算法、业务场景以及围绕这一业务场景的产品化能力是确保公司竞争力的法宝。
相关文章:
深入自然语言处理-看看中文分词如何影响你的生活|努力创建一个开放的课堂
中国移动通信公司创始人李志飞的nlp商业化之路
nlp工程师的技术解读:智能语音助手产品的未来在哪里?
深度|百度副总裁王海峰:百度在自然语言处理领域做了什么?
清华大学的朱晓燕教授是雷锋网络沙龙的嘉宾,分享关于自然语言处理和人工智能的事情
从入门到实战,阿里idst 9著名教师即将发言
百度王海峰quora本质安排:在未来5-10年内,自然语言处理领域会有什么进展?
雷锋原创文章。严禁擅自转载。详情请参考转载说明。
来源:搜狐微门户
标题:专访玻森数据:这款基于NLP技术的企业情报系统,商业化现状是这样的
地址:http://www.shwmhw.com/shxw/63086.html