本篇文章1566字,读完约4分钟

雷锋。本文作者董欣。原文在作者智虎的专栏里。雷锋。(公开号码:雷锋。com)已被授权。

前一段时间,关于分析民间歌词的文章特别热门,就在我学习如何使用python处理数据的时候,我想得到一些类似的东西来练习我的手。结果,我带着自己的妹妹张晓黑开始分配工作。

首先,准备歌词材料歌词精选:周杰伦迄今为止的所有专辑(从头到尾)

爬行动物已经知道,它们只能手工收集歌词。经过谷歌和百度的一系列搜索,我终于找到了别人编的完整歌词。好了,歌词文件完成了,也不算太大,只有207k(考虑到周杰伦这么多年唱的大部分歌词都在这个207k的txt文件里,有些遗憾)。

其次,完成歌词文件的分词。这是最难的部分。这个产品王只会爱上程。你如何编写代码?!!

我没办法,但我必须写下来。我花了半天时间在网上阅读谷歌关键词,甚至是猜测,几乎没有阅读在线代码示例,写的不仅仅是葫芦画。

在经历了所有的困难和风险之后,我终于写完了基调,最后主体部分总共有12行,没有任何注释(这是乞丐版的代码,我看不到性在哪里~ ~ ~ ~ (> _ 3)。把分词的结果好好分析一下,我们最终得到了文本,上面是废话,下面是重要的结论。如果你用这种方式写邮件,你会被你的老板杀死吗?(^?^*))

结论1:周杰伦最喜欢唱的主题——情歌(我知道这是胡说八道o(≘_∞)o)

把排名前20位的单词拉下来,它们充满了文学、悲伤和爱:

我们/如何/不/微笑/离开/爱/回忆/不/开始/如果/如何/开始

该死的,我觉得随机排列和组合可以变成歌词。方文卿将来会被解雇吗?(^?^*)

结论2:周杰伦喜欢妈妈胜过喜欢爸爸,喜欢奶奶胜过喜欢爷爷和爷爷(歌词中没有奶奶)

每个人都应该听说过。

杰伊专门为奶奶写了一首歌,其中一首歌词提到了爷爷。

至于爷爷,周杰伦也有那首歌

结论3:杰伊更喜欢黑色和白色

这与周杰伦的形象一致,歌词中的黑白比其他颜色更胜一筹。看到黑白的频率如此之高,我的第一个想法是,我觉得自己很符合那种气质。有青色出现了六次,因为概率很高。

结论4:周杰伦最喜欢的语气词是哦~

毫无疑问,周杰伦最喜欢“哦”,而且“哦”比“我们”出现得更频繁,成为最常用的词。此外,周杰伦的经典之作《哎呦好~》中的“哎呦”也是数一数二的。看来杰伊真的很喜欢说这句话。

摘要:从歌词来看,周杰伦可能是一个穿着黑白相间连帽衫的五好青年,表面上很酷,但内心却充满了深厚的感情和文学气息。他只喜欢喝爷爷做的茶,听妈妈的话,爱奶奶。他的嘴里不时会冒出一句话,“哎哟,还不错”

注:以上内容纯属无稽之谈。如果它们相似,那纯粹是巧合。

此外,标题图不是由python生成的,而是由一个外国网站(艺术字)生成的。文章中使用的分词代码、歌词文本和标题图片已通过导韵笔记分享(文章末尾有链接),内容如下:

有一个云注释链接:t/raicfiv

张量流&神经网络算法高级应用类即将开始!从初级到高级,理论+实战,一站式深入了解张量流!

本课程面向深入学习的开发人员,教授如何使用张量流解决特定问题,如图像识别和文本分析。为期10周的课程将从张量流的原理和基本实践技能开始,逐步教会学生如何在张量流上构建cnn、自编码、rnn、gan等模型,最终掌握一套基于张量流的深度学习和发展的专业技能。

作为思想工作的高级技术专家,童达和白华川两位教师在构建大数据平台和开发深度学习系统方面有着丰富的经验。

时间:每周二和周四晚上20: 00到21: 00

课程时长:共20小时,10周完成,每周2次,每次1小时

在线教学地址:mooc.ai/

雷锋。(公开号码:雷锋。相关阅读:

不要再收费了!Mapd数据库是开源的,人们会过来告诉你如何开始

你和真正的数据科学有什么区别

雷锋文章版权所有。严禁擅自转载。详情请参考转载说明。

来源:搜狐微门户

标题:我分析了 6.5W 字的歌词,看到了这样的周杰伦

地址:http://www.shwmhw.com/shxw/61512.html