本篇文章3004字,读完约8分钟
今天是数据分析研究的第一百天。正如开始时所准备的,我们将写一个定期总结来纪念这短暂但有意义的时间。
我是一个普通人,不是985,211,不是留学,不是研究生,不是统计学,数学,代码,不是与工作相关的,不是学生,没有特别的帮助,通过不断的搜索,购买课程,阅读,提问,自学,只有通过空白时间下班,
认真做某事,尽可能做到。
所以从一开始,我就给自己设定了一个目标:完成100天的作业。
课程
事实上,在一百天开始的时候,我只是在朋友圈里打卡记录累积的有效学习时间,但是一个月过去了,我突然意识到我在产生数据,而这部分数据对我自己来说非常重要和有价值。所以我开始制作一个excel表格,并开始记录整个学习过程。
如果我自己看一下数据,我可以感觉到100天主要分为三个阶段。第一阶段是从第一天到第三十天,总共有51个小时的学习,空 3天,这是最有效率的时期,因为这时我更加注意一些理论知识、入门知识和疯狂地补充一些教学录像。
了解什么是概念数据框架,了解数据语言的一些基本操作,包括一些简单的命令,并反复阅读。因为你甚至会在存储格式上有很多麻烦。说实话,在这段时间的学习中,我一开始在一些意想不到的地方浪费了很多时间,这是智力迟钝的一部分,在各种书籍的教学中很少提到。
这部分用我朋友的话说,“这是常识!”
……
对不起,我真的没有常识。
因此,即使我能写一些视觉函数,我也会犯一个关于utf-8和gbk编码的错误,然后在没有任何线索的情况下挣扎几个小时,等等。
这真是一个可悲的智力迟钝的过程,可以预见,将来还会有几次。
……
因此,这实际上是一段非常充实、快乐但痛苦的时光。因为当时获得的成就感是最常见的。“啊,我今天又学习了两个小时”,“我今天学到了很多新概念”,等等。
但实际上,30天后,在第一个充满激情的月份过去后,我开始接触一些真正的操作和应用程序。也就是说,从31天到90天这段时间可能是我比较关注的一个过程。
进入三月中旬后,工作开始变得繁忙起来。在前30天,如果我累了,我会抽出半个小时看视频和书。然而,从三月中旬开始,当工作开始繁忙时,研究时间第一次出现了大面积的空白。
从第42天到第60天,18天中我只学了4天。核心原因是这段时间涉及到出差、出差前的工作准备、出差期间的疲劳、出差后报告中的波折……此时的学习涉及到更多的思考和更多的工具,不是半个小时就能解决的。所以当我知道我不能保证效率时,我选择休息。
但是真的很痛。
学习是一个人的情感、理性和自我控制之间不断斗争的过程。
根据记录,在第80天左右,有一个大规模的间歇性研究。从第78天到第89天,我总共11天只学了一天,而这项研究空是白色的,这一点在我的评论中有明确的标记:
[字段],大量的[字段]
而且由于工作本身,积累了很多压力,当然,其中一部分也是由学习焦虑引起的。在这个空的白色时间里也有一个五一假期。我的评论栏说“没心情,休息一下”。
这时,我意识到工作和如此高强度的学习之间有一定程度的冲突。毕竟,人的能量是有限的。尽管我自称精力充沛,但当工作强度和压力增加时,我的学习显然会受到影响。也是在那个时候,我开始认真考虑停止学习。
最后,在第96天,我辞去了工作。
然后,就像一个突然的后见之明,我开始真正怀念我的大学时光,那是非常自由和纯洁的。同样,正如许多人所做的那样,他们哀叹自己年轻时的无知、奢侈和对自由时间的浪费。
最后,让我们谈谈这100天作业的练习。事实上,在这段时间里,我一直在做不同老师的课程布置的各种作业,但是大部分时间我都不能和他们联系,所以我练习了一些技巧。像sql技巧一样,常用的指令并不多,但实际项目却很少。经过几次尝试,我发现关于kaggle的项目需要更多的思维突破,大量的算法积累和模型学习,而这部分正是我需要大量辅导的地方。如果你简单地想象一些数据,这并不意味着太多的重复。
因此,我开始想:如果我们从实际应用出发,我们怎么能独立解决一个命题呢?
遇到的问题
所以我开始了这个作业练习,遇到了很多问题。
首先,还有爬虫技术的问题,因为一开始我选择R和python的时候选择了一个更短的名字,所以当我发现python技术可能更适合爬虫应用的时候,我的脸很自豪。然而,在应用中仍然存在各种问题。首先,由于智联的搜索机制,当它不能满足搜索机制时,会自动填充其他内容。因此,当我爬到3000多的时候,我发现在爬行的内容中没有“数据”这个词,但是工作还在继续!那太好了。
但当时我不知道问题出在哪里,所以我不得不再次攀爬,然后回来定期检查...这项工作必须手工完成,但我想我有多恼火。由于未知原因,在gooseeker爬行中会出现许多爬行失败和卡住现象。我盯着爬行的页面,贴了很长时间,然后报告了一个错误,然后转到下一页...这是一次非常令人沮丧的经历,当时,我下定决心要赶上蟒蛇。
你好。
我爬了整整两个晚上的数据源文件,直到2000年初才得到。后来集成爬文件的时候,因为要通过excel宏操作,遇到了各种零碎的麻烦,最后甚至用一些愚蠢的方法解决了...
效率低下!非常爱!
接下来是文本问题的处理。首先,我想通过代码过滤专业关键词。后来,我发现在学习了整整两天后,我终于发现,由于现有的知识,没有线索去做这件事。经过长时间的检查,我找不到路。最后,我不得不放弃,采用了观察和数字筛选的方法。幸运的是,我手动停止了它。否则,我真的不知道在哪里翻数据。
文本的第二个问题出现在月薪机制的筛选上。事实上,我已经知道通过excel命令做这件事特别容易(毕竟,我也读到过[七周内成为一名数据分析师-excel实用文章-智湖专栏]的实用主题想法)。然而,当我通过R语言意识到这一点时,我遇到了各种各样的问题。这时,还没有人教我文字处理,我不知道该问哪里,该问什么。我只能四处走走,到处寻找。经过搜索,我设法很好地处理了代码,然后发现我一直在报告错误。最后,我调试了很长时间,发现问题是“低于1000”(其他人都是“6000-8000”)。我可以想象…
后来,在对词云的文本分析和处理中,发现只有学习技术能提供的帮助太少,而文本分析需要的逻辑链可能更加模糊和困难。尤其是在关键词不明确的前提下。
最后,它是代码优化和可视化的输出。因为完成想法的周期实际上是很长的,当零碎的想法最终被回顾时,会有很多想法。在我自己的数据阅读中,我总是想尝试优化我的想法和代码,这个尝试的过程会很愉快。哈哈,我真的很开心没有开玩笑。特别是在形象化方面,这张图片是否能清晰地表达我的想法,我整篇文章的逻辑线条是否流畅,这是我想完善的地方。可能从事过实际工作,可以尽可能简单,尽可能方便的拿取和使用,是我关注的焦点。这个思考过程实际上给了我很多。
———
当练习完成后,我也如愿地得到了作业的结论,也知道了下一步学习的重点,还添加了自己的项目练习材料。
最重要的是,我已经证明了我能做到。
还有很长的路要走,明天将是第101天。
2017.5.13
雷锋。(公开号码:雷锋。注:这篇文章的原作者楚赖德,最初发表在作者的智湖专栏。
开发者特别会议|英伟达深度学习学院现场授课
英伟达dli高级工程师现场指导,理论联系实际,深入学习!
课程链接:mooc.ai/course/90
雷锋文章版权所有。严禁擅自转载。详情请参考转载说明。
来源:搜狐微门户
标题:自学数据分析100天后,我做了个总结
地址:http://www.shwmhw.com/shxw/61579.html