自学数据分析100天后，我做了个总结-搜狐微门户

本篇文章3004字，读完约8分钟

今天是数据分析研究的第一百天。正如开始时所准备的，我们将写一个定期总结来纪念这短暂但有意义的时间。

我是一个普通人，不是985，211，不是留学，不是研究生，不是统计学，数学，代码，不是与工作相关的，不是学生，没有特别的帮助，通过不断的搜索，购买课程，阅读，提问，自学，只有通过空白时间下班，

认真做某事，尽可能做到。

所以从一开始，我就给自己设定了一个目标:完成100天的作业。

课程

事实上，在一百天开始的时候，我只是在朋友圈里打卡记录累积的有效学习时间，但是一个月过去了，我突然意识到我在产生数据，而这部分数据对我自己来说非常重要和有价值。所以我开始制作一个excel表格，并开始记录整个学习过程。

如果我自己看一下数据，我可以感觉到100天主要分为三个阶段。第一阶段是从第一天到第三十天，总共有51个小时的学习，空 3天，这是最有效率的时期，因为这时我更加注意一些理论知识、入门知识和疯狂地补充一些教学录像。

了解什么是概念数据框架，了解数据语言的一些基本操作，包括一些简单的命令，并反复阅读。因为你甚至会在存储格式上有很多麻烦。说实话，在这段时间的学习中，我一开始在一些意想不到的地方浪费了很多时间，这是智力迟钝的一部分，在各种书籍的教学中很少提到。

这部分用我朋友的话说，“这是常识！”

……

对不起，我真的没有常识。

因此，即使我能写一些视觉函数，我也会犯一个关于utf-8和gbk编码的错误，然后在没有任何线索的情况下挣扎几个小时，等等。

这真是一个可悲的智力迟钝的过程，可以预见，将来还会有几次。

……

因此，这实际上是一段非常充实、快乐但痛苦的时光。因为当时获得的成就感是最常见的。“啊，我今天又学习了两个小时”，“我今天学到了很多新概念”，等等。

但实际上，30天后，在第一个充满激情的月份过去后，我开始接触一些真正的操作和应用程序。也就是说，从31天到90天这段时间可能是我比较关注的一个过程。

进入三月中旬后，工作开始变得繁忙起来。在前30天，如果我累了，我会抽出半个小时看视频和书。然而，从三月中旬开始，当工作开始繁忙时，研究时间第一次出现了大面积的空白。

从第42天到第60天，18天中我只学了4天。核心原因是这段时间涉及到出差、出差前的工作准备、出差期间的疲劳、出差后报告中的波折……此时的学习涉及到更多的思考和更多的工具，不是半个小时就能解决的。所以当我知道我不能保证效率时，我选择休息。

但是真的很痛。

学习是一个人的情感、理性和自我控制之间不断斗争的过程。

根据记录，在第80天左右，有一个大规模的间歇性研究。从第78天到第89天，我总共11天只学了一天，而这项研究空是白色的，这一点在我的评论中有明确的标记:

[字段]，大量的[字段]

而且由于工作本身，积累了很多压力，当然，其中一部分也是由学习焦虑引起的。在这个空的白色时间里也有一个五一假期。我的评论栏说“没心情，休息一下”。

这时，我意识到工作和如此高强度的学习之间有一定程度的冲突。毕竟，人的能量是有限的。尽管我自称精力充沛，但当工作强度和压力增加时，我的学习显然会受到影响。也是在那个时候，我开始认真考虑停止学习。

最后，在第96天，我辞去了工作。

然后，就像一个突然的后见之明，我开始真正怀念我的大学时光，那是非常自由和纯洁的。同样，正如许多人所做的那样，他们哀叹自己年轻时的无知、奢侈和对自由时间的浪费。

最后，让我们谈谈这100天作业的练习。事实上，在这段时间里，我一直在做不同老师的课程布置的各种作业，但是大部分时间我都不能和他们联系，所以我练习了一些技巧。像sql技巧一样，常用的指令并不多，但实际项目却很少。经过几次尝试，我发现关于kaggle的项目需要更多的思维突破，大量的算法积累和模型学习，而这部分正是我需要大量辅导的地方。如果你简单地想象一些数据，这并不意味着太多的重复。

自学数据分析100天后，我做了个总结

因此，我开始想:如果我们从实际应用出发，我们怎么能独立解决一个命题呢？

遇到的问题

所以我开始了这个作业练习，遇到了很多问题。

首先，还有爬虫技术的问题，因为一开始我选择R和python的时候选择了一个更短的名字，所以当我发现python技术可能更适合爬虫应用的时候，我的脸很自豪。然而，在应用中仍然存在各种问题。首先，由于智联的搜索机制，当它不能满足搜索机制时，会自动填充其他内容。因此，当我爬到3000多的时候，我发现在爬行的内容中没有“数据”这个词，但是工作还在继续！那太好了。

自学数据分析100天后，我做了个总结

但当时我不知道问题出在哪里，所以我不得不再次攀爬，然后回来定期检查...这项工作必须手工完成，但我想我有多恼火。由于未知原因，在gooseeker爬行中会出现许多爬行失败和卡住现象。我盯着爬行的页面，贴了很长时间，然后报告了一个错误，然后转到下一页...这是一次非常令人沮丧的经历，当时，我下定决心要赶上蟒蛇。

自学数据分析100天后，我做了个总结

你好。

我爬了整整两个晚上的数据源文件，直到2000年初才得到。后来集成爬文件的时候，因为要通过excel宏操作，遇到了各种零碎的麻烦，最后甚至用一些愚蠢的方法解决了...

效率低下！非常爱！

接下来是文本问题的处理。首先，我想通过代码过滤专业关键词。后来，我发现在学习了整整两天后，我终于发现，由于现有的知识，没有线索去做这件事。经过长时间的检查，我找不到路。最后，我不得不放弃，采用了观察和数字筛选的方法。幸运的是，我手动停止了它。否则，我真的不知道在哪里翻数据。

文本的第二个问题出现在月薪机制的筛选上。事实上，我已经知道通过excel命令做这件事特别容易(毕竟，我也读到过[七周内成为一名数据分析师-excel实用文章-智湖专栏]的实用主题想法)。然而，当我通过R语言意识到这一点时，我遇到了各种各样的问题。这时，还没有人教我文字处理，我不知道该问哪里，该问什么。我只能四处走走，到处寻找。经过搜索，我设法很好地处理了代码，然后发现我一直在报告错误。最后，我调试了很长时间，发现问题是“低于1000”(其他人都是“6000-8000”)。我可以想象…

自学数据分析100天后，我做了个总结

后来，在对词云的文本分析和处理中，发现只有学习技术能提供的帮助太少，而文本分析需要的逻辑链可能更加模糊和困难。尤其是在关键词不明确的前提下。

最后，它是代码优化和可视化的输出。因为完成想法的周期实际上是很长的，当零碎的想法最终被回顾时，会有很多想法。在我自己的数据阅读中，我总是想尝试优化我的想法和代码，这个尝试的过程会很愉快。哈哈，我真的很开心没有开玩笑。特别是在形象化方面，这张图片是否能清晰地表达我的想法，我整篇文章的逻辑线条是否流畅，这是我想完善的地方。可能从事过实际工作，可以尽可能简单，尽可能方便的拿取和使用，是我关注的焦点。这个思考过程实际上给了我很多。

自学数据分析100天后，我做了个总结

———

当练习完成后，我也如愿地得到了作业的结论，也知道了下一步学习的重点，还添加了自己的项目练习材料。

最重要的是，我已经证明了我能做到。

还有很长的路要走，明天将是第101天。

2017.5.13

雷锋。(公开号码:雷锋。注:这篇文章的原作者楚赖德，最初发表在作者的智湖专栏。

开发者特别会议|英伟达深度学习学院现场授课

英伟达dli高级工程师现场指导，理论联系实际，深入学习！

课程链接:mooc.ai/course/90

来源：搜狐微门户

标题：自学数据分析100天后，我做了个总结

地址：http://www.shwmhw.com/shxw/61579.html

自学数据分析100天后，我做了个总结

相关推荐

汽车互联网平台第1车贷成功发行2亿公募ABS

大专公办和民办的区别-题王网www.tiw.cn

时隔两月什马出行再获数千万融资

软银接手后的WeWork：计划裁员4000人占全球员工30%

微信：安卓最新版支持修改微信号

空调一时半会不制冷（为啥空调一会制冷一会不制冷）

windows优化王_windows 优化

人人车联合创始人王清翔卸任旗下公司法定代表人李辉接任

天津抗震支架厂家讲诉高层建筑怎么防震?

AI筑起信息安全大坝百度2017年处置451.2亿条有害信息

本月热文

阿里云账号代购，阿里云购买相同配置的实例

挑选太仓SMT智能料架公司，绝不踩雷的方法！_佰斯特POUSTO

win10全屏优化会让游戏卡吗_win10全屏优化会让游戏卡吗

阿里云国际服务器购买，阿里云国际代理商

国际版阿里云/腾讯云：免费账号：运用邮箱注册的账号、充值教程

加盟儿童美术教育的投资人要符合哪些条件呢

win10优化开机启动项_win10如何优化开机启动项

win7运行速度提高90pedit_

win10自带清理软件_win10清理软件哪个好

阿里云国际账号24h自助充，阿里云服务器购买

最新发布

wf展会2022上海_wf展会2022上海延期

ween是什么牌子_ween是什么牌子衣服

ween是什么公司_WeEn是什么公司

电厂工地洗车机是如何进行水循环使用的？

web问如何优化网站_web网页优化

保持防静电贯通式货架高效安全的秘诀_佰斯特POUSTO

阿里云服务器购买，阿里云账号免实名注册

阿里云国际服务器购买，阿里云免实名注册

阿里云国际账号免实名注册，阿里云服务器购买

阿里云国际账号注册，阿里云服务器购买，阿里云24h小时自助充

网站简介