本篇文章2264字,读完约6分钟
据雷锋说。最近,亚马逊欧洲商业智能部门主管兼高级数据科学家卡罗里斯·乌尔博纳发表了一篇名为“用数据撒谎”的博客。本文总结了用数据误导人们的三种最常见的方法。这三种做法可能每个人潜意识中都知道,但它们可能与“用数据撒谎”无关。
当然,作者的目的是希望数据科学和机器学习的从业者能够以此为戒。全文是由雷锋编辑的。初衷没有改变。
karolis urbonas
“用数据说话”,这句话经常被每个人挂在嘴边。
大学以来,那些希望我们培养批判性和逻辑性思维的老师们反复灌输给我们“观点”、“经验主义”和“客观事实”之间的差异,并指导学生如何正确对待古代的“智慧”,如“对老师要求严格”、“把原来的汤变成原来的食物”、“句子坦荡荡,小人长戚戚。”和“对斯里兰卡人民负责”。
因此,潜意识里,有些人认为高质量的数据代表事实,基于可靠数据的分析和结论应该客观合理。
但事实往往并非如此。
例如,数据分析师会有意或无意地倾向于偏见,这是难以避免的;周围的同事和上级也会有压力或期望,或者项目很匆忙。此外,在数据分析和解释过程中存在自然风险,这导致最终的“说谎”行为。即使数据科学家的初衷是高尚的,最终的结果也可能不是真实和客观的。
让我们言简意赅,看看用数据撒谎的三种方式。
一直使用平均值是历史上最被滥用的参数,世界各地的人都用它来制造谎言。
当提供平均值时,请注意,除非数据是标准分布(基本上从不),否则它不能代表反映真实情况的任何有价值的信息。这背后的原因很简单。通俗地说,就是“老板赚100万,我赚20万,两个人平均收入60万。”从理论上讲,平均值根本不能反映数据的结构分布,这一信息非常重要。平均值不是一个非常可靠的测量参数,它对边缘值和任何偏离标准分布的样本非常敏感。
数十年来,统计学家已经明白了这一点,但企业、各种机构和政府仍将平均值作为核心统计参数,对涉及数十亿、数十亿和数十亿的问题做出决策,掩盖实际问题。
解决方案是什么?
不要使用平均值!从现在开始不要使用它,要有意识地考虑数据的分布,不要只针对个别情况给出有参考意义的统计报告。在第一步中,我们可以从中间值开始,用前99%和后1%的值总结数据。
平均长期以来一直是各种学科的权威参数,它有太多毋庸置疑的盲目追随者,所以我们几乎可以把它视为宗教。这到底是怎么发生的?很久很久以前,自然科学的标准分布假说(雷锋。(公开号码:雷锋。注:使用平均值的前提)扩展到其他领域,如业务分析和其他业务数据应用。这毒害了几代数据分析师。
确认偏差(确认偏差)
这是另一种经典的误导方式,与心理学密切相关。它发生在你想出要解决的问题之前。当然,这一步也会影响效果。数据分析师看待需要解决的问题的方式或角度可以从根本上改变最初的客观立场。当涉及到情绪(无论是表达的还是潜在的)时,这种效果显然会大大增强。通常很难区分这种影响,这是区分普通数据分析师和主分析师的主要分水岭。
一个非常典型的场景是在时间不够的情况下要求完成数据分析。这将产生尽快得出结论的压力——通常会根据分析结果做出重要决定。此时,会有许多偏见和偏差涌入项目,但证实性偏见是数据分析师最愿意上钩的。数据分析师正忙于根据他们心中现有的假设,在最短的时间内回答或解决研究问题。这意味着第一个错误的相关性可能被视为答案。在这种情况下,分析师会积极寻找能够证实原始假设的证据,而可能对其他证据视而不见。这就是“用数据匹配假设”。
当数据分析师先入为主地认为问题是“正确的”时,就会出现这种情况。当分析师对发现符合假设的证据感兴趣时,偏见成功地将分析过程引向了错误的道路。随后,分析师对数据进行压缩和调整,只是为了符合与假设一致的结论。在这里,一个非常重要的措施是在开始时定义严格的研究要求,并收集支持积极和消极结论的数据和证据。
数据科学家经常被逗乐去发现某种模式并合理地解释它。此时,他们可能会忽略这样一个事实,即没有足够的数据来得出结论或回答问题。后者是完全正常的。此时,问题本身可能需要重新定义。
不存在的模式
人类大脑非常擅长在混乱中寻找模式——有时他们开始寻找不存在的模式。对于数据科学家来说,这是非常致命的。许多公司雇佣数据分析师来发现模式。因此,发现的模式越多,分析师的水平和非凡的洞察力就越高,因为他看到了别人看不到的东西。这种基于谬误的成功导致了大量的工作集中在发现模式、分割和“非凡的东西”上。当然,很多时候这些都是正常的,真实数据中会有很多噪音。
这导致了一个尴尬的局面——数据分析师“发现”了不存在的模型,企业根据这个结论做出了决策,然后这个决策影响了真实的人,甚至迫使模型真正出现。太神奇了。举一个非常简单的例子:找到消费者细分市场,然后尝试将它们从一个细分市场“转移”到另一个细分市场。当某个细分市场被某个企业的营销部门瞄准,并想把它们推向一个不存在的范围时,这种神奇的现象就会出现并产生现实的影响。然而,这种事情风险很大,很容易导致一系列代价高昂的错误决策。
这当然不是一个完整的“用数据撒谎”的清单。如果你想彻底研究,你应该研究心理学理论中会影响你主观判断和洞察力的其他认知偏见。这些是最常见的数据分析陷阱。我看到许多分析师无意中陷入其中,不是故意制造数据“谎言”,而是寻找真实情况。客观性不是一个容易达到的目标,它需要很多自律。
最成功的数据科学家会非常非常注意防范这些偏见和偏差,并对它们可能导致的谎言保持高度警惕。
viacyborgus
雷锋文章版权所有。严禁擅自转载。详情请参考转载说明。
来源:搜狐微门户
标题:别被数据分析师骗了!用数据说谎的三种办法
地址:http://www.shwmhw.com/shxw/60160.html