本篇文章1036字,读完约3分钟
雷锋的聚类问题中有一个经典问题:如果没有数据集的真正分类,我们怎么知道数据聚类的最佳数目?
本文将讨论解决这个问题的两种常用方法:肘形法和剪影法。
在监督学习中,特定数据集的类别数从一开始就是已知的——每个数据实例都被标记为属于某个类别。在最坏的情况下,我们还可以检查类属性并计算其中包含的唯一元素。
然而,在无监督学习中,不存在类属性或类成员的显式划分。也想想吧。无监督学习的主要形式之一是数据聚类。它的目标是通过最小化不同类之间的实例相似性和最大化同一类中的实例相似性来粗略地划分类成员。
众所周知,聚类问题有一个很大的技术问题——不管它是什么形式,开发人员需要在开始时给出未标记数据集中的类的数量。如果你足够幸运的话,你可能会提前知道数据的基本事实——班级的真实数量。但情况并非总是如此。例如,数据中可能没有定义良好的类(簇)。无监督学习的本意是探索数据,找出使聚类数和类数达到最优的结构。
这让我们回到文章开头的问题:不知道基本事实,我们怎么知道数据簇的最佳数量?在这方面,有相当多的方法来处理它。本文将讨论两种广泛使用的方法。第一个是手肘法。
肘形法
弯头法是首选,因为它可以很容易地通过可视化解释和验证,非常有用。它使用关于聚类数的函数来解释方差(k-均值中的k)。它将绘制可以用k来解释的方差的比例。第一批n个聚类应该添加很多信息来解释方差。然而,k的一些最终值将导致更少的信息增量。此时,数据图表将具有明显的角度。这个角度是最佳的簇数。
雷锋提醒说,有一件事应该是不言自明的,不需要解释:为了根据不同的聚类数得出差异,需要测试不同的聚类数。在绘制和比较结果之后,聚类方法必须有一个成功和完整的迭代。
轮廓法
轮廓法测量一个物体和它的簇之间的相似性,即内聚性。当它与其他集群比较时,它被称为分离。这种比较是通过轮廓值实现的,该值在[-1,1]的范围内。轮廓值接近1,这表明对象与其簇之间存在密切关系;相反,它接近-1。如果某个模型中的数据簇生成了相对较高的轮廓值,则表明该模型是合适且可接受的。
viakdkings;雷锋网(公开号:雷锋网)编译
人工智能神经网络专业培训班
20年来,清华大学神经网络讲师将带你系统地学习人工智能的神经网络!
一站式深入了解深度学习的发展现状、基本原则和主要方法。
课程链接:mooc.ai/course/65
相关文章:
机器学习算法在实践K-均值聚类中的实用技巧
雷锋文章版权所有。严禁擅自转载。详情请参考转载说明。
来源:搜狐微门户
标题:无监督聚类问题中,如何决定簇的最优数量?
地址:http://www.shwmhw.com/shxw/61081.html