当前位置：Gxlcms > 数据库问题 > DBSCAN密度聚类算法

DBSCAN密度聚类算法

时间：2021-07-01 10:21:17 帮助过：13人阅读

?, MinPts)用来描述邻域的样本分布紧密程度。其中，

　　　　假设我的样本集是D=

　　　　1）

　　　　2) 核心对象：对于任一样本

　　　　3）密度直达：如果

　　　　4）密度可达：对于

　　　　5）密度相连：对于

　　　　从下图可以很容易看出理解上述定义，图中MinPts=5，红色的点都是核心对象，因为其

技术分享

　　　　有了上述定义，DBSCAN的聚类定义就简单了。

3. DBSCAN密度聚类思想

　　　　DBSCAN的聚类定义很简单：由密度可达关系导出的最大密度相连的样本集合，即为我们最终聚类的一个类别，或者说一个簇。

　　　　这个DBSCAN的簇里面可以有一个或者多个核心对象。如果只有一个核心对象，则簇里其他的非核心对象样本都在这个核心对象的

　　　　那么怎么才能找到这样的簇样本集合呢？DBSCAN使用的方法很简单，它任意选择一个没有类别的核心对象作为种子，然后找到所有这个核心对象能够密度可达的样本集合，即为一个聚类簇。接着继续选择另一个没有类别的核心对象去寻找密度可达的样本集合，这样就得到另一个聚类簇。一直运行到所有核心对象都有类别为止。

　　　　基本上这就是DBSCAN算法的主要内容了，是不是很简单？但是我们还是有三个问题没有考虑。

　　　　第一个是一些异常样本点或者说少量游离于簇外的样本点，这些点不在任何一个核心对象在周围，在DBSCAN中，我们一般将这些样本点标记为噪音点。

　　　　第二个是距离的度量问题，即如何计算某样本和核心对象样本的距离。在DBSCAN中，一般采用最近邻思想，采用某一种距离度量来衡量样本距离，比如欧式距离。这和KNN分类算法的最近邻思想完全相同。对应少量的样本，寻找最近邻可以直接去计算所有样本的距离，如果样本量较大，则一般采用KD树或者球树来快速的搜索最近邻。如果大家对于最近邻的思想，距离度量，KD树和球树不熟悉，建议参考之前写的另一篇文章K近邻法(KNN)原理小结。

　　　　第三种问题比较特殊，某些样本可能到两个核心对象的距离都小于

4. DBSCAN聚类算法

　　　　下面我们对DBSCAN聚类算法的流程做一个总结。

　　　　输入：样本集D=

　　　　输出：簇划分C.　

　　　　1）初始化核心对象集合

　　　　2) 对于j=1,2,...m, 按下面的步骤找出所有的核心对象：

　　　　　　a) 通过距离度量方式，找到样本

　　　　　　b) 如果子样本集样本个数满足

　　　　3）如果核心对象集合

　　　　4）在核心对象集合

　　　　5）如果当前簇核心对象队列

　　　　6）在当前簇核心对象队列

DBSCAN密度聚类算法

3. DBSCAN密度聚类思想

4. DBSCAN聚类算法

人气教程排行