数据挖掘中分类、预测、聚类的定义和区别。

如题所述

推荐答案 2019-08-21

你好，
简单地说，分类(categorization
or
classification)就是按照某种标准给对象贴标签(label)，再根据标签来区分归类。
简单地说，聚类是指事先没有“标签”而通过某种成团分析找出事物之间存在聚集性原因的过程。
区别是，分类是事先定义好类别
，类别数不变
。分类器需要由人工标注的分类训练语料训练得到，属于有指导学习范畴。聚类则没有事先预定的类别，类别数不确定。
聚类不需要人工标注和预先训练分类器，类别在聚类过程中自动生成
。分类适合类别或分类体系已经确定的场合，比如按照国图分类法分类图书；聚类则适合不存在分类体系、类别数不确定的场合，一般作为某些应用的前端，比如多文档文摘、搜索引擎结果后聚类(元搜索)等。
分类的目的是学会一个分类函数或分类模型(也常常称作分类器
),该模型能把数据库中的数据项映射到给定类别中的某一个类中。
要构造分类器，需要有一个训练样本数据集作为输入。训练集由一组数据库记录或元组构成，每个元组是一个由有关字段(又称属性或特征)值组成的特征向量，此外，训练样本还有一个类别标记。一个具体样本的形式可表示为：(v1,v2,...,vn;
c)；其中vi表示字段值，c表示类别。分类器的构造方法有统计方法、机器学习方法、神经网络方法等等。
聚类(clustering)是指根据“物以类聚”原理，将本身没有类别的样本聚集成不同的组，这样的一组数据对象的集合叫做簇，并且对每一个这样的簇进行描述的过程。它的目的是使得属于同一个簇的样本之间应该彼此相似，而不同簇的样本应该足够不相似。与分类规则不同，进行聚类前并不知道将要划分成几个组和什么样的组，也不知道根据哪些空间区分规则来定义组。其目的旨在发现空间实体的属性间的函数关系，挖掘的知识用以属性名为变量的数学方程来表示。聚类技术正在蓬勃发展，涉及范围包括数据挖掘、统计学、机器学习、空间数据库技术、生物学以及市场营销等领域，聚类分析已经成为数据挖掘研究领域中一个非常活跃的研究课题。常见的聚类算法包括：k-均值聚类算法、k-中心点聚类算法、clarans、
birch、clique、dbscan等。
希望回答对您有帮助.

温馨提示：答案为网友推荐，仅供参考

当前网址：http://77.wendadaohang.com/zd/83pqNpII8qv3qWvvvW.html

其他回答

第1个回答推荐于2017-09-08

sc-cpda 数据分析师公众交流平台详细看我资料

区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。例如，具有高GPA 的学生的一般特性可被用来与具有低GPA 的一般特性比较。最终的描述可能是学生的一个一般可比较的轮廓，就像具有高GPA 的学生的75%是四年级计算机科学专业的学生，而具有低
GPA 的学生的65%不是。

关联是指发现关联规则，这些规则表示一起频繁发生在给定数据集的特征值的条件。例如，一个数据挖掘系统可能发现的关联规则为：major(X, “computing science”) ⇒ owns(X, “personal computer”) [support=12%, confidence=98%] 其中，X 是一个表示学生的变量。这个规则指出正在学习的学生，12% （支持度）主修计算机科学并且拥有一台个人计算机。这个组一个学生拥有一台个人电脑的概率是98%（置信度，或确定度）。

分类与预测
不同，因为前者的作用是构造一系列能描述和区分数据类型或概念的模型（或功能），而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。它们的相似性是他们都是预测的工具：
分类被用作预测目标数据的类的标签，而预测典型的应用是预测缺失的数字型数据的值。

聚类分析的数据对象不考虑已知的类标号。对象根据最大花蕾内部的相似性、最小化类之间的相似性的原则进行聚类或分组。形成的每一簇可以被看作一个对象类。聚类也便于分类法组织形式，将观测组织成类分层结构，把类似的事件组织在一起。

数据演变分析描述和模型化随时间变化的对象的规律或趋势，尽管这可能包括时间相关数据的特征化、区分、关联和相关分析、分类、或预测，这种分析的明确特征包括时间序列数据分析、序列或周期模式匹配、和基于相似性的数据分析本回答被提问者采纳

第2个回答 2014-12-07

数据分析挖掘这块，建议楼主看看帆软公司的finebi，挺不错的，强烈推荐一个！

第3个回答 2018-06-25

分类是利用已有信息把目标数据按照预期分成不同的种类

聚类是利用已有信息把目标数据根据使用的聚类方法不同分成不同的种类

分类和聚类都可以说是预测

相似回答

数据挖掘总结之分类与聚类的区别答：聚类分析目的在于将相似的事物归类，同一类中的个体有较大的相似性，不同类的个体差异性很大。

数据挖掘有哪些技术答：数据挖掘的技术包括：聚类分析、分类与预测、关联规则挖掘、序列挖掘等。聚类分析是数据挖掘中一种非常重要的技术。该技术主要是将数据分为多个不同的组或簇，其中每个组内的数据具有很高的相似性，而不同组之间的数据则有很大的差异。聚类分析广泛应用于客户细分、市场研究等领域。分类与预测是数据挖掘中...

数据挖掘的主要任务有哪些?答：2.聚类分析，聚类是把数据按照相似性归纳成若干类别，同一类中的数据彼此相似，不同类中的数据相异。聚类分析可以建立宏观的概念，发现数据的分布模式，以及可能的数据属性之间的相互关系。3.分类就是找出一个类别的概念描述，它代表了这类数据的整体信息，即该类的内涵描述，并用这种描述来构造模型...

数据挖掘方法有哪些答：数据挖掘方法有多种，包括聚类分析、关联规则挖掘、分类与预测、异常检测等。一、聚类分析聚类分析是数据挖掘中最常用的一种方法。它的主要目标是将大量数据划分为若干个类别或簇，使得同一类别内的数据尽可能相似，不同类别间的数据尽可能不同。这种方法常用于客户细分、市场研究等领域。二、关联规则挖掘...

...中分类/聚类的概念是什么?有什么关系?有什么区别?答：分类和聚类都是对目标进行空间划分，划分的标准是类内差别最小而类间差别最大。分类和聚类的区别在于分类事先知道类别数和各类的典型特征，而聚类则事先不知道。参考资料：苏新宁等著. 数据挖掘理论与技术. 科学技术文献出版社, 2003 王英杰等编著. 多维动态地学信息可视化. 科学出版社, 2003.另外你还...

数据挖掘中分类与聚类区别与关系答：从这个意义上说，数据挖掘的目标就是根据样本数据形成的类知识并对源数据进行分类，进而也可以预测未来数据的归类。与分类技术不同，在机器学习中，聚类是一种无指导学习。聚类是在预先不知道欲划分类的情况下，根据信息相似度原则进行信息聚类的一种方法。聚类的目的是使得属于同类别的对象之间的差别尽可能...

数据挖掘技术有哪些答：数据挖掘技术有以下一些主要方法：分类与聚类。分类是将数据对象按照特定标准进行分类的过程，常用于预测模型。聚类则是将数据自动分组，以揭示数据之间的内在结构和联系。两者都能帮助理解数据的分布和特征。关联规则挖掘。关联规则挖掘主要用于发现数据集中不同属性之间的有趣关系或关联。它在市场篮子分析中...

大家正在搜

数据挖掘分类聚类预测的关系数据挖掘分类与聚类的区别数据挖掘分类和聚类数据仓库与数据挖掘定义数据挖掘的聚类方法有哪些数据挖掘聚类的原则数据挖掘聚类分析例题数据挖掘的定义是什么数据挖掘聚类python