数据挖掘

数据挖掘可以被定义为识别预先建立的数据库中的模式的过程。它提取反常的模式,巨大的数据集之间的相互联系,以获得正确的结果。数据挖掘,有时被称为 “数据库中的知识发现”。我们可以说,它是三个科学学科的结合,即统计学、人工智能和机器学习。

统计学 -
它通过分析各种数据集合来处理统计数据集。它有助于解决工业、组织和社会问题。
人工智能 -
它是数据挖掘的一个重要组成部分。它从几个系统中提取数据。
机器学习 -
它利用数据挖掘技术,在一些算法的帮助下,用来构建模型。

数据挖掘所遵循的步骤:

勘探 -
这是数据挖掘的最初步骤,它使用统计技术和数据可视化来定制数据集的特征,并理解数据的行为。
模式识别 -
它意味着在共存的数据与其他数据之间找到一些相互关系。
部署 -
这是一种方法,通过这种方法,我们可以将机器学习模型合并到现有的环境生产中,以便在实际的商业生活中根据这些数据做出更好的决策。

数据挖掘技术和算法:

在现有数据库的基础上,通过使用各种算法和技术,这项任务被执行。这就是分类,聚类,回归,人工智能,神经网络,关联规则,决策树,遗传算法,最近的邻居方法等。

分类 -
它是一个寻找描述和区分数据类别和概念的模型的过程,并把它们放在一个特定的类别中。
聚类 -
为了以更具体的方式分析数据,这种方法被使用。它有时被称为聚类分析。它可以说是一个无监督的机器学习过程,在一个巨大的数据集中识别和制作具有类似类型的数据组。
回归 -
它基本上用于分析连续值之间的共同关系。
关联规则 -
这涉及到机器学习模型来分析数据库中的数据模式。这有助于目录设计、交叉营销和客户购物行为分析,以做出更好的决策。
神经网络 -
它可以说是一系列的算法,希望通过模仿人脑的运作方式来确认数据库之间的潜在关系。

这种数据挖掘方法的重点是识别数据收集中不遵循预期模式或行为的数据点。这种方法可应用于各种领域,包括欺诈检测、入侵检测和其他。此外,还称为离群点分析或离群点挖掘。
序列模式 -
一种叫做顺序模式的数据挖掘方法是专门为分析顺序数据和识别顺序模式而设计的。它需要在一个序列的集合中搜索有趣的子序列。一个序列的重要性可以通过其长度、重复出现的频率和其他因素来确定。

数据分析

数据分析是对现有数据进行分析的一个过程。为了将数据从一个系统转移到另一个系统,它使用ETL过程(即,提取、转换和加载)。

数据分析在.NET中是非常重要的:

数据仓库和商业智能(DW/BI)项目中非常关键。
在ETL的帮助下,数据分析可以发现数据源中的数据质量错误。
数据转换和迁移项目 -
这些数据从一个平台转移到其他来源,这样我们就可以在技术上增加新的功能,并为组织升级其性能。
源系统数据质量过程 -
数据分析可以突出有一些持续问题的数据和问题的来源(例如:输入、错误、数据损坏)。

数据分析技术:

结构发现 -
它有助于分析我们的数据是否符合和格式正确,通过应用数据的数学统计,即(总和,最小或最大)。
内容发现 -
这侧重于特定的内容,以发现错误,如表中的特定行有问题,以及问题发生在系统的哪个部分。
关系发现 -
这将收集数据并发现不同数据元素之间或数据库内的共同关系。

数据分析所遵循的步骤:

为数据剖析搜索准确的数据。
发现问题,并使其在数据集中的数据质量方面得到纠正。
通过ETL过程的帮助,可以发现数据质量问题。
在一些外键关系、层次结构和一些预定的业务规则的帮助下,ETL过程可以被完美地执行。

数据分析和数据挖掘的区别

编号 数据挖掘 数据分析
1 数据挖掘是在一个预先建立的数据库中识别模式的过程。 数据剖析是一个从现有数据中分析的过程。
2 数据挖掘也被称为KDD,即数据库中的知识发现。 数据分析也被称为数据考古学。
3 数据挖掘的目的是为实时需求建立机器学习技术。 数据分析的目的是为我们提供数据集内的准确性、一致性、唯一性和无错误。
4 数据挖掘通过应用一些基于计算机的方法和一些算法来提取数据。 数据分析从现有的原始数据集中提取。
5 数据挖掘的意义在于从数据源中挖掘出数据,通过数据分析解决一些问题。 数据分析其目的是收集准确的数据,以确认该数据的用途和质量。
6 数据挖掘通常在结构化数据上执行。 数据分析是在结构化和非结构化的数据上执行的。
7 数据挖掘涉及分类、聚类、回归、关联规则和神经网络来执行任务。 数据分析涉及到发现和分析技术来收集与数据相关的信息摘要。
8 数据挖掘的应用涉及客户行为、信用分析、欺诈检测、商业智能等。 数据分析的应用涉及有针对性的广告,欺诈和风险检测,图像识别,交付物流等。
9 用于数据挖掘的工具有Weka, RapidMiner, Orange, KNIME, Sisense, SPSS, SPSS Modeler, Rattle, Data Melt等。 用于数据分析的工具有Atlan, Aggregate Profiler, IBM Infosphere Information Analyzer, Informatica Data Explorer, Melissa Data Profiler, Microsoft Docs等。