数据挖掘的理论基础
各种理论的数据挖掘的基础包括以下内容:
-
Data Reduction - 这一理论的基本思想是,以减少该交易的准确性,速度响应于需要获得快速的近似的查询答案在非常大的数据库中的数据表示。一些数据减少技术如下:
-
奇异值分解
-
小波分析
-
回归
-
对数线性模型
-
直方图
-
聚类
-
采样
-
索引树的构建
-
-
数据压缩 - 这一理论的基本思想是通过编码在下面的术语来压缩数据给出:
-
比特
-
关联规则
-
决策树
-
集群
-
-
模式发现 - 这一理论的基本思想是要发现在数据库中出现的图案。以下是有助于这一理论的领域:
-
机器学习
-
神经网络
-
关联挖掘
-
序列模式匹配
-
聚类
-
-
概率论 - 这个理论是基于统计理论。这一理论的基本思想是要发现随机变量的联合概率分布。
-
概率论 - 根据这一理论数据挖掘是找到有趣仅对它们可以在一些企业的决策过程中可以使用的程度的图案。
-
微观查看 - 按照这一理论的感知,数据库架构包括存储在数据库中的数据和图案。因此,根据这一理论的数据挖掘是对数据库进行感应的任务。
-
电感数据库 - 除了在数据库导向技术,也有可用于数据分析的统计学方法。这些技术可以应用到经济和社会科学以及科学数据和资料。
统计数据挖掘
一些统计数据挖掘技术如下:
-
回归 - 回归方法用于从一个或多个预测值变量,其中变量是数值预测响应的变量的值。以下是几种形式回归:
-
线性
-
多种
-
权重
-
多项式
-
非参数
-
健壮
-
-
广义线性模型 - 广义线性模型包括:
-
逻辑回归
-
Poisson回归模型
该模型的泛化允许一个明确的响应变量可能与在地类似于数字响应变量的使用线性回归模型设定预测变量。
-
-
方差分析 - 这种技术分析:
-
实验数据由一个数字响应变量描述的两个或两个以上的人群。
-
一个或多个分类变量(因素)。
-
-
混合效应模型 - 这些模型被用于分析的分组的数据。这些模型描述了根据一个或多个因素中的分组数据的响应变量和一些协变量之间的关系。
-
因子分析 - 因子分析法是用来预测一个明确的响应变量。此方法假定自变量服从多元正态分布。
-
时间序列分析 - 以下是一种方法,用于分析时间序列数据:
-
自我回归方法
-
单变量ARIMA(自回归移动平均)模型
-
长记忆时间序列建模
-
可视化数据挖掘
可视化数据挖掘使用的数据和/或知识可视化技术从大型数据集发现隐含的知识。可视化数据挖掘可以看作是以下学科的整合:
-
数据可视化
-
数据挖掘
可视化数据挖掘是密切相关的以下内容:
-
计算机图形学
-
多媒体系统
-
人机交互
-
模式识别
-
高性能计算
一般的数据可视化和数据挖掘可以集成在以下方面:
-
数据可视化 - 在数据库或数据仓库中的数据可以在下面列出了一些可视化的形式进行查看:
-
盒形图
-
3-D 多维数据集
-
数据分布图
-
曲线
-
表面
-
链接图表等。
-
-
数据挖掘结果可视化 - 数据挖掘结果的可视化是数据挖掘的结果,在视觉形式呈现。这些视觉形式可能是散点图和箱线图等。
-
数据挖掘过程可视化 - 数据挖掘过程可视化呈现数据挖掘的几个过程。这允许用户查看数据如何被提取。这也让用户能够看到从数据库或数据仓库中的数据进行清洗,集成,预处理和挖掘。
音频数据挖掘
指示数据或数据挖掘结果的特征的图案,音频数据挖掘利用的音频信号。通过将模式转换成声音和沉思,而不是看图片,我们可以听球场,曲调,以确定什么有趣的事。
数据挖掘和协同过滤
当今的消费者面临着种类繁多的商品和服务,而购物。在现场客户交易时,推荐系统通过使产品推荐帮助消费者。在协同过滤方法通常用于产品推荐给客户。这些建议是根据其他客户的意见。