小数据

可定义为能够对当前决策产生影响的小型数据集。目前正在进行的任何工作,其数据都可以积累到 Excel 文件中。小数据也有助于决策,但其目的不是对业务产生很大影响,而是在短时间内对决策产生影响。几乎所有当前正在进行的工作,其数据都可以在 Excel 文件中获取。小数据在决策中也很有用,但并不打算对业务产生大的影响,而是在短时间内产生影响。
简而言之,数据的数量和结构足够简单,可用于人类理解,从而使其易于获取、简明扼要并具有可操作性,这种数据被称为小数据。

大数据

大数据可以表示为大块的结构化和非结构化数据。存储的数据量巨大。因此,分析人员必须对整个数据进行彻底挖掘,使其具有相关性和实用性,以便做出正确的业务决策。
简而言之,传统数据处理技术无法管理的庞大而复杂的数据集被称为大数据。

以下是小数据与大数据的区别:

特点 小数据 大数据
多样性 数据通常是结构化的、统一的 数据通常是非结构化的、异构的
真实性 数据通常质量高且可靠 数据的质量和可靠性可能差别很大
处理 数据通常可在单机或内存中处理 数据需要分布式处理框架,如 MapReduce 或 Spark
技术 传统 现代
分析 可使用传统统计技术分析数据 通常需要机器学习等高级分析技术。
大数据收集 一般来说,以有组织的方式获取信息,然后插入数据库 是通过使用具有队列(如 AWS Kinesis 或 Google Pub/Sub)的管道来平衡高速数据。
数据量 在数十或数百 GB 的范围内 数据大小超过 TB
分析领域 数据集市(分析师) 集群(数据科学家)、数据集市(分析师)
质量 由于数据收集方式较少,因此噪音较小 通常,数据质量无法保证
处理 它需要面向批处理的处理管道 它既有批处理管道,也有流处理管道
数据库 SQL NoSQL
速度 稳定的数据流,数据聚合速度较慢 数据以极快的速度到达,短时间内可聚合大量数据
结构化 以表格格式提供结构化数据,具有固定模式(关系型) 大量数据集,包括表格数据、文本、音频、图像、视频、日志、JSON 等(非关系型)。
可扩展性 它们通常是纵向扩展的 它们大多基于横向扩展架构,以较低的成本提供更多的通用性
查询语言 仅 SQL Python、R、Java、SQL
硬件 单台服务器即可 需要多台服务器
价值 商业智能、分析和报告 用于模式查找、推荐、预测等的复杂数据挖掘技术。
优化 可以手动(人力)优化数据 需要机器学习技术来优化数据
存储 企业内部存储、本地服务器等。 通常需要云或外部文件系统中的分布式存储系统
人员 数据分析师、数据库管理员和数据工程师 数据科学家、数据分析师、数据库管理员和数据工程师
安全性 小数据的安全性实践包括用户权限、数据加密、散列等。 大数据系统的安全要复杂得多。最佳安全实践包括数据加密、集群网络隔离、强大的访问控制协议等。
术语 数据库 数据仓库、数据集市 数据湖
基础设施 可预测的资源分配,主要是可纵向扩展的硬件。 更灵活的基础设施,硬件可水平扩展
应用 小型应用,如个人或小型企业数据管理 大型应用,如企业级数据管理、物联网 (IoT) 和社交媒体分析