小数据
可定义为能够对当前决策产生影响的小型数据集。目前正在进行的任何工作,其数据都可以积累到 Excel 文件中。小数据也有助于决策,但其目的不是对业务产生很大影响,而是在短时间内对决策产生影响。几乎所有当前正在进行的工作,其数据都可以在 Excel 文件中获取。小数据在决策中也很有用,但并不打算对业务产生大的影响,而是在短时间内产生影响。
简而言之,数据的数量和结构足够简单,可用于人类理解,从而使其易于获取、简明扼要并具有可操作性,这种数据被称为小数据。
大数据
大数据可以表示为大块的结构化和非结构化数据。存储的数据量巨大。因此,分析人员必须对整个数据进行彻底挖掘,使其具有相关性和实用性,以便做出正确的业务决策。
简而言之,传统数据处理技术无法管理的庞大而复杂的数据集被称为大数据。
以下是小数据与大数据的区别:
特点 | 小数据 | 大数据 |
---|---|---|
多样性 | 数据通常是结构化的、统一的 | 数据通常是非结构化的、异构的 |
真实性 | 数据通常质量高且可靠 | 数据的质量和可靠性可能差别很大 |
处理 | 数据通常可在单机或内存中处理 | 数据需要分布式处理框架,如 MapReduce 或 Spark |
技术 | 传统 | 现代 |
分析 | 可使用传统统计技术分析数据 | 通常需要机器学习等高级分析技术。 |
大数据收集 | 一般来说,以有组织的方式获取信息,然后插入数据库 | 是通过使用具有队列(如 AWS Kinesis 或 Google Pub/Sub)的管道来平衡高速数据。 |
数据量 | 在数十或数百 GB 的范围内 | 数据大小超过 TB |
分析领域 | 数据集市(分析师) | 集群(数据科学家)、数据集市(分析师) |
质量 | 由于数据收集方式较少,因此噪音较小 | 通常,数据质量无法保证 |
处理 | 它需要面向批处理的处理管道 | 它既有批处理管道,也有流处理管道 |
数据库 | SQL | NoSQL |
速度 | 稳定的数据流,数据聚合速度较慢 | 数据以极快的速度到达,短时间内可聚合大量数据 |
结构化 | 以表格格式提供结构化数据,具有固定模式(关系型) | 大量数据集,包括表格数据、文本、音频、图像、视频、日志、JSON 等(非关系型)。 |
可扩展性 | 它们通常是纵向扩展的 | 它们大多基于横向扩展架构,以较低的成本提供更多的通用性 |
查询语言 | 仅 SQL | Python、R、Java、SQL |
硬件 | 单台服务器即可 | 需要多台服务器 |
价值 | 商业智能、分析和报告 | 用于模式查找、推荐、预测等的复杂数据挖掘技术。 |
优化 | 可以手动(人力)优化数据 | 需要机器学习技术来优化数据 |
存储 | 企业内部存储、本地服务器等。 | 通常需要云或外部文件系统中的分布式存储系统 |
人员 | 数据分析师、数据库管理员和数据工程师 | 数据科学家、数据分析师、数据库管理员和数据工程师 |
安全性 | 小数据的安全性实践包括用户权限、数据加密、散列等。 | 大数据系统的安全要复杂得多。最佳安全实践包括数据加密、集群网络隔离、强大的访问控制协议等。 |
术语 | 数据库 | 数据仓库、数据集市 数据湖 |
基础设施 | 可预测的资源分配,主要是可纵向扩展的硬件。 | 更灵活的基础设施,硬件可水平扩展 |
应用 | 小型应用,如个人或小型企业数据管理 | 大型应用,如企业级数据管理、物联网 (IoT) 和社交媒体分析 |