数据量极为庞大,且仍在持续增长。近期一项研究显示,数据专业人士报告其每月数据量增长达63%,平均有超过400个数据源为其商务智能与分析系统提供数据。面对如此多样且数量庞大的数据源,手动的收集、集成与处理方式已难以满足需求。然而,由于大数据具有规模大、结构复杂且类型多样的特点,其集成工作可能变得复杂且充满挑战,因此需要一套精心设计的集成策略。
本文将探讨大数据集成,包括大数据的常见来源、这些数据源如何增加大数据集成的复杂性,以及在设计大数据集成管道时应采用的若干最佳实践。
大数据集成指的是从物联网设备、社交媒体、客户及业务系统等多个数据源收集并聚合数据,形成一个统一、高效的数据集,用于分析和商业智能工作。大数据集成之所以复杂,是因为它处理的是海量数据——这些数据快速流动,有时具有瞬时性,且以多种类型和格式呈现。
大数据的主要特征进一步加剧了这一过程的难度:
- 规模(Volume):大数据体量巨大,已达到拍字节(PB)和艾字节(EB)级别,且仍在持续增长。这会影响集成策略的制定以及工具与技术的选择。例如,大数据需要巨大的存储容量和计算能力,所选工具必须能够无缝扩展以满足不断增长的需求。
- 多样性(Variety):来自大数据源的数据很少以单一格式和类型呈现,而是结构化、非结构化和原始数据的混合体。若在没有适当清理和验证步骤的情况下整合这些数据,会将不可靠的“脏数据”引入分析管道,导致分析结果不准确。
- 速度(Velocity):多个数据源的存在意味着数据会快速且持续地生成,供分析使用。集成策略需根据分析需求制定,例如,瞬时数据需要实时分析,以便在数据失去相关性或价值前采取行动。
- 真实性(Veracity):并非所有从数据源生成的数据都有价值。大数据集成必须借助ETL/ELT流程及其他集成技术提取和处理数据,剔除无关和劣质数据,确保只有高质量数据用于分析。
一个成功且高效的大数据集成过程,需要技术人才、集成设计以及工具与技术的有机结合,以应对这一具有挑战性的过程,且通常会结合实时处理和ETL处理技术,满足实时信息传递和商业智能等业务需求。
大数据的数据来自多个来源,可分为三大类:
- 机器数据:这类数据按固定间隔或在事件发生时生成,来源包括应用服务器日志、用户应用(如健康类应用)或云应用等。机器数据涵盖物联网设备(如可穿戴设备、移动设备、台式机)、交通摄像头、传感器,以及工业设备、卫星等产生的日志。通过实时分析这些数据,可及时响应变化。
- 社交数据:Facebook、Instagram、X(前身为Twitter)等社交媒体平台产生的数据是大数据的重要来源之一。这些数据以照片、视频、音频、消息交流和评论等形式存在。仅从社交媒体的影响力来看,目前Facebook的活跃用户已超过20亿;每分钟在Facebook上分享的内容超过170万条,在Snapchat上发送的快照超过243万条。然而,社交媒体数据的复杂性和多样性,使其与其他来源的数据集成面临挑战。
- 交易数据:交易数据记录了任何交易过程中生成的信息,包括交易时间、购买的产品、发票编号、产品价格、折扣信息、付款方式等。由于交易数据的接触点较多,生成的数据高度非结构化,包含数字、字母和符号。
整合这些数据源具有一定难度,因为这些数据存在异构性。必须解决来自多个位置的数据所具有的“脏数据”特性和快速流动性,同时采用能控制数据流动、确保数据安全性和质量的集成策略。
例如,尽管社交媒体数据能帮助企业更好地了解客户,但这类数据通常是非结构化的、杂乱的,且由于垃圾邮件、虚假账户、机器人或网络喷子的存在,包含大量带有偏见和无关的信息。有效的数据集成策略必须借助适当工具对数据进行清理、过滤和标准化,再与其他来源的数据集成,以确保分析的质量和可靠性。
此外,这些数据源通常包含敏感的个人信息:交易数据包含信用卡信息;机器数据(如医疗可穿戴设备产生的数据)通常包含健康数据。这意味着在集成过程中,需要制定标准的数据治理政策,确保数据隐私和安全。
借助大数据集成工具构建数据管道时,遵循最佳实践能让过程更顺畅。以下是5个建议的最佳实践:
1. 从简设计数据管道。
2. 采用标签与命名规范,便于追踪管道和处理器的用途。
3. 每次重大更改后检查管道,并编写简洁明了的提交说明,标题应有助于在需要回滚时选择正确的草稿。
4. 定期测试管道和处理器。
5. 合理使用数据参数。