大数据

编辑
本词条由“走词先生” 建档。
大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策的资讯集合。大数据这个术语最早期的引用可追溯到apacheorg的开源项目Nutch。大数据用来描述为更新网络搜索索引需要同时进行批量处理或分析的大量数据集。 “大数据”这个术语最早期的引用可追溯到apache org的开源项目Nutch。当...

大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策的资讯集合。大数据这个术语最早期的引用可追溯到apacheorg的开源项目Nutch。大数据用来描述为更新网络搜索索引需要同时进行批量处理或分析的大量数据集。

术语定义

编辑

“大数据”这个术语最早期的引用可追溯到apache org的开源项目Nutch。当时,大数据用来描述为更新网络搜索索引需要同时进行批量处理或分析的大量数据集。大数据(bigdata),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策的资讯集合。大数据的4V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。

Gartner定义

对于“大数据”(Big data)研究机构Gartner的定义“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

IBM定义

IBM将大数据定义为大小或类型超出传统关系数据库以低延迟方式采集、管理和处理数据的能力的数据集。大数据的特征包括数量大、速度快和种类多。由于人工智能(AI)、移动设备、社交媒体和物联网(IoT)的驱动,数据来源变得比传统数据更加复杂。例如,不同类型的数据来自于传感器、设备、视频/音频、网络、日志文件、事务性应用程序、网络和社交媒体,其中大部分数据实时生成,而且规模非常庞大。

历史沿革

编辑

探索时期

大数据的历史可以从十八世纪八十年代开始追溯。当时,美国统计学家赫尔曼·霍尔瑞斯为了统计1890年的人口普查数据而发明了一台电动器,用来读取卡片上的洞数。这个设备极大地提高了数据处理的速度和效率,让美国仅用1年时间就完成了原本需要8年才能完成的人口普查活动。1986年7月哈尔·B·贝克尔在《数据通信》上发表了《用户真的能够以今天或者明天的速度吸收数据吗?》一文,预计数据记录密度将大幅增长。1999年8月,《美国计算机协会通讯》上发表了一篇题为《千兆字节数据集的实时性可视化探索》的文章,该文章首次使用术语“大数据”。

发展时期

2001年2月,梅塔集团的道格·莱尼发布了一份名为《3d数据管理:控制数据容量、处理速度及数据种类》的研究报告。这份报告对于如何更好地处理和管理数据提出了一些新思路。在十年后,这些观点被整合到了三个维度中,即3v,这也成为了定义大数据的标准之一。2005年,Hadoop项目诞生。Hadoop是由多个软件产品组成的一个生态系统,这些软件产品共同实现全面功能和灵活的大数据分析。Hadoop得以在大数据处理应用中广泛应用得益于其自身在数据提取、变形和加载方面上的天然优势。如阿里云的文件存储HDFS产品、腾讯云的云HDFS产品。2009年,联合国启动了“全球脉动计划”,拟通过大数据推动落后地区的发展。2012年1月,世界经济论坛年会把“大数据,大影响”作为重要议题之一。

产业化时期

2012年4月,美国软件公司Splunk于19日在纳斯达克成功上市,成为第一家上市的大数据处理公司。

2012年7月,阿里巴巴集团为了挖掘大数据的价值,设立了“首席数据官”一职。该职位的主要职责是全面推进“数据分享平台”战略。作为举措之一,阿里巴巴集团推出了大型的数据分享平台——“聚石塔”。这个平台提供了数据云服务,可以为天猫、淘宝平台上的电商及电商服务商等客户开展业务。2013年4月14日和21日,《对话》节目邀请了《大数据时代-生活、工作与思维的大变革》的作者,维克托·迈尔·舍恩伯格和美国大数据存储技术公司LSI总裁阿比两位嘉宾,探讨大数据技术在国家和社会中的普遍关注和焦点。2014年4月,世界经济论坛在发布《全球信息技术报告(第13版)》时,强调了“大数据的回报与风险”这一主题。该报告指出,在未来几年中,各种信息通信技术的政策将变得更加重要,以适应快速发展的技术与应用需求。2018年杭州汇数智通科技有限公司推出大数据分析产品DataFocus,功能涵盖了一体式湖仓、ELT、下一代智能搜索式 BI 系统,数据链接器和转换器。2022年成都大数据产业规模达823亿元,实现两年翻一番。2023年上半年产业规模达573亿元,同比增长32%。

政策推动

2016年6月,全国信息技术大数据标准工作组颁布《大数据标准化白皮书》,结合国内外大数据前沿、应用实践和发展趋势,提出我国大数据标准架构体系。2018年6月,上海市成立了上海市大数据中心,7月天津市成立了天津市大数据管理中心。2019年12月,美国管理和预算办公室、商务部等部门联合发布《联邦数据战略与2020年行动计划》,该战略的突出特点在于美国对数据的关注由技术转向资产,“将数据作为战略资源开发”成为此战略的核心目标。2020年,教育部设置了“数据科学与大数据技术”“大数据管理与应用”等新专业,一些高校(南京大学、武汉大学、中山大学)图情档学科成立大数据研究院,并将数据科学作为重点发展方向。2020年2月,欧盟出台《欧洲数字战略》,提出尊重公民数据权利,支持个人提升对其数据的控制权2021年05月26日,2021中国国际大数据产业博览会在贵州贵阳举行,中共中央政治局委员、国务院副总理刘鹤以视频方式出席并讲话。2022年07月6日,工业和信息化部印发“十四五”大数据产业发展规划。2023年5月26日,中国国际大数据产业博览会在贵州省贵阳市开幕。工业和信息化部党组成员、副部长王江平出席并致辞。

技术特点

编辑

大数据的4个特点包含4个层面:数据量大(volume)、数据类型繁多(variety)、处理速度快(velocity)和价值密度低(value)。

数据量大

数据量巨大是大数据和传统数据最显著的区别,它不仅仅指数据需要的存储空间大,也指数据的计算量巨大。大数据的数据量通常可以达到PB级以上而一般数据的数据量在TB级。数据量的大小间接体现了大数据技术处理数据的能力。数据的基本单位是字节(byte)。对于传统企业来说,数据量一般在TB级,而对于一些大型企业,比如,百度谷歌新浪微博以及淘宝网等,它们的数据量则达到了PB级。目前的大数据技术处理的数量级般在PB级以上。

数据类型多样化

人们产生的社交媒体数据、人机交互产生的传感器数据以及计算机自己产生的系统数据极大地丰富了数据的来源,导致大数据的数据类型非常丰富,包括结构化数据、半结构化数据和非结构化数据。以往,数据大都是系统产生的,存储在关系型数据库中,遵循一定规则的结构化数据。现在,传感器和社交网络的普及使得视频、音频、图片、地理位置、网络日志信息等半结构化数据、非结构化数据越来越多。这对处理数据的能力提出了更高的要求。

数据处理速度快

大数据的增长速度极快,几乎是爆发性的增长,所以对数据存储和处理速度的要求也极高。许多应用需要近乎实时的分析结果,面对海量的数据,数据处理和分析的速度通常需要达到秒级响应,这与传统的数据挖掘技术有本质区别。在数据处理速度快的条件下,还要综合考虑数据处理的及时性和实时性。由于数据不是静止的,而是不断流动的,并且数据的价值随着时间的流逝不断下降,这就要求数据处理的及时性。在现在的应用中大数据往往以数据流的方式产生,并且快速流动、消失,数据不稳定,这就使得对数据处理的实时性有着高要求。

价值密度低

大数据价值密度低即:在海量的数据中,有价值的信息只占有一部分。换句话说,数据量呈指数增长的同时,隐藏在海量数据中的有用信息并没有同样增长,同时,许多有价值的信息都淹没在海量数据中。因此,如何将这些有价值的信息准确地挖掘出来也是目前须解决的问题。

技术架构

编辑

大数据技术架构主要包含大数据获取技术层、分布式数据处理技术层和大数据管理技术层,以及大数据应用和服务技术层。

数据获取技术

大数据获取技术层的研究主要集中在数据采集、整合和清洗三个方面。数据采集技术实现数据源的获取,主要通过分布式爬取、高速全网数据映像技术等方式从网站上获取数据信息。数据整合技术是在数据采集和实体识别的基础上,实现数据到信息的高质量整合。数据清洗技术一般根据正确性条件和数据约束规则,清除不合理和错误的数据,对重要的信息进行修复,保证数据的完整性。

数据处理技术

大数据分析技术主要指改进已有数据挖掘和机器学习技术;开发数据网络挖掘、特异群组挖掘、图挖掘等新型数据挖掘技术;突破基于对象的数据连接、相似性连接等大数据融合技术;突破用户兴趣分析、网络行为分析、情感语义分析等面向领域的大数据挖掘技术。

大数据管理技术

大数据管理技术层主要聚焦于大数据存储、大数据协同和安全隐私等方面。存储技术包括采用mpp架构的新型数据库集群、hadoop等分布式存储技术。协同管理技术通过分布式工作流引擎整合多个数据中心的存储和计算资源,为构建大数据服务平台提供支撑。大数据隐私性技术在少损失数据信息但最大化地隐藏用户隐私方面做了许多尝试。

大数据应用和服务技术

大数据应用和服务技术主要包含分析应用技术和可视化技术。大数据分析应用主要是以业务需求为驱动的面向业务的分析应用。通过分布式海量数据分析和挖掘,为不同类型的业务需求开展专题数据分析,为用户提供高可用、高易用的数据分析服务。可视化通过交互式视觉表现的方式来帮助人们探索和理解复杂的数据。大数据的可视化技术主要集中在文本可视化技术、网络(图)可视化技术、时空数据可视化技术、多维数据可视化和交互可视化等。

关键技术与工具

编辑

关键技术

大数据关键技术包括:大数据采集、数据预处理、大数据存储、大数据分析。

大数据采集

大数据采集是指通过射频数据、传感器数据、社交网络交互数据及移动互联网数据等获得的各种类型的结构化、半结构化(或称之为弱结构化)及非结构化的海量数据,大数据采集是构建大数据知识服务模型的根本。大数据采集一般分为大数据智能感知层和大数据基础支撑层。

大数据智能感知层

主要包括数据传感体系,网络通信体系,传感适配体系,智能识别体系及软、硬件资源接入系统,主要实现对结构化、半结构化、非结构化的海量数据的智能化识别、定位、跟踪、接人、传输信号转换、监控、初步处理和管理等。

大数据基础支撑层

提供大数据服务平台所需的虚拟服务器,结构化、半结构化及非结构化数据的数据库及物联网络等基础支撑环境。

大数据

大数据采集

大数据预处理

大数据预处理技术主要是指完成对已接收数据的辨析、抽取、清洗、填补、平滑、合并、规格化及检查一致性等操作。数据预处理的主要目的是将这些复杂的数据转化为单一的或者便于处理的结构,以达到快速分析处理的目的。通常数据预处理包含三个部分:数据清理、数据集成和变换及数据规约。

数据清理

数据清理主要包含遗漏值处理、噪声数据处理和不一致数据处理。遗漏数据可用全局常量、属性均值、可能值填充或者直接忽略该数据等方法处理。噪声数据可用分箱、聚类、计算机人工检查和回归等方法去除噪声。对于不一致数据进行手动更正。

数据集成

数据集成是指把多个数据源中的数据整合并存储到一个一致的数据库中。这一过程中需要着重解决三个问题:模式匹配、数据冗余、数据值冲突检测与处理。模式匹配是指来自多个数据集合的数据在命名上存在差异,因此需要对来自多个实体的不同数据进行匹配。数据冗余可能来源于数据属性命名的不一致,可以利用皮尔逊积矩来衡量数值属性,对于离散数据可以利用卡方检验来检测两个属性之间的关联。数据值冲突问题主要表现为,来源不同的统一实体具有不同的数据值。

数据规约

数据规约主要包括数据方聚集、维规约、数据压缩、数值规约和概念分层等。通过数据规约可以实现数据集的规约表示,使得数据集变小的同时仍然近于保持原数据的完整性。在规约后的数据集上进行挖掘,依然能够得到与使用原数据集时近乎相同的分析结果。

大数据存储

海量文件存储是大数据存储的主题,大数据系统的成本主要耗费在存储方面,存储效率、成本与产业息息相关。按照数据的结构不同,数据可以被分为结构化的大数据、非结构化的大数据和半结构化的大数据。下面讨论这三类数据如何被存储。

结构化数据存储

结构化数据通常是人们所熟悉的数据库中的数据。结构化数据存储是为了分析而存储,主要采用分布式数据库系统进行存储,其目标有两个:一是在海量的数据库中快速查询历史数据,二是在海量的数据库中分析和挖掘有价值的信息。分布式数据库系统通常使用体积较小的计算机系统,每台计算机具有自己局部的数据库,位于不同地点的许多计算机通过网络互相连接,共同组成一个完整的、全局的大型数据库。

非结构化数据存储

常见的非结构化数据包括文件、图片、视频、语音、邮件和聊天记录等,和结构化数据相比,非结构化数据需要经过二次加工才能得到其有价值的信息。针对非结构化数据的特点当前均采用分布式文件系统方式来存储这些数据。分布式文件系统将数据存储在物理上分散的多个存储节点上,然后对这些节点的资源进行统一管理和分配,并向用户提供文件系统访问接口。目前比较主流的分布式文件系统通常包括主控服务器、多个数据服务器以及多个客户端。

半结构化数据存储

半结构化数据是指数据中既有结构化数据,也有非结构化数据,比如,摄像头回转给后端的数据中有位置、时间等结构化数据,还有图片等非结构化数据。半结构化数据是以数据流的形式传递的,对流数据进行处理的系统叫做数据流系统。数据流的特点是数据不是永久存储在数据库中的静态数据,而是瞬时处理的源源不断的连续数据流。分布式处理是数据流管理系统发展的必然趋势,查询处理技术是数据流处理的关键技术之一。

大数据

大数据存储

大数据分析

大数据处理以后,展现给管理者或者用户的应该是最终的分析结果。数据分析结果的好坏,直接决定了系统价值的输出。大数据分析结合了人工智能、图形图像处理、概率统计等学科,常用的大数据分析包括:可视化分析、数据挖掘算法、预测性分析、语音引擎、数据质量管理。2005年,Hadoop项目诞生。Hadoop是由多个软件产品组成的一个生态系统,这些软件产品共同实现全面功能和灵活的大数据分析。

可视化分析

可视化分析能够直观地呈现大数据的特点,同时能够非常容易被用户所接受,就如同看图说话一样简单明了。可视化的结果可以是静态的,存储在大数据框架提供者中供以后访问。更多的情况下,可视化活动经常要与数据消费者、大数据分析活动以及大数据提供者的处理框架和平台进行交互。在2003年全世界制造了5EB的数据量时,人们就逐渐开始对大数据的处理进行重点关注。2012年,进入数据驱动的时代,掌握数据就能掌握发展方向,因此人们对于数据可视化技术的依赖程度也不断加深。大数据时代对数据可视化的发展具有冲击性,继续以传统方式来表达庞大的数据量中的信息是不可能的,大规模的动态化数据要依靠更加高效的处理算法和表达形式才能够传达出有价值的信息。交互式实时数据可视是如今大数据可视化的研究重点之一。除了大量的使用交互新技术以外,一些前卫的软件如DataFocus引入自然语言处理技术,增强数据分析的易用性。

数据挖掘算法

数据挖掘是对大规模数据进行自动或半自动分析,以提取未知有价值的潜在信息,如数据分组、数据异常记录和数据之间的关系。数据挖掘算法是大数据分析的理论核心。其实质是利用各种统计方法基于不同的数据类型和格式以科学呈现数据本身具备的特点,深入数据内部,挖掘出可利用价值。上世纪80年代末,一个新的术语——数据库中的知识发现,简称KDD(Knowledge discovery in database)——出现,它泛指所有从源数据中发掘模式或联系的方法,人们接受了这个术语,并用KDD来描述整个数据发掘的过程,包括最开始的制定业务目标到最终的结果分析,而用数据挖掘(data mining)来描述使用挖掘算法进行数据挖掘的子过程。

预测性分析

预测性分析是指从大数据中挖掘出特点,通过科学建立模型,之后通过模型代入新的数据,从而预测未来的数据。

语义引擎

语义引擎是语义网时代的搜索引擎,它从词语所表达的语义层次上来认识和处理用户的检索请求。非结构化数据的多元化给数据分析带来了新的挑战,需要语义引擎去分析、提炼数据,从数据中提取信息。

数据质量管理

数据质量管理是指为了满足信息利用的需要,对信息系统的各个信息采集点进行规范,其目的在于充分有效地发挥数据的作用。实现数据有效管理的关键是数据组织。高质量的数据和有效的数据管理,无论是在学术研究中还是在商业应用领域,都能够保证分析结果的真实和价值。

大数据

大数据可视化分析

专业工具

Hadoop由 Apache Software Foundation 公司于 2005 年秋天作为Lucene的子项目Nutch的一部分正式引入。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。随着2004年前后谷歌GFS、MapReduce两篇论文的诞生,为该问题提供了可行的解决方案。Nutch的开发人员完成了相应的开源实现HDFS和MapReduce,并从Nutch中剥离成为独立项目Hadoop,到2008年1月,Hadoop成为Apache顶级项目,迎来了它的快速发展期。

Hadoop得以在大数据处理应用中广泛应用得益于其自身在数据提取、变形和加载方面上的天然优势。Hadoop的分布式架构,将大数据处理引擎尽可能的靠近存储,对例如像加载这样的批处理操作相对合适,因为类似这样操作的批处理结果可以直接走向存储。Hadoop的MapReduce功能实现了将单个任务打碎,并将碎片任务发送到多个节点上,之后再以单个数据集的形式加载到数据仓库里。如阿里云中小企业自建Hadoop集群上云解决方案便采用Hadoop工具。

Hadoop 分布式文件系统 (HDFS) 是一种分布式文件系统,设计用于在商用硬件上运行。它与现有的分布式文件系统有许多相似之处。然而,与其他分布式文件系统的区别是显著的。HDFS 具有高度容错性,旨在部署在低成本硬件上。HDFS 提供对应用程序数据的高吞吐量访问,适合具有大型数据集的应用程序。HDFS 放宽了一些 POSIX 要求,以支持对文件系统数据的流式访问。HDFS 最初是作为 Apache Nutch Web 搜索引擎项目的基础设施而构建的。HDFS 是 Apache Hadoop Core 项目的一部分。如阿里云的文件存储HDFS产品、腾讯云的云HDFS产品。

应用场景与领域

编辑

应用场景

产品开发

Netflix和Procter&Gamble等公司利用大数据来预测客户需求。通过对产品或服务的关键属性进行分类,并对那些属性和成功商业产品之间的关系进行建模,从而为新产品和服务构建预测模型。此外,P&G还根据来自焦点小组、社交媒体、试销市场和前期铺货的数据和分析结果来规划、生产和发布新产品。

预测性维护

各种结构化数据(例如设备年份、品牌、型号等信息)以及非结构化数据(包括数以百万计的日志条目、传感器数据、错误消息和引擎温度)中深藏着可供预测机械故障的信息,通过分析这些数据,企业可以在事故发生前识别潜在问题,从而更加经济高效地安排维护活动,充分延长零部件和设备的正常运行时间。

客户体验

市场竞争的核心在于赢得客户。相比过去,企业现在更有条件清楚地了解客户体验。对此,大数据能够通过社交媒体、网站访问、呼叫记录以及其他来源收集数据,进而改善客户互动,为客户提供个性化产品,降低客户流失率,主动解决问题,最终以卓越体验创造更多价值。

欺诈和合规性

安全形势与合规要求在不断变化,带来了重重挑战。借助大数据,可以通过识别数据模式发现欺诈迹象,汇总海量信息,加速生成监管报告。

机器学习

机器学习是一个热门话题,而大数据正是这一现象背后的一大重要推动因素。通过利用大数据训练机器学习模型,能够“训练”机器使之具备特定能力而无需为其编写程序。正是可供训练机器学习模型的大数据促成了这一转变。

提高运营效率

运营效率领域很少会爆出重磅消息,但大数据在该领域的影响却最为深远。借助大数据,可以深入分析和评估生产、客户反馈、退货率以及更多其他问题,从而减少缺货现象,预测未来需求,还可以利用大数据根据当前市场需求改善决策。

推动创新

大数据有助于研究人、组织、实体以及流程之间的相互关系,进而基于深度洞察,以全新方式推动创新。在大数据的帮助下,可以有效改善财务和企业计划决策,验证趋势和客户需求,更好地为客户提供新产品和新服务,还可以实施动态定价,从而充分实现收益。

应用领域

零售行业

零售行业的大数据应用主要表现为,企业通过了解客户的消费喜好和趋势进行商品的精准营销,提高客户体验,扩大销售额。例如,记录客户的购买习惯,将一些日常的必备生活用品,在客户即将用完之前,通过精准广告的方式提醒客户进行购买,或者定期通过网上商城进行送货,既帮助客户解决了问题,又提高了客户体验。例如,沃尔玛通过分析数据得知在飓风来临前蛋挞的销量会显著增加,于是将蛋挞与飓风用品摆放在一起,有效地提升了蛋挞销量。沃尔玛通过对蛋挞销量与飓风关系的大数据分析获得了提升销量的有效方法。

金融行业

金融行业拥有丰富的数据,并且数据维度和质量都很好。典型应用场景包括银行、保险、证券等领域。例如,在证券行业中,证券行业客户的投资和收益以直接的、客观的货币形式呈现,一方面证券行业利用大数据对海量个人投资者样本进行持续性跟踪监测,对账本投资收益率、持仓率、资金流动情况等一系列指标进行统计、加权汇总,了解个人投资者交易行为的变化、投资信心的状态和发展趋势、对市场的预期以及当前的风险偏好等,对市场行情进行预测;另一方面,利用大数据对市场情绪进行量化,收集并分析社交网络如微博、朋友圈、专业论坛等渠道上的结构化和非结构化数据,了解市场对特定企业的观感,使得市场情绪感知成为可能。

大数据

金融大数据

医疗行业

医疗行业拥有大量的病例、病理报告、治愈方案、药物报告等,通过对这些数据进行整理和分析将会极大地辅助医生提出治疗方案,帮助医生进行疾病诊断。例如,基于大数据的传染病预测预警技术根据传染病传播动力学特征,运用适合描述疾病动力学的数学模型,对传播过程进行定性、定量分析和计算机模拟,以揭示传染病暴发流行的发展过程,可以预测其流行规律和发展趋势,并分析其暴发流行的原因和关键因素,指定最优的疾病防控策略和措施。

大数据

医疗大数据

教育行业

教育行业已广泛应用信息技术,通过大数据分析优化教育机制,可以做出更科学的决策。例如,大数据时代下的高校教学质量评价,在数据库建设完成的情况下,管理人员对高校学生和教师的行为情况和思想情况进行收集,并集结成数据。其中,对于学生来讲,包括学生的学习和选课情况、校园网使用频率、线上作业完成率、学生就业规划以及已毕业学生的岗位分配等。对于教师来讲,包括论文发表情况和职称情况、线上答疑和网上搜索记录。将这些数据进行分类整理,可以挖掘出数据潜在的价值,为更好地促进教学质量评价提供依据。

大数据

医疗大数据

农业行业

大数据在农业上的应用包括依据对未来商业需求的预测来进行产品生产,借助大数据提供的消费能力和趋势报告,政府为农业生产进行合理引导,依据需求进行生产等方面。例如,利用农业气象大数据预测分析系统分析海量气象站监测数据,同时将外接区域的短中长临期天气预报进行综合气候分析,为用户提供精细化天气预报产品,为农作物种植园区提供高频率的气象服务,基于气象潜势,指导未来的农事操作、作物长势、病虫害扩散趋势评估,保证现代农业产业园区的高效运转。

大数据

农业大数据

发展趋势

编辑

技术趋势

数据采集技术:大数据采集大致可以分为软采和硬采,未来软采的发展趋势是建立统一的数据采集框架,通过在待采集数据的系统中预留接口,直接和大数据平台的采集接口对接。硬采方面,未来将出现更多的低功耗智能传感器,可以达到人力无法到达的层面获取数据。

大数据存储技术大数据存储发展的两大主要目标是高可用性和低成本,高可用性即保证存储的数据可以快速访问同时不会丢失,低成本即对存储器的容量要求低。

数据分析技术:基于云计算平台的数据分析挖掘可以在节约成本的前提下满足性能需求,是大数据分析挖掘未来的重要发展方向。另外,机器学习、人工神经网络在未来将继续成为大数据智能分析的核心技术。

产业趋势

产业规模继续扩大:成都市为例,2022年成都大数据产业规模达823亿元,实现两年翻一番。2023年上半年产业规模达573亿元,同比增长32%。

开放共享程度加强:2023年4月20日,国新办就2023年一季度工业和信息化发展情况举行发布会,鼓励大企业搭建数字化平台,面向中小企业共享数据资源和能力,降低中小企业转型门槛。

相关争议

编辑

安全与隐私问题:大数据的应用日趋广泛,数据的安全与隐私已成为大数据技术面临的挑战之一。比如,在互联网上随意浏览网页会留下一连串的浏览痕迹;随处可见的摄像头和传感器会记录下个人的行为和位置信息等。

大数据安全是网络安全中问题最为突出的。无论是对国家,还是对公民个人、数字经济企业而言,大数据的违法运用都会造成严重危害。违法运用大数据,可能会危害国家安全、政治安全、军事安全,譬如国家公职人员出行、举办或参加重要会议等信息被采集、泄露。例如,名为剑桥分析的数据咨询公司被曝料,其通过脸书网站收集8700万用户的偏好信息,然后利用这些信息进行针对性的广告推送。

违法运用大数据,还可能损害个人信息安全。除了违法采集个人隐私信息外,通过分析合法采集的信息对个人实施“精准画像”,描绘出该个体的身份职务、作息时间、活动区域、社交范围、日常收支、健康状况等,可以实现对其全方位透视。如果由于企业内控制度不完善或安防技术滞后,导致个人信息被不法分子窃取,则极易助长诈骗、盗窃等违法行为。有相关研究机构发布的调查显示,在取样的208家企业中,69%曾在过去一年内“遭公司内部人员窃取数据或试图盗取”。还有一些企业将收集的个人信息向第三方主体提供,进行非法交易谋利。

违法运用大数据,可能导致企业自身利益受损。数字经济企业违法运用数据信息,会造成企业自身形象受损、竞争力下降,不仅会影响企业“走出去”,还可能引发监管部门的高额罚款、业务禁止等制裁,不利于企业长远发展。具有域外效力的欧盟《通用数据保护条例》已于不久前生效,其重罚机制对违法采集处理数据的企业,最高可处以2000万欧元或上一财年全球营业额4%的罚款,可能直接导致企业破产。

集成与管理问题:大数据的来源多种多样,需要收集起来统一整理,进行数据的集成与管理,传统的数据存储方式面临着新的挑战。

大数据技术广泛应用于各个领域,高效的集成管理与分析技术成为充分挖掘大数据价值的关键。海量数据的规模已远远超出了人们掌握和理解数据的能力,给数据的正确使用带来了巨大挑战。尤其是异构数据,由于缺乏统一的格式与规范,在各部门和各软件系统中的流动与共享困难重重。以NoSQL和NewSQL为代表的大数据管理系统,在海量异构数据的集成管理与分析功能和性能上存在许多不足,具有巨大的提升潜力。海量异构数据的集成管理与分析有效手段的欠缺,导致了数据管理与分析处理低效和知识发现困难。

IT技术架构问题:大数据因其独特的特征对数据分析处理系统提出了极高的要求,无论是存储、传输还是计算。现有的数据中心技术难以满足大数据的处理需求,IT架构的革命性重构势在必行以应对大数据分析算法和系统的效率问题。

相关概念

编辑

云计算

云计算是指通过高速网络,云计算将大量独立的计算单元相连,提供可扩展的高性能计算能力。它的主要特点是:资源虚拟化、服务按需化、接入泛在化、部署可扩展、使用可计费。简单说,就是用户的计算需求不必在本地计算机上实现,而是只要把计算需求交给“云平台”,“云平台”把巨量数据分解成无数个小任务,分发给众多服务器,最后汇总出计算结果,返回给用户。云计算主要由数据存取处理、资源分配共享、系统安全保障和服务灵活应用等四个功能区组成。这四大功能区由四大技术支撑:数据中心技术、软件定义技术、云安全技术、移动云计算技术。

物联网

“物联网”,顾名思义,就是“万物相连的互联网”。它有两层含义,第一,物联网的核心和基础仍然是互联网,是在互联网基础上延伸和扩展的网络;第二,其用户端延伸和扩展到了物品与物品之间,进行信息交换和通信,也就是万物相连。物联网是互联网的应用拓展,与其说物联网是网络,不如说它是业务和应用。物联网通过智能感知、智能识别与信息通信,广泛应用于网络的融合中。物联网在交通、环保、政府工作、安全、智能家居、消防、环境监测、照明控制等领域都有应用。

车联网

车联网是依据车辆位置、速度和路线等信息所构建的交互式的无线网络。通过GPS、RFID、传感器、摄像头图像处理等装置,依托车联网可以完成车辆自身环境和状态信息的采集。然后,通过互联网和计算机技术,对这些信息进行分析和处理,计算出不同车辆的最佳路线,及时报告路况、天气并安排信号灯周期等,最终实现汽车、道路与人的有机互动,实现车辆和交通的智能化。车联网是一个云架构的车辆运行信息平台,它的生态链包含了智能交通系统、物流、客货运、汽修汽配、车管、保险、紧急救援等方面。

参考资料

编辑

展开[1]什么是大数据?.国脉电子政务网. [2023-11-01].

[2]龚卫. 大数据挖掘技术与应用研究[M]. 长春: 吉林文史出版社, 2021.03: 10.

[3]王静逸著. 分布式人工智能[M]. 北京: 机械工业出版社, 2020.09: 222.

[4]大数据分析概述.IBM. [2023-10-31].

[5]申时凯, 佘玉梅著. 基于云计算的大数据处理技术发展与应用[M]. 成都: 电子科技大学出版社, 2019.03: 3.

[6]北京数猎天下科技有限公司(DataHunter). 一文回顾近二十年数据科学领域的里程碑事件或突破性技术.百家号. [2023-11-01].

[7]文件存储HDFS版.阿里云. [2023-11-01].

[8]云 HDFS.腾讯云. [2023-11-01].

[9]李学龙, 龚海刚. 大数据系统综述[J]. 中国科学:信息科学, 2015, 45(01): 1-44.

[10]DataFocus. 数据可视化分析工具DataFocus,功能分析.百家号. [2023-11-01].

[11]DataFocus简介.DataFocus官网. [2023-11-01].

[12]成都大数据产业规模2023年有望突破千亿元.光明网. [2023-10-31].

[13]刘星, 牛艳芳, 唐志豪. 关于推进大数据审计工作的几点思考[J]. 审计研究, 2016: 3-7.

[14]黄璜, 孙学智. 中国地方政府数据治理机构的初步研究:现状与模式[J]. 中国行政管理, 2018: 31-36. DOI:10.19735/j.issn.1006-0863.2018.12.06.

[15]许宪春, 王洋. 大数据在企业生产经营中的应用[J]. 改革, 2021: 18-35.

[16]柯平. 新图情档——新文科建设中的图书情报与档案管理一级学科发展[J]. 情报资料工作, 2021, 42(01): 15-20.

[17]宋卿清, 曲婉, 冯海红. 国内外政府数据开发利用的进展及对我国的政策建议[J]. 中国科学院院刊, 2020: 742-750. DOI:10.16418/j.issn.1000-3045.20200208001.

[18]刘鹤出席2021中国国际大数据产业博览会开幕式.中华人民共和国工业与信息化部. [2023-10-31].

[19]“十四五”大数据产业发展规划.中华人民共和国工业与信息化部. [2023-10-31].

[20]2023中国国际大数据产业博览会在贵阳举办.中华人民共和国工业与信息化部. [2023-10-31].

[21]梁彦霞, 金蓉, 张新社编. 普通高等学校十四五规划电子信息类专业特色教材 新编通信技术概论[M]. 武汉: 华中科学技术大学出版社, 2021.03: 295.

[22]赵学军, 武岳, 刘振唅编著. 计算机技术与人工智能基础[M]. 北京: 北京邮电大学出版社, 2020.05: 178.

[23]李璠, 刘锦淼柯丹等. 商业银行大数据治理研究与实践[M]. 北京: 机械工业出版社, 2020.09: 4.

[24]张绍华, 潘蓉, 宗宇伟主编. 大数据技术与应用 大数据治理与服务[M]. 上海: 上海科学技术出版社, 2016.01: 77.

[25]刘业峰, 赵元主编. 智能工厂技术基础[M]. 北京: 北京理工大学出版社, 2020.04: 37.

[26]李娟编. 智慧监所实务[M]. 石家庄: 河北科学技术出版社, 2021.04: 94.

[27]陶皖主编. 云计算与大数据[M]. 西安: 西安电子科技大学出版社, 2017.01: 35.

[28]顾晓敏, 梁力军, 孙璐. 金融科技概论[M]. 上海: 立信会计出版社, 2019.07: 48.

[29]中小企业自建Hadoop集群上云解决方案.阿里云. [2023-11-01].

[30]HDFS架构.apache. [2023-11-01].

[31]大数据介绍.甲骨文中国. [2023-10-31].

[32]王先庆, 彭雷清, 曹富生著. 全渠道零售 新零售时代的渠道跨界与融合[M]. 北京: 中国经济出版社, 2018.03: 111.

[33]蔡皎洁编著. 网络金融 第2版[M]. 北京: 机械工业出版社, 2021.01: 147.

[34]阚飙编, 詹启敏总主编. 精准预防诊断系列 传染性疾病与精准预防[M]. 上海: 上海交通大学出版社, 2020.01: 300.

[35]何兴无, 蒋生文著. 大数据技术在现代教育系统中的应用研究[M]. 长春: 东北师范大学出版社, 2019.09: 98.

[36]袁隆平主编. 稻米食味品质研究[M]. 济南: 山东科学技术出版社, 2019.09: 278.

[37]朱孔村. 大数据发展现状与未来发展趋势研究[J]. 大众科技, 2019, 21(01): 115-118.

[38]界面新闻. 工信部:鼓励大企业搭建数字化平台,面向中小企业共享数据资源和能力.百家号. [2023-10-31].

[39]胡孔法主编. 数据库原理及应用[M]. 北京: 机械工业出版社, 2020.07: 256.

[40]发展数字经济,大数据安全是前提.中国新闻网. [2023-11-02].

[41]东北大学在海量异构数据集成管理与分析领域取得新突破.中国日报网. [2023-11-02].

[42]云计算:提供强大而安全的“计算力”.湖州市大数据发展管理局. [2023-10-31].

[43]什么是“物联网”?.中华人民共和国工业与信息化部. [2023-10-31].

[44]什么是“车联网”?.中华人民共和国工业与信息化部. [2023-10-31].

走词作者:走词先生,如若转载,请注明出处:https://zouci.cc/55549/

Like (1446)
词条目录
  1. 术语定义
  2. Gartner定义
  3. IBM定义
  4. 历史沿革
  5. 探索时期
  6. 发展时期
  7. 产业化时期
  8. 政策推动
  9. 技术特点
  10. 数据量大
  11. 数据类型多样化
  12. 数据处理速度快
  13. 价值密度低
  14. 技术架构
  15. 数据获取技术
  16. 数据处理技术
  17. 大数据管理技术
  18. 大数据应用和服务技术
  19. 关键技术与工具
  20. 关键技术
  21. 大数据采集
  22. 大数据智能感知层
  23. 大数据基础支撑层
  24. 大数据预处理
  25. 数据清理
  26. 数据集成
  27. 数据规约
  28. 大数据存储
  29. 结构化数据存储
  30. 非结构化数据存储
  31. 半结构化数据存储
  32. 大数据分析
  33. 可视化分析
  34. 数据挖掘算法
  35. 预测性分析
  36. 语义引擎
  37. 数据质量管理
  38. 专业工具
  39. 应用场景与领域
  40. 应用场景
  41. 产品开发
  42. 预测性维护
  43. 客户体验
  44. 欺诈和合规性
  45. 机器学习
  46. 提高运营效率
  47. 推动创新
  48. 应用领域
  49. 零售行业
  50. 金融行业
  51. 医疗行业
  52. 教育行业
  53. 农业行业
  54. 发展趋势
  55. 技术趋势
  56. 产业趋势
  57. 相关争议
  58. 相关概念
  59. 云计算
  60. 物联网
  61. 车联网
  62. 参考资料

轻触这里

关闭目录

目录