3.2 大数据共性技术重点课题
针对市场的主要应用需求,对大数据技术体系进行梳理,在对大数据的共性技术进行提炼的基础上,围绕大数据的全生命周期处理过程,来看看大数据技术需要研究的课题。课题一,全球开放域数据采集与共享技术研究,重点解决开放环境下,面向主题的异构数据资源的获取与共享问题,为数据资源的积累和应用打下基础;课题二,多源异构数据智能理解和关联分析技术,重点解决针对声像图文数据的智能化处理问题,通过数据驱动的深度智能化分析技术研究,形成从海量数据中提取高价值信息、挖掘情报知识的能力;课题三,异构计算模式集成的大数据平台构建技术,重点解决针对异构大数据计算框架的整合调度计算问题,通过集成主流异构大数据计算框架,完成算子的抽象提炼与统一调度,支撑复杂大数据计算任务的高效准确执行;课题四,致力于解决大数据全生命周期的安全与隐私保护问题,通过提供针对大数据的安全组件,提升数据的监管和风险防控能力。
上述提出四类课题的研究目的有两个,一是重要性,二是为大数据产品体系的设计提供准则。构建统一的大数据分析与认知计算平台,为各企业的大数据相关工程研发和技术研究任务开展提供环境,为大数据产业的建设打下基础。通过不断的实践迭代,进一步完善,最终形成具有企业特色的大数据平台。以下,按照技术内容和具体考量指标,围绕着数据采集、分析、集成和安全进行讨论。
3.2.1 开放域数据采集与共享
1.研究目标
针对大数据背景下对海量异构互联网数据进行智能化采集与共享的迫切需求,以面向安全、智慧城市的数据分析和应用为目标,重点开展互联网网页智能抓取、分布式跨域数据融合共享服务等研究,突破现有抓取方式的瓶颈,实现高效抓取和持续更新。具备开放域数据智能化的获取手段,支撑构建领域特色数据资源池,支持各领域数据中心的数据采集与数据汇集,实现开放域数据资源的共享(军队、行业、公众等),为领域化人工智能技术研究提供强有力的数据支撑。
2.子课题a:互联网网页智能抓取技术
(1)研究内容
针对互联网上内容丰富和结构多样的网页数据尤其是新兴的自媒体和Deep Web的定制化自动采集问题,开展基于语义的网页内容分析与过滤、面向领域的增量式网页抓取、多媒体网页内容的抓取、在线流式数据抓取等研究,突破基于网页结构学习的自适应爬虫、面向搜索引擎的数据爬取、网页文本语义特征抽取和相似度计算、多媒体网页资源聚焦与动态抓取、分布式高并发在线数据获取等技术,开发面向结构学习的爬取、多媒体动态抓取的模型,研发网页智能抓取工具,构建全球网页数据抓取的验证系统。具备增量抓取、频度控制、内容识别等自适应功能,实现特定领域(如科技、安全等)相关数据的快速采集,为舆情分析、开源情报分析、社会认知等应用提供丰富的数据基础。
(2)技术指标
① 功能指标
● 能够自动识别主题标题和正文内容以及相关多媒体数据,至少支持中英文两种语言的网站;
● 支持对国内外主流多媒体网站的内容动态爬取;
● 具备对采用反爬取策略的网站的数据爬取能力;
● 支持前端渲染类网站的抓取;
● 支持基于音视频内容的比对去重;
● 具备分布式爬取任务调度、资源优化配置、容错处理等功能。
② 性能指标
● 实现全球不少于100个主流新闻媒体板块网页的信息抓取;
● 百兆带宽下,单节点的网页抓取速率不少于58000页每小时,总页面大小不小于20GB;
● 支持分布式及多线程爬取,其中在线流式数据爬取并发数大于等于2000路;
● 网页内容分类准确率大于等于90%;
● 增加可以度量抓取难度的指标。
3.子课题b:分布式跨域数据融合共享服务技术
(1)研究内容
针对独立、异构、封闭的信息系统导致数据资源条块分割,互操作困难的问题,开展广域网环境下全分布式、对等、多对多模式的数据共享服务的研究,突破面向异构数据模型的可配置数据采集引接、异构数据资源服务化重构与跨域交换、可动态编排的数据资源实时整合处理、面向业务主题的数据智能推送、面向敏感数据的多尺度访问控制等关键技术,研发多源异构数据引接、基于服务的数据共享交换、数据融合处理、主题数据智能分发等工具软件,构建分布式跨域数据融合共享平台原型系统,对关键技术进行验证,为实现跨地域、跨领域、跨部门、跨系统的数据开放共享和融合处理提供技术支撑。
(2)技术指标
① 功能指标
● 可自动发现数据源的内容变化,实时或定期汇聚引接数据库表、图文声像、实时报文等类型数据;
● 支持分布式数据资源注册能力,实现分布式数据资源统一组织管理;
● 支持分布式数据服务资源的动态标识、发布和发现;
● 支持面向业务主题的按需分发,提高数据保障的准确性;
● 支持面向角色和属性的数据服务访问控制能力,为各类数据操作提供统一的鉴权服务。
② 性能指标
● 数据在线共享交互能力,可达到并发200个节点(平均数据流量不大于2Mbps每节点);
● 数据接入发现时间不大于3秒;
● 数据资源注册响应时间不大于3秒;
● 数据目录检索响应时间不大于5秒,并发检索用户数据量可达到500个。
3.2.2 多源异构数据分析技术
1.研究目标
现阶段在网络安全、司法大数据、智慧城市等方面已开展了众多智能化的应用技术研究,但普遍存在研究深度不够、基础沉淀不足、亮点不够突出等问题,导致形成成果缺乏特色。在此背景下,急需加强大数据背景下多源异构数据智能分析和挖掘潜在关联关系的相关技术研究,提升基础前沿技术研究能力,支撑高水平应用技术的研发。因此,以面向特定领域的文本和音视频的分析和应用为目标,重点开展基于事件的文本智能分析、视频/图像内容理解、音频数据处理分析、SAR图像目标检测等研究,突破对文本、视频、图像、音频和遥感数据分析处理的关键技术,研发多源异构数据机器理解和关联分析的工具,构建大数据分析和理解平台,为解决大数据分析能力弱、大数据服务水平低的问题提供技术支撑。
2.子课题a:基于事件的文本智能分析技术
(1)研究内容
针对各种场景下的事件应用中所涉及的事件认知、演进分析、趋势预测等薄弱环节,以特定领域的相关文本大数据为研究对象,重点开展事件要素结构化建模,进行基于大数据的事件发现、追踪、预测等方面的研究,突破基于语义分析的海量文本事件信息自动提取和编码,事件关系网络构建,事件多维度关联分析,外延事件演化等关键技术,开发事件模型及事件关系模型,研发文本事件提取和分析工具,构建基于事件的文本分析演示系统,进行特定领域典型事件的提取、追踪、演化与预测验证,为评估、预测热点地区的特定事件发展趋势提供技术支撑。
(2)技术指标
① 功能指标
● 能够提供面向中英文文本的典型领域事件信息的提取功能;
● 提取事件的发起者、承受者、事件内容和性质、时间、地点等要素;
● 能够识别事件内容中的国家、人物、组织、地区、角色、目标等实体;
● 具备事件根本原因分析功能;
● 具备事件的时序、因果、衍生等方面的演化分析功能;
● 能够基于相似事件历史规律进行事件走向预测。
② 性能指标
● 事件关联分析方法大于等于4种,包括但不限于基于时间、关键词、人物、地缘等的关联分析方法;
● 典型事件识别和提取准确率大于等于80%,召回率大于等于75%;
● 对特定的文本信息进行浓缩和提炼,抽取出文本的中心主题,抽取后的中心主题能够正确的概括文本信息,偏差率小于10%;
● 在海量文本内容里找出与实体(目标)或者主题相似的信息,相似度计算准确率不低于70%;
● 预测事件走势的准确率不低于70%。
3.子课题b:视频/图像内容理解技术
(1)研究内容
针对大数据背景下的安全等特定领域对视频数据机器智能理解的迫切需求,开展面向海量视频/图像数据的高层语义理解研究。重点突破面向视频/图像数据的重点目标检测、重点人物识别、面向视频数据的典型动作理解、图像内容语义理解等关键技术,开发多种目标检测模型,研发视频/图像智能语义理解工具软件,构建视频/图像内容理解演示系统,对内容理解的准确率进行定量验证,为实现大数据背景下视频/图像内容的高效理解提供技术途径。
(2)技术指标
① 功能指标
● 支持人物的识别和属性标注,包括但不限于:性别、年龄、服饰、肤色、长短发等;
● 支持不少于10种常见基础设施目标的类型识别,包括但不限于车站、医院、加油站、电厂、港口、水坝、桥梁等;
● 支持动态目标识别,包括但不限于动物、汽车、火车、飞行器、舰船等;
● 支持对地貌特征识别,包括但不限于森林、山川、河流、湖泊、海洋等;
● 支持对视频内容的语义理解,并可以以文字形式表示。
② 性能指标
● 特定领域目标检测准确率大于90%;
● 目标属性标注准确率大于85%;
● 在特定数据库上视频片段语义理解准确率关键指标如BLEU_4、Meteor等比现有水平提高5%。
4.子课题c:音频数据处理分析技术
(1)研究内容
针对现有系统中对于复杂音频场景理解不准、小语种关键词检出困难、复杂信道音频内容分析性能低等问题,结合声学模型、语言模型以及大数据分析算法,开展音频场景精细化分割、音频场景语义分析、音频预处理、语音语种判别、语音关键词检出、基于声纹的目标分类、音频分析模型算法库等研究,重点突破基于监督学习的音频场景盲源分离、基于深度学习的音频事件和声纹目标分类、基于迁移学习的小语种关键词检出、复杂环境语音信号增强与降噪等关键技术,开发声学特征提取、语音识别训练模型,研发音频场景分割、声纹目标分类等工具软件包,构建音频数据处理分析演示系统进行验证,实现对音频内容的精细化语义描述和语义理解,为大数据环境下音频数据处理分析提供技术支撑。
(2)技术指标
① 功能指标
● 支持对音频数据中多个声源场景的分割(如语音、非语音等);
● 支持特定目标分类(如飞机、车辆、舰船等);
● 支持特定事件检测(如打架、聚集、呼救、施工、鸣笛等);
● 支持说话人身份识别;
● 支持小语种分类(如维语、藏语、闽南语、越南语、日语、韩语等);
● 支持语音关键词检出;
● 音频编解码支持已知常见所有音频格式和采样率;
● 支持时域、频域、空域多种模式噪音消除与音频增强;
● 支持离线和实时音频变频、调速、还原;
● 音频算法引擎支持算法编排与调度;
● 提供支持服务化注册、管理与调用的音频模型算法库。
② 性能指标
● 在AudioSet、OpenKWS、CHiME、Switchboard等公开标准数据库测试环境下,音频场景分割、音频目标事件分类、声纹识别、小语种关键词检出、语种识别关键性能指标(如识别率、检出率、错误率等)比国内外现有同类开源算法性能提升5%;
● 在复杂环境(如城市、机舱等)和低质量信道(如短波、超短波等)条件下,音频场景分割、音频目标事件分类、声纹识别、小语种关键词检出、语种识别关键性能指标(如识别率、检出率、错误率等)比国内外现有同类开源算法性能提升3%。
5.子课题d:基于大数据SAR图像的目标检测识别技术
(1)研究内容
针对SAR图像大范围场景、目标多样性和背景复杂性等问题,围绕SAR图像目标情报获取的迫切需求,重点开展基于大数据SAR图像的目标检测识别技术研究,突破大数据典型目标样本库的实测和仿真构建,基于大场景图像的自适应快速目标分割、支持多维数据的深度网络构建、SAR目标特征的迁移学习、结合背景知识的弱监督学习等关键技术,开发适用于SAR图像的深度网络模型,研发SAR图像特征学习工具软件,构建基于大数据SAR图像的目标检测识别演示系统,并进行验证,为实现在大数据SAR图像条件下重点区域、广域目标的侦察、监视和评估提供技术支持。
(2)技术指标
① 功能指标
● 支持不同分辨率、极化、频率、入射角等多维SAR图像的输入和处理;
● 支持全场景SAR图像的目标检测和识别;
● 支持车辆、舰船、飞机等典型SAR目标的检测识别。
② 性能指标
● 目标检测率不低于90%,虚警率不大于10%;
● 高分辨率SAR图像(优于1m分辨率)下对目标识别率优于85%;
● 单目标识别时间优于5秒。
6.子课题e:高效异构数据在线分析技术
(1)研究内容
针对大数据的多样性、大体量带来的在线数据分析时延大,效率低,交互式查询等待时间长的问题,开展面向异构数据高效在线分析技术研究,突破基于非结构化数据的智能理解、标注、自然语言描述的高效在线多维分析技术、低时延交互式查询技术,实现对异构数据中识别特征、目标、事件、行为等内容的高效在线分析,为特定领域(如公共安全、交通管理等)的视频、音频、文本等异构数据的在线分析效率提升提供技术支持。
(2)技术指标
① 功能指标
● 基于对非结构化数据的智能理解、标签建立数据索引;
● 基于数据索引对异构数据进行查询、统计、筛选等在线分析处理。
② 性能指标
● 对TB级异构数据的统计分析处理时延低于10秒;
● 对TB级异构数据交互式查询时延达到亚秒级。
3.2.3 异构计算模式集成技术
1.研究目标
针对单计算或嵌套模式计算框架不能有效支撑多计算模式大数据处理任务协同或并行计算,以及分布式存储系统低效磁盘I/O,制约了计算模式分布式框架和分布式文件系统性能的诸多问题,围绕高性能并行协同数据处理目标,开展异构混合并行计算和多层次统一存储优化等技术研究,重点突破大数据异构计算模式统一集成框架和优化、分布式跨域可信海量数据存储与高速访问、基于分布式计算与存储环境的数据挖掘算法、海量小文件存储优化、基于虚拟资源的大数据分析环境构建技术等关键技术,建立异构计算模式统一集成的大数据平台(以下简称集成大数据平台),通过软硬协同,提升海量异构数据分析挖掘的能力,支撑海量异构数据的应用需求。
2.子课题a:异构计算模式统一集成框架和优化技术
(1)研究内容
针对大数据单计算模式或嵌套计算模式框架难以进行有效调度与管理、内存/SSD/HDD等异构存储资源难于统一调度等问题,开展多种异构计算模式集成、资源统一调度以及基于内存/SSD/HDD的层次化分布式存储系统性能优化等技术的研究,重点突破系统中异构计算资源和存储资源的池化、状态实时感知,以及面向统一集成的大数据平台数据处理任务的计算资源和存储资源,分层统一调度和管理、单计算模式或嵌套计算模式框架的优化等关键技术,构建统一的异构计算模式框架和层次化的高性能存储系统,为异构计算模式统一集成的大数据平台提供基础核心环境。
(2)技术指标
① 功能指标
● 支持批处理、流计算、并行计算、图计算等主流异构计算模式框架的统一集成与管理,提供集群扩展能力;
● 支持面向任务级的多计算模式集成的混合计算资源CPU/GPU/FPGA的统一调度,能够满足大数据处理任务调度的实时、近实时数据处理要求;
● 提供自动的资源接入、资源发现和资源状态全局实时感知能力;
● 支持分布式文件系统、分布式对象存储(兼容S3、Swift接口)、网络化存储、块设备存储等多种存储系统的集成与统一访问,提供统一访问接口;
● 支持内存/SSD/HDD等异构存储资源的池化管理;
● 支持多副本、纠删码等数据保护模式;
● 支持计算和存储资源的统一监控;
● 支持国产处理器和国产操作系统。
② 性能指标
● 统一计算框架对主流计算模型的解释与调度的响应时间不大于10毫秒;
● 资源状态的实时感知时间不大于100毫秒;
● 与开源存储系统性能相比,集成大数据平台中的分布式存储系统访问性能,在SSD资源充足的条件下提高5倍以上;如内存资源充足,则达20倍以上。
3.子课题b:分布式跨域可信海量数据存储与高速访问技术
(1)研究内容
面向多用户连接、数据吞吐量大、数据安全保障高等海量业务数据存储管理需求,开展分布式跨域可信海量业务数据存储与高速访问研究,突破针对海量数据的高可靠分布式存储、针对复杂网络环境的存储安全虚拟化、基于安全认证的分布式存储智能管理、针对安全敏感环境的多域多级数据安全存储、面向海量异构业务数据的高速访问等关键技术,研发安全存储节点管理、安全存储虚拟化、存储管理等工具软件,构建分布式跨域大数据存储管理原型系统,对海量业务数据存储、高度弹性扩展、自主管理修复、无单点故障等要求进行验证,为新一代信息系统的数据存储提供基础软件支撑能力。
(2)技术指标
① 功能指标
● 能够将多个物理设备上的存储资源虚拟为统一的存储资源池;
● 能够查询各节点的状态情况,包括元数据服务器、存储节点的容量和性能(读IOPS、写IOPS、读流量、写流量)等信息;
● 提供统计报表接口,能够完成用户存储容量、存储数据访问量等数据的统计;
● 至少支持POSIX、块、对象存储接口;
● 支持与大数据分析处理平台集成,并为资源管理提供存储读写优化;
● 支持元数据和数据访问的负载均衡,能够将访问请求均匀分发到各个节点上;
● 支持大文件分片存储在多个存储节点,各存储节点能够完成对各分片的并发读写能力,提高大文件的访问速度。
② 性能指标
● 稳定的万兆位子网络环境下,数据读吞吐性能至少达到700Mbps,数据写吞吐性能能力至少达到580Mbps;
● 至少支持1000个用户并发访问。
4.子课题c:基于分布式计算与存储环境的数据挖掘算法研究
(1)研究内容
针对分布式计算与存储环境下的高效数据挖掘算法设计问题,根据各种结构化和非结构化数据的格式和内容特点,开展基于分布式计算与存储资源的并行化挖掘算法设计、面向特定领域的辅助决策及深度学习模型构建、挖掘分析结果可视化展现、数据挖掘分析算法共享平台构建、并行挖掘分析任务的计算资源调度等技术研究,重点突破挖掘算法并行处理、并行任务优化调度和挖掘结果可视化展现等关键技术,构建能够挖掘多种格式、多种类型数据的大数据挖掘分析算法平台,为企业的大数据业务提供通用高效的数据分析工具支撑。
(2)技术指标
① 功能指标
● 具备分布式计算与存储环境下的数据挖掘分析能力;
● 支持基于特定决策主题的历史数据的案例库建设;
● 支持基于案例库数据的深度学习模型训练。
② 性能指标
● 挖掘分析数据种类大于等于5种:结构化数据(关系型数据、图数据)、非结构化数据(文本数据、图像数据、音频数据);
● 并发挖掘分析任务大于等于5个;
● 数据挖掘算法种类大于等于15种;
● 试验所用各类数据集总规模不少于1千万条;
● 辅助决策及深度学习模型大于等于10个。
5.子课题d:海量小文件存储优化技术
(1)研究内容
面向海量小文件高性能存储访问需求,针对目前分布式文件系统小文件存储访问效率低下的问题,研究海量小文件高性能存储访问技术,重点突破动态数据平衡、基于分布式可扩展哈希的多级目录索引及文件快速检索、目录聚合存储等关键技术,实现海量小文件存储处理性能及内存级的文件访问速度优化,为面向海量小文件的数据处理和分析挖掘提供支撑。
(2)技术指标
① 功能指标
● 提供Java/C/REST文件访问接口;
● 提供兼容HDFS、POSIX、块、对象存储接口,支持与Hadoop、Spark等计算框架的集成;
● 提供分布式可扩展哈希的多级目录索引构建和目录的聚合;
● 支持小文件与分布式内存文件系统集成框架。
② 性能指标
● 支持亿级的海量小文件高性能存储与访问,1000个1MB小文件同时进行写入的时间不超过200ms,1000个1MB小文件并发读取时间不超过150ms;600个1MB小文件读,同时400个1MB小文件写,平均读取时间小于150ms,平均写入时间小于200ms。
6.子课题e:基于虚拟资源的大数据分析环境构建技术
(1)研究内容
针对异构计算框架下构建的数据资源安全和隐私保护、跨平台/跨区域数据融合、数据认知计算云环境构建等迫切需求,重点开展基于云的大数据认知与分析集成环境构建、面向数据安全共享的分布式检索等研究内容,突破数据资源跨域虚拟化整合、分布式数据湖管理、基于云的数据应用协同开发、可视化建模技术、自助式分析技术等关键技术,在统一异构计算框架下开发数据湖模型,研发云环境下的分布式数据分析引擎,构建大数据软件发布平台。实现跨平台、跨地域等数据虚拟化整合,为大数据应用协同开发、大数据资源流通环境、大数据研发生态环境的构建提供支撑。
(2)技术指标
功能指标如下。
● 分析与认知环境基于云端搭建;
● 支持面向大数据研发项目的生命周期管理;
● 具备跨域数据虚拟化及安全访问能力;
● 支持跨域(全球)数据的联合查询;
● 支持大数据软件的分布式软件资源共享;
● 支持可视化的建模过程,包括拖动式表关联、数据筛选、字段计算等;
● 支持自助式分析,可定制可视化表现形式,包括图表、数据流、层次结构、时间序列等。
3.2.4 数据安全与隐私保护
1.研究目标
针对大数据环境下政府、社会和个人信息保护难、数据泄露事件频发、信息资源失控等问题,开展敏感数据智能发现与脱敏、大数据监管与风险评估、大数据环境信任服务、大数据环境弹性密码服务及密钥管理、大数据系统安全防护、数据匿名保护等技术研究,实现大数据环境下系统可信、数据可管、风险可控,从而全面提升大数据安全防护能力,支撑大数据产业健康发展。
2.子课题a:敏感数据智能发现与脱敏技术
(1)研究内容
针对在大数据环境下,海量、多源、异构数据在数据交换共享及流转过程中面临的敏感数据泄露问题,开展大数据环境下敏感数据智能发现与脱敏技术研究,重点突破基于自然语言处理及深度学习的结构化/非结构化敏感数据自动识别、分布式高速脱敏等关键技术,实现海量数据按需高效静态/动态脱敏和抗关联脱敏,满足数据所有者、使用者和管理者在数据使用过程中敏感信息保护的需要,促进数据资源安全共享、交换和开放应用。
(2)技术指标
① 功能指标
● 支持Hadoop等主流大数据平台中静态脱敏和动态脱敏两种模式,并具备抗关联分析的能力;
● 支持结构化数据(Oracle、SQL Server、MySQL、Excel等)、半结构化数据(如xml、html等)与非结构化数据(如图片、文本等)敏感信息的智能识别和脱敏;
● 脱敏算法种类不低于10种,均支持分布式并行处理。
② 性能指标
● 文本类敏感数据识别率不低于85%;
● 针对统计类应用需求,脱敏后数据不可还原的条件下统计信息保真率不低于99%;
● 数据库脱敏速度峰值不低于每小时18GB。
3.子课题b:大数据监管与风险评估技术
(1)研究内容
针对大数据环境下海量多源异构数据汇聚导致的数据流转过程复杂、数据权属关系不清等问题,开展大数据使用过程监管与数据安全风险评估技术研究,重点突破数据全生命周期使用规律关联分析与预测、基于推理的合规性深度检测与审计、自适应风险评估模型等关键技术,实现对数据(尤其是敏感数据)分布和使用过程的监测,增强大数据平台内敏感数据的安全态势感知能力及数据安全事件的追踪溯源能力。
(2)技术指标
① 功能指标
● 支持Hadoop等主流大数据平台的数据安全应用监管;
● 支持对大数据全生命周期不同阶段可视化监管;
● 支持基于报表、图形的10种以上可视化模型对数据使用规律进行多维度分析、预测及追踪;
● 支持数据使用合规性检测与审计,支持对越权访问、越级访问、敏感数据泄露等问题进行合规性策略配置及检测;
● 支持对全局及局部数据进行实时安全风险评估,提供趋势预测、行为预判等两种以上数据风险评估模型。
② 性能指标
● 数据安全监测告警实现秒级响应;
● 数据使用规律分析及呈现时间不超过2秒;
● 数据使用规律预测综合准确率不低于70%。
4.子课题c:大数据环境信任服务关键技术
(1)研究内容
针对数据在采集、汇集、处理、交换、应用、交易过程中的各个阶段,由于数据来源渠道多样、数据融合模式庞杂、流转渠道复杂导致数据的查询、溯源、验证困难等问题,开展大数据环境下的数据信任服务技术研究,重点突破多源异构数据的智能标注、基于区块链的数据信任服务等关键技术,实现大数据平台中数据资源的可查询、可溯源、可验证,为大数据资源安全共享应用提供信任保障。
(2)技术指标
① 功能指标
● 支持多元异构数据的智能化标注,标注的数据类型包括但不限于音视频、文本、密文数据等;
● 支持数据在流转过程的不同阶段可以进行有效标注,同时支持对数据血缘关系的标注;
● 支持基于区块链的数据资源使用可信记录功能和防窜改、抗抵赖功能;
● 支持数据使用的安全审计、数据资源的追踪溯源功能。
② 性能指标
● 数据标注响应时间小于等于200毫秒;
● 数据标注成功率大于等于99.9%;
● 数据资源的查询、验证、溯源等服务的响应时间小于等于1秒。
5.子课题d:大数据环境弹性密码服务及密钥管理技术
(1)研究内容
大数据环境下数据量大、用户数量多、数据交换频率高,针对传统的密码服务模式难以满足大数据环境的应用与数据密码保护所需的高性能加密和大规模应用密钥管理能力的问题,开展大数据环境弹性密码服务及密钥管理技术研究,重点突破弹性密码服务、超高速密码运算、大规模应用密钥管理等关键技术,实现大数据中心密码计算能力按需供给、大规模应用密钥安全管理等能力,支撑大数据环境下数据高性能安全存储、传输及共享交换。
(2)技术指标
① 功能指标
● 支持密码服务按需提供,服务能力动态可伸缩;
● 支持对称密码运算、非对称密码运算和随机数产生,提供主流大数据平台密码服务调用API接口;
● 支持大数据平台中多租户隔离的应用密钥管理服务;
● 提供大数据平台集成管理接口,实现密钥管理服务的申请、查询、注销等。
② 性能指标
● 支持对200台密码运算设备的统一管理;
● 单台密码运算设备支持30台标准密码服务实例;
● 应用密钥管理的用户群组数大于等于1000;每个群组用户数大于等于2000;
● 对称密码算法速率大于等于20Gbps;
● 单台密码运算设备密码服务支持的并发连接客户端数量大于等于1000。
6.子课题e:大数据平台安全防护关键技术
(1)研究内容
针对大数据平台中数据的大融合、高汇聚、全集中带来的数据泄露风险加大、系统安全风险高、安全事件影响大等问题,研究大数据平台安全防护技术,重点突破基于数据内容的安全检查、数据防泄露、数据全生命周期防窜改、数据安全存储等关键技术,增强大数据平台的安全防护能力,实现大数据平台的安全可靠和数据资源在接入、存储、共享交换、处理使用等过程的可管可控。
(2)技术指标
① 功能指标
● 支持对引接数据的内容检测,能有效识别出常见的病毒、恶意脚本、木马、蠕虫等恶意代码;
● 支持明文数据、密文数据在共享交换时内容检查,对具有异常信息的数据和私有传输协议能有效的发现并按策略阻断;
● 数据在大数据平台中流转的各个阶段具有实时监测、操作风险告警的能力,同时具有拒止窜改和非法删除的能力;
● 具有根据数据的密级进行分级分类存储和隔离存储功能。
② 性能指标
● 数据内容检测发现恶意内容或代码的正确率大于等于99.5%, GB级数据检测完成时间大于等于2秒;
● 数据智能密级标定的正确率大于等于99.5%。
7.子课题f:分布式跨域可信海量业务数据存储与高速访问技术
(1)研究内容
面向多用户连接、数据吞吐量大、数据安全保障高等海量业务数据存储管理需求,开展分布式跨域可信海量业务数据存储与高速访问研究,突破针对海量数据的高可靠分布式存储、针对复杂网络环境的存储安全虚拟化、基于安全认证的分布式存储智能管理、针对安全敏感环境的多域多级数据安全存储、面向海量异构业务数据的高速访问等关键技术,研发安全存储节点管理、安全存储虚拟化、存储管理等工具软件,构建分布式跨域大数据存储管理原型系统,对海量业务数据存储、高度弹性扩展、自主管理修复、无单点故障等要求进行验证,为新一代信息系统的数据存储提供基础软件支撑能力。
(2)技术指标
① 功能指标
● 能够将多个物理设备上的存储资源虚拟为统一的存储资源池;
● 能够查询各节点的状态情况,包括元数据服务器、存储节点的容量和性能(读IOPS、写IOPS、读流量、写流量)等信息;
● 提供统计报表接口,能够完成用户存储容量、存储数据访问量等数据的统计;
● 至少支持POSIX、块、对象存储接口;
● 支持与大数据分析处理平台集成,并为资源管理提供存储读写优化;
● 支持元数据和数据访问的负载均衡,能够将访问请求均匀分发到各个节点;
● 支持大文件分片存储在多个存储节点,各存储节点能够完成对各分片的并发读写能力,提高大文件的访问速度。
② 性能指标
● 稳定的万兆位网络环境下,数据读吞吐性能至少达到700Mbps,数据写吞吐性能至少达到580Mbps;
● 至少支持1000个用户并发访问。