首页 公司

星环科技?打造自主可控的高性能数据库,开启国产化升级新篇章

2022-04-27 13:24:15 来源:互联网

ArgoDB 5.0版本结合数据隐私安然的营业诉求,引入DP-SQL才能,实现对数据的隐私保护,知够数据宣布、流畅、脱敏、查询、交易等场景下的数据安然请求。在交互式场景下,数据治理者可以按需对查询请求数据集合添加须要的干扰(即:噪声)后反馈给用户;在非交互式场景下,数据治理者可以按需针对所有可能的查询,在知足必定前提下一次性宣布相干查询数据(即添加噪声后的“净化版”数据)。

应用行列混淆存储筹划,列存供给给AP引擎支撑高机能分析,同时列存作为TP库的只读副本,及时从行存同步事务最新数据库,延迟低于10s,包管了数据分析的时效性和全局一致性读。

星环科技自成立以来,一向致力于国产化数据库的自立研发,打造了自立可控的高机能分布式分析型数据库ArgoDB和分布式交易型数据库KunDB。交易型数据库KunDB具备较强的SQL兼容性,同时具备高可用、高并发、在线扩缩容、数据强一致性等才能,实用于操作型营业、高并发营业等场景。多模型数据库ArgoDB具备完全的SQL兼容性,同时具备高扩大、高靠得住、多模型、存算解耦等才能,一站式知够数据仓库、及时数据仓库、数据集市、OLAP、联邦计算等场景。

经由过程赓续的打磨和对营业场景赓续的落地实践,星环科技关系型数据库ArgoDB和KunDB已经在金融、政务、能源、医疗、交通等多个行业应用,成功替代Oracle、MySQL等传统营业数据库。将来,星环科技将持续深耕数据库范畴,经由过程赓续的技巧立异和应用立异,为用户供给更完全功能,更高机能、更稳定靠得住的国产化数据库产品。

经由过程赓续的打磨和对营业场景赓续的落地实践,ArgoDB和KunDB已成为具有完全自立常识产权的成熟的国产数据库,可以或许为更多的客户供给高机能、高靠得住、成熟的数据库产品办事,赞助用户应对智能数据时代海量数据的分析与摸索。

近日,星环科技正式宣布了ArgoDB5.0和KunDB3.0,并将其结合打造了一体化及时AETP技巧(分析加强型交易库),在一个数据库体系里同时支撑交易与分析混淆型营业场景,助力数据库国产化进级。

ArgoDB5.0:存算引擎双进级,打造高机能湖仓集一体化多模型数据库 

Transwarp ArgoDB 是星环科技自立研发的面向数据分析型营业场景的国产化分布式多模数据库,可以或许一站式替代Hadoop+MPP混淆架构,供给多模分析、及时数据处理、存算解耦、混淆负载、数据联邦、异构办事器混淆安排等先辈技巧才能,一站式知够数据仓库、及时数据仓库、数据集市、OLAP、联邦计算等各类需求。2019年8月,ArgoDB成为全球第四个经由过程TPC-DS基准测试并经由TPC官方审计的数据库产品。

ArgoDB5.0打造了新一代向量化计算引擎和多模型存储引擎,整体分析机能大年夜幅度晋升。ArgoDB5.0进一步加强了多模型数据的支撑才能和处理才能,经由过程一个数据库就可以知足更多半据模型处理和不合模态数据接洽关系。同时,ArgoDB5.0引入DP-SQL才能,实现对数据的隐私保护,知够数据宣布、流畅、脱敏、查询、交易等场景下的数据安然请求。在数据资产安然保障上,5.0版本持续加强了数据容灾备份才能,通过细粒度、高并发、高效力的容灾备份才能

进一步晋升数据安然保障才能。此外,ArgoDB 5.0进一步加强数据湖和数据仓库/数据集市等营业面的技巧改革,加强湖仓集融合才能,经由过程同一拜访接口、同一存储、同一元数据治理等才能,真正意义上为用户供给湖仓集一体化的场景解决筹划。

新一代向量化计算引擎和多模存储引擎,分析机能是同类数据库产品的2~10 

ArgoDB 5.0在原高效的计算引擎之上,将计算算子全向量化native改写,使得高并发复杂分析在百毫秒内反馈成果,将优化器中引入数据的动态采样,周全支撑多种join的重写。同时结合营业场景,优化场景化才能,重点在湖仓一体的SQL治理长进行了优化,并且新增隐私计算才能和数据动态脱敏才能,加强数据联邦场景中SQL语句算子下推才能等。

在存储引擎方面,ArgoDB 5.0持续深耕分布式存储框架与列式存储引擎的优化,在降低营业资本消费的同时晋升多模型才能和营业机能。相对于上一代批量扫描机能晋升了10倍以上,同时降低营业SQL资本(IO等)的应用,晋升体系稳定性和营业效力。对于及时数仓场景,数据延迟控制在毫秒级,并且支撑高并发分析。在大年夜集群场景下,支撑百万级其余表和百万级其余元信息治理,稳定性进一步晋升。

基于存算双引擎的进级,ArgoDB 5.0在机能上有大年夜幅度的晋升,尤其是OLAP分析场景下的机能晋升,无论是单表查询照样多表接洽关系场景,ArgoDB都具备有明显的机能优势,整体上是同类数据库产品的2-10倍,赞助用户更快、更稳定地应对复杂多变的营业需求。

多模数据融合分析,更高效地知足”一库多用“场景 

跟着营业数据量赓续增长的同时,数据构造也变得越来越灵活多样,数据不再局限于规整的构造化数据,半构造化、非构造化数据在数据域处理中的占比逐年上升,是以对不合模态的数据进行智能化数据处理的需求越来越急切。

多模型数据库ArgoDB继3.2版本新增支撑大年夜对象数据类型Blob和Clob,用来存储、查询和处理图片、电子文档、音频、视频等非构造化数据后,ArgoDB 5.0新增对半构造化的JSON/JSONB/XML数据类型的支撑,知足了更多半据模型处理场景和更多复杂营业需求。

同时,ArgoDB 5.0进一步加强了对多模态数据的处理才能,在优化器长进一步深耕,对不合模态数据基于价值/规矩等主动断定选择合理高效模型,拆分、分发计算义务,让数据处理加倍快捷和高效。

在架构上,ArgoDB基于存算解耦,实现了多模数据库的“四个同一”:

同一的SQL编译引擎,支撑SQL 99/2003 标准语法,兼容TD,Oracle,DB2等多种方言,对不合模式的数据供给同一接口,将多个操作拜访进口变为一个进口,将多种数据库说话变为一种说话,降低开辟和迁徙成本,简化用户操作。

同一的计算引擎,将多套计算引擎变为一套引擎,将多份计算资本变为一份资本,供给高机能的分析计算和履行效力,知足跨模型数据复杂接洽关系分析场景。

同一的存储治理体系,同时支撑分析型行列混淆存储、支撑具有搜刮功能的文本存储等多模异构存储,并包管数据的强一致性,数据只需一次入库,即可经由过程异构存储的拜访才能支撑多样化复杂分析场景,降低运维成本,将分散存储治理变为同一存储治理,极大年夜简化体系架构,削减开辟运维成本。

同一的星环云原生操作体系,支撑 ARM+X86的混淆架构,用户可以利旧硬件,大年夜幅降低成本。

跨机房容灾架构,随便率性时光点全局一致性恢复 

ArgoDB5.0经由过程同一的元数据治理、同一的事务治理和完全的多模优化器支撑了对不合模态数据的同一读取调剂,实现多模态融合,知足更多“一库多用“场景。

立异型数据差分隐私,强化数据安然 

数据处理与数据安然是弗成瓜分的,若何对小我数据的有效保护是在数据处理、数据公开、数据宣布中弗成绕开的一个话题。隐私保护是基于差分隐私的暗码学办法,在统计数据库查询时,旨在包管数据查询的同时,最大年夜程度削减辨认个别数据的机会。

ArgoDB5.0将隐私计算与数据库技巧相结合,支撑复杂分析SQL主动优化,易于开辟人员应用。同时将加密协定结合SQL优化技巧,相较于python级别实现履行效力更优,支撑更大年夜数据量的隐私计算。

打破数据壁垒,加强湖仓集融合 

跟着数据与营业的并行成长,对数据的融合分析处理逐渐成为数据库技巧成长趋势。当数据仓库与数据湖数据集市协同处理时,带来的是数据孤岛的打破,以及数据计算界线的拓宽。

ArgoDB 5.0版本进一步加强数据湖和数据仓库/数据集市等营业面的技巧改革。在同一平台中,避免数据移动,将原始的、加工清洗的、模型化的数据,合营存储于一体化的“湖仓集”中,既能面向营业实现高并发、精准化、高机能的汗青数据、及时数据的查询办事,又能承载分析报表、批处理、数据发掘等分析型数据集市营业,真正意义上为用户供给湖仓集一体化的场景解决筹划。

经由过程ArgoDB打造的湖仓集一体化筹划,用户可以基于同一拜访接口最大年夜程度高低降数据湖、数据仓库、数据集市营业过程中营业接口的调剂,降低用户开辟成本,进步数据处理效力。同一的元数据治理可以在精准的ACL控制下,实现按需展示湖仓集内的相干元数据的同一查询,进步数据治理效力。同一存储治理,对应用者樊篱不合数据源的数据存储,降低营业数据治理难度。此外,基于ArgoDB打造的湖仓集一体化筹划可以无缝连接AI技巧,赞助营业发掘更多半据价值。

KunDB3.0:高度兼容Oracle语法和PL/SQL, 实现OLTP数据库国产化进级 

Transwarp KunDB是星环科技基于分布式技巧自立研发的国产化的交易型数据库,供给完全的关系型数据库的才能,高度兼容SQL,包管事务ACID。KunDB具有业内领先的事务处理机能,SQL兼容性以及最新的分布式查询优化技巧,支撑复杂查询且机能是MySQL的10倍以上,充分知足高并发、大年夜数据量的交易型营业场景,可以或许实现MySQL,Oracle等传统主流数据库的国产化替代。独特的混淆安排技巧支撑主流国产化CPU等自立可控的硬件平台和OS安排,知足国产化安排需求。此外,KunDB供给全链路高可用、一致性备份恢复等容灾才能,以及完全的安然治理、资本治理才能,可认为不合营业场景保驾护航。

KunDB3.0高度兼容Oracle对象与语法,基于立异的过程说话编译技巧,完全支撑Oracle PL/SQL语法,大年夜大年夜降低企业国产化迁徙成本。经由过程丰富查询优化规矩和算子进一步加强查询优化器,并结合全新的向量化履行引擎使得分析机能在TPCH基准测试中较MySQL最高优化80倍。在事务处理才能方面,相较于KunDB2.0采取的全局事务治理器GTM筹划,KunDB3.0采取基于TSO的全新分布式强一致事务处理框架,进一步晋升分布式事务处理才能,事务处理上限达300万TPS,较GTM筹划晋升5倍以上。同时KunDB3.0也对存储层机能和分布式架构做了持续优化,单机TPCC晋升了1倍,分布式TPCC晋升了60%。在容灾才能方面,KunDB3.0优化了跨机房容灾架构,支撑全链路高可用、一致性备份恢复等才能,故障时可恢复以前随便率性时光点,充分保障数据安然。此外,KunDB3.0采取了基于分析引擎加强分布式事务处理引擎技巧(ATEP),大年夜幅进步了KunDB的数据分析才能,经由过程一个体系就可以同时供给高机能AP和TP办事才能,知足交易与分析混淆型营业场景。

高度兼容Oracle对象与语法,完全支撑Oracle PL/SQL 

KunDB3.0 对Oracle语法各个方面高度兼容,成为业内领先的具备支撑Oracle营业迁徙才能的国产数据库。KunDB3.0高度兼容Oracle语法与PL/SQL,支撑VARCHAR2、NVARCHAR2等全部类型,在PL/SQL语法上,支撑控制语句、集合、动态SQL、子法度榜样、预定义包、缺点处理等全部PL/SQL语法,解决了Oracle营业迁徙到国产化数据库的核肉痛点,为其它兼容性完美供给了基本。在Oracle数据库对象、DML、函数、体系视图、内置包、驱动等方面,做到了常用功能的兼容,知足大年夜部分营业的迁徙需求,极大年夜降低了企业营业迁徙成本。

KunDB3.0采取立异的过程说话编译技巧及中心优化说话TIR,完全支撑Oracle PL/SQL语法,并在4类技巧场景实现立异和机能晋升。

为了支撑多个数据库方言,传统说冥器方法导致反复工作量会很大年夜。KunDB3.0经由过程同一的中心优化说话TIR,表达随便率性的过程式语义及SQL语义,支撑multi pass编译与LLVM IR组合,低偶合、低成本的扩大不合数据库PL/SQL语法体系

传统技巧将PL/SQL翻译成函数履行方法,没有控制流代码优化空间。KunDB3.0经由过程转译LLVM,将PL/SQL转为底层语法,可以与llvm的 multi pass优化结合,增长代码优化规矩,从而优化存储过程的履行

传统翻译成函数履行的方法,无法进一步实现编译履行。KunDB3.0引入同一表达式处理引擎技巧,SQL与PL/SQL可复用编译优化,实现方法上比Oracle加倍简洁,同时节俭了开辟成本

传统的异常处理无法实现零开销。KunDB3.0参考LLVM的landing pad技巧,实现零开销的异常处理体系。

全新的查询优化器和向量化履行引擎,复杂分析机能晋升10 

在分布式事务处理上,KunDB3.0应用基于全局时光戳的事务处理框架来代替2.0的全局事务治理器GTM筹划。分布式层引入了TSO办事器分派时光戳,采取XA协定和时光戳优化2PC包管分布式原子性写,分布式事务开销降低50%。基于事务提交时光戳可做到副本全局一致性读,实现包管事务的读写分别。存储层可基于当前时光戳和数据时光戳做全局一致性读断定,不依附全局快照,机能更高,减轻中间化风险。

KunDB从2.0到3.0的迭代中,为了加倍友爱的支撑跨分片的复杂查询分析,晋升AP才能,KunDB基于火山模型从新设计了查询优化器,面向分布式存储丰富了查询优化的规矩,包含了分片下推、子查询去接洽关系化等十多种查询优化规矩,响应的扩大和优化了block hash join、Index Lookup Join等二十多个算子,TPCH 子查询机能比拟于KunDB2.0均有大年夜幅度晋升,最高晋升了近20倍。

KunDB3.0应用了全新的向量化履行引擎,在内存中应用列存储的方法对数据进行转换存储后再进行计算,比拟于内存行式数据治理,在内存资本占用、分析函数实现、表达式求值机能、紧缩支撑上都加倍具有优势。另一方面,履行引擎基于多协程技巧,采取了基于流水线的并行处理框架,支撑并行的数据扫描、算子间数据交换、算子计算、成果集返回等全链路过程,对于数据可分拆履行的场景,机能有大年夜幅晋升。同样的数据范围下以TPCH测试为参考,KunDB分析机能较MysQL有大年夜幅度晋升,22个Query最高机能晋升可达到MySQL的近80倍。

基于TSO的全新分布式强一致事务处理,集群事务处理才能晋升1 

KunDB3.0集群的事务处理上限晋升了6倍,达到300万TPS,完全知足头部互联网营业场景的机能需求。

此外,KunDB3.0也对存储层机能和分布式架构做了持续优化。存储层采取了面向内存的数据存储与治理、无锁内存索引技巧、消极与乐不雅结合的并发控制技巧、并行查询技巧,实现了存储层机能接近1倍的晋升。结合分布式层在通信链路优化为基于MySQL协定的通信,放弃了高开销的grpc通信;元数据存储的改革为高吞吐的关系型存储,以及削减组件、治理组件精简为一个全局办事,优化了分布式层的开销。在4分片的拓扑下,TPCC机能较2.0晋升了60%。

在容灾方面,KunDB优化了跨机房容灾架构,支撑全链路高可用和全局一致性恢复。计算引擎完全无状况,扩大便捷,可实现多节点安排;存储引擎支撑主备/Paxos复制,支撑故障时主备切换;元数据办事也都是基于多半派协定支撑故障时主动选主,实际安排时避免了单节点安排的风险。经由过程跨机房的副本数据强同步,包管了机房级故障时,恢复点目标RPO=0。

经由过程副本可读技巧,最大年夜化应用每个角色晋升体系吞吐,并且支撑基于营业负载和组件健康状况的路由变更,晋升体系稳定性。

KunDB3.0支撑物理备份与及时binlog备份,故障时可恢复以前随便率性时光点。新增的一致性备份恢复才能,基于时光戳信息保障数据库恢复到最新的一致性点,避免了分布式数据库恢复后须要工资介入事务点对齐的难题。各分片自力并发备份,每分钟完成数GB数据备份,在高并发核心体系中,可以或许有效降低备份对营业的影响。

包管全局事务的一体化及时AETP,同时供给高机能交易与分析办事才能 

中国信通院2021年数据成长研究申报中指出,企业平日保护不合数据库来支撑联机事务处理(OLTP)与联机分析处理(OLAP)义务,治理和保护成本高。基于立异的计算存储框架的HTAP 数据库,可以或许基于同一套引擎同时支撑营业体系运行和分析决定计划场景,避免在传统架构中,在线与离线数据库之间大年夜量的数据交互,成为将来数据库成长的趋势之一。

KunDB3.0采取了基于分析引擎加强分布式事务处理引擎技巧(ATEP),大年夜幅进步了KunDB的数据分析才能,经由过程一个体系就可以同时供给高机能AP和TP办事才能。

对外供给同一的SQL引擎作为同一进口,简化用户操作,数据在库内即可主动同步、转换,不须要繁琐的ETL组件和ETL过程,数据无需出库即可完成计算。同时供给同一数据类型和方言支撑,将多种数据库说话变为一种说话,大年夜大年夜降低开辟和迁徙成本。

针对不合程度的分析负载,经由过程全局优化器主动辨认SQL,应用不合的引擎进行处理,TP引擎和AP引擎根据工作负载做主动路由和主动查询优化,如针对复杂加工逻辑,则应用AP引擎分布式计算才能直接读取KunDB上的数据进行复杂计算;针对高并创造细检索,则应用TP引擎供给办事。

对于已经安排了ArgoDB或KunDB的用户,可以直接进级到AETP数据库,无需改革营业和数据库的交互方法,实现快速腻滑进级。

(责任编辑:ysman

推荐频道

请使用底部浏览器自带功能分享

分享至

微博

QQ

朋友圈

微信