訂閱
糾錯(cuò)
加入自媒體

數(shù)據(jù)敏捷,HTAP數(shù)據(jù)庫(kù)既決效率又決生死

數(shù)據(jù)庫(kù)發(fā)展的這50多年以來(lái),聯(lián)機(jī)事務(wù)處理OLTP和聯(lián)機(jī)分析處理OLAP兩條道路上的風(fēng)風(fēng)雨雨,源自用戶(hù)需求的驅(qū)動(dòng),也經(jīng)歷了漫長(zhǎng)的“融合-分離-再融合”的演進(jìn)過(guò)程。

但是,在沒(méi)有出現(xiàn)新一代HTAP數(shù)據(jù)庫(kù)前,想要實(shí)現(xiàn)數(shù)據(jù)敏捷卻很困難。為什么?

實(shí)際上,在同時(shí)支持OLTP和OLAP場(chǎng)景的HTAP數(shù)據(jù)庫(kù)技術(shù)迭代之路上,一直存在著“改革派”與“改良派”兩大陣營(yíng),他們從兩條路徑上探索著“數(shù)據(jù)敏捷”。

“改良派”基于結(jié)合中間件的模式來(lái)實(shí)現(xiàn)“OLTP+OLAP”的HTAP,在規(guī)模擴(kuò)展與性能提升兩個(gè)重要方面都受限。一方面,基于中間件實(shí)現(xiàn)的HTAP,其數(shù)據(jù)必須匯聚到中間件節(jié)點(diǎn),然后再執(zhí)行,速度必然就上不來(lái),難以實(shí)現(xiàn)高性能;另一方面,數(shù)據(jù)節(jié)點(diǎn)之間靠中間件來(lái)匯聚實(shí)現(xiàn)交互,數(shù)據(jù)節(jié)點(diǎn)也就成了孤島,規(guī);瘮U(kuò)展受限不說(shuō),分布式事務(wù)也難以支持。

作為HTAP數(shù)據(jù)庫(kù)最早的改革派代表之一,SAP HANA 通過(guò)內(nèi)存數(shù)據(jù)庫(kù)實(shí)現(xiàn)了強(qiáng)大的混合負(fù)載能力,實(shí)現(xiàn)了很高的性能,快是快,但數(shù)據(jù)量有限,畢竟基于單一存儲(chǔ)架構(gòu),在規(guī);瘮U(kuò)展上容易受限。更令眾多用戶(hù)望而卻步的是HANA“貴且專(zhuān)有”,僅在使用SAP的大企業(yè)有少量用戶(hù)。因而,這一代HTAP并沒(méi)有真正擴(kuò)展起來(lái),也并沒(méi)有流行成為數(shù)據(jù)庫(kù)行業(yè)大趨勢(shì)。

因?yàn)檫@些不足,所以這類(lèi)數(shù)據(jù)庫(kù)廠商也很難構(gòu)建出數(shù)據(jù)敏捷(Data Agility)的能力。

近年來(lái),隨著互聯(lián)網(wǎng)的發(fā)展,數(shù)據(jù)爆炸式的狂增,海量、實(shí)時(shí)、在線的需求越來(lái)越廣泛,大量采用MySQL和PostgreSQL(PG)開(kāi)源數(shù)據(jù)庫(kù)的新一代企業(yè),在針對(duì)提升熱數(shù)據(jù)的實(shí)時(shí)在線分析能力上有著強(qiáng)烈的需求,特別是從事線上業(yè)務(wù)的數(shù)字化轉(zhuǎn)型企業(yè),這類(lèi)需求尤為強(qiáng)烈。比如電商、游戲、數(shù)字媒體、金融科技、網(wǎng)絡(luò)安全等互聯(lián)網(wǎng)和數(shù)字化業(yè)務(wù),其新鮮數(shù)據(jù)的實(shí)時(shí)分析能力,強(qiáng)化了數(shù)據(jù)敏捷,在很大程度上直接決定了企業(yè)未來(lái)發(fā)展的興衰存亡。因?yàn)橹挥袠?gòu)建了數(shù)據(jù)敏捷,才能實(shí)現(xiàn)業(yè)務(wù)敏捷。

當(dāng)新一代HTAP的發(fā)展成為全球數(shù)據(jù)庫(kù)行業(yè)中的大趨勢(shì)之時(shí),以Google Cloud谷歌云的AlloyDB、Snowflake的Unistore、PingCAP的TiDB等為代表的新一代“改革派”,不僅打破了過(guò)去OLTP和OLAP兩大典型應(yīng)用場(chǎng)景的傳統(tǒng)定位,獲得了強(qiáng)大的數(shù)據(jù)實(shí)時(shí)處理和分析計(jì)算能力,而且基于分布式架構(gòu),實(shí)現(xiàn)了傳統(tǒng)數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)難以實(shí)現(xiàn)的高性能、高擴(kuò)展與實(shí)時(shí)處理能力。與此同時(shí),“改革派”讓數(shù)據(jù)敏捷(Data Agility)成為了HTAP數(shù)據(jù)庫(kù)發(fā)展的關(guān)鍵詞。

目前,有兩大重要原因正在改變著新一代HTAP的市場(chǎng)需求和技術(shù)環(huán)境。一是來(lái)自用戶(hù)實(shí)際的實(shí)時(shí)分析需求在攀升,特別是MySQL和PG開(kāi)源數(shù)據(jù)庫(kù)用戶(hù)對(duì)于實(shí)時(shí)分析的需求在激增,迫切需要擁有HTAP的能力。二是,近些年來(lái)隨著公有云的快速迭代發(fā)展,企業(yè)上云從剛需再到全面加速應(yīng)用落地,分布式與云原生的疊加效應(yīng),也正在加速重構(gòu)企業(yè)數(shù)據(jù)架構(gòu),并進(jìn)一步影響著HTAP數(shù)據(jù)庫(kù)的發(fā)展。

應(yīng)盡其用,充分展現(xiàn)數(shù)據(jù)敏捷的行業(yè)價(jià)值

正如PingCAP CEO劉奇之前所言,一個(gè)好的數(shù)據(jù)庫(kù)不是寫(xiě)出來(lái)的,而是靠用出來(lái)的。在HTAP賽道上,國(guó)內(nèi)外的選手也越來(lái)越多,數(shù)據(jù)庫(kù)行業(yè)“HTAP化”趨勢(shì)日益明顯,那么新一代HTAP數(shù)據(jù)庫(kù)究竟適合哪些用戶(hù)呢?

在早期還沒(méi)有誕生新一代HTAP數(shù)據(jù)庫(kù)之時(shí),MySQL和PostgreSQL可以滿(mǎn)足用戶(hù)的基本需求,在較小規(guī)模數(shù)據(jù)量情況下MySQL 數(shù)據(jù)庫(kù)可以應(yīng)對(duì)OLTP實(shí)時(shí)業(yè)務(wù)的挑戰(zhàn)。

后來(lái)數(shù)據(jù)倉(cāng)庫(kù)興起,諸如數(shù)據(jù)倉(cāng)庫(kù)(Data Warehouse)、數(shù)據(jù)湖(Data Lake)、湖倉(cāng)一體(Data Lakehouse)等大數(shù)據(jù)技術(shù)可以處理大規(guī)模的數(shù)據(jù)量,但無(wú)法實(shí)現(xiàn)在線服務(wù),可以想象一下,要將Hadoop直接當(dāng)做一個(gè)OLTP數(shù)據(jù)庫(kù)平臺(tái)去用,將是多么尷尬的事情。再者,大數(shù)據(jù)棧要為用戶(hù)提供毫秒級(jí)別的響應(yīng),也是挑戰(zhàn)不小。

但是,新一代HTAP數(shù)據(jù)庫(kù)誕生后,在擴(kuò)展性、TP與AP融合的HTAP兩個(gè)方面得到充分發(fā)揮,成功開(kāi)辟并構(gòu)建了一個(gè)數(shù)據(jù)敏捷(Data Agility)的數(shù)據(jù)庫(kù)發(fā)展區(qū)域。以此定位,將為用戶(hù)提供更簡(jiǎn)單、更易用的新一代HTAP數(shù)據(jù)庫(kù),這也成為了TiDB的定位。

事實(shí)上,全球已有眾多MySQL應(yīng)用開(kāi)發(fā)者,他們都需要更具備數(shù)據(jù)敏捷(Data Agility)的數(shù)據(jù)庫(kù)來(lái)承載。因此,新一代HTAP數(shù)據(jù)庫(kù)與傳統(tǒng)數(shù)據(jù)庫(kù)對(duì)比有錯(cuò)明確的錯(cuò)位。包括Databricks、MongoDB、Confluent、Snowflake、PingCAP等廠商,都基于云生態(tài)而發(fā)展,而得以彰顯其價(jià)值。TiDB也成為了云生態(tài)的受益者,發(fā)布了全托管的數(shù)據(jù)庫(kù)即服務(wù)(DBaaS)產(chǎn)品TiDB Cloud,為企業(yè)用戶(hù)提供開(kāi)箱即用的TiDB服務(wù)。同時(shí)TiDB還陸續(xù)上線了亞馬遜云科技與谷歌云的Marketplace,以及阿里云云市場(chǎng)。

在更完整的生態(tài)對(duì)接方面,數(shù)據(jù)庫(kù)從來(lái)都不是單獨(dú)被使用的,而TiDB也在持續(xù)改進(jìn)和生態(tài)環(huán)境的對(duì)接。在新版本中,TiDB引入了用戶(hù)級(jí)別鎖和TiCDC下的Avro格式向Kafka同步數(shù)據(jù)的支持。TiDB從6.1版本開(kāi)始支持兼容MySQL的用戶(hù)級(jí)別鎖管理,支持GET_LOCK、RELEASE_LOCK、RELEASE_ALL_LOCKS 等鎖管理函數(shù),這使得TiDB得以更好支持現(xiàn)有 ORM框架的生態(tài)。尤其在數(shù)據(jù)敏捷(Data Agility)方面,TiCDC工具表現(xiàn)出色,支持將TiDB數(shù)據(jù)庫(kù)的增量數(shù)據(jù)轉(zhuǎn)換為Avro格式,并發(fā)送到Kafka的方式,這將使得TiDB數(shù)據(jù)庫(kù)與Kafka、Snowflake、SQL Server等眾多生態(tài)系統(tǒng)都連接起來(lái)。從而實(shí)現(xiàn)對(duì)常用的數(shù)據(jù)格式的支持,降低開(kāi)發(fā)復(fù)雜度。

全球云觀察分析指出,近年來(lái),TiDB快速發(fā)展并獲得先發(fā)優(yōu)勢(shì)的秘籍,必然就在于將“數(shù)據(jù)規(guī)模高擴(kuò)展性與數(shù)據(jù)處理實(shí)時(shí)性”得以有機(jī)結(jié)合,未來(lái)也將充分展現(xiàn)出數(shù)據(jù)敏捷(Data Agility)定位的行業(yè)應(yīng)用價(jià)值。

Scalability x HTAP雖好,也需要兩大生態(tài)的助攻

然而,Scalability x HTAP雖好,也需要開(kāi)源和云兩大生態(tài)助攻。

開(kāi)源優(yōu)勢(shì)在于擁有開(kāi)放生態(tài),敏捷創(chuàng)新與更快迭代速度。不過(guò),在PingCAP聯(lián)合創(chuàng)始人兼CTO黃東旭看來(lái),真正的迭代速度或者說(shuō)更有價(jià)值、更有意義的迭代速度在于開(kāi)源軟件如何幫助應(yīng)用開(kāi)發(fā)者更快地開(kāi)發(fā)出新應(yīng)用。

在這之前,PingCAP推出一個(gè)OSS Insight.io的開(kāi)源項(xiàng)目,采用了46億個(gè)GitHub事件數(shù)據(jù)來(lái)構(gòu)建,開(kāi)源社區(qū)開(kāi)發(fā)者可以憑借這個(gè)OSS Insight開(kāi)源項(xiàng)目分析工具,多維度深入洞察開(kāi)源項(xiàng)目的健康狀況,從而獲得有用的價(jià)值分析。值得關(guān)注的是,PingCAP只用了兩個(gè)人一周時(shí)間,就成功構(gòu)建了整個(gè)OSS insight網(wǎng)站,其背后卻只有一個(gè) TiDB Cloud 支撐其在線數(shù)據(jù)、所有數(shù)據(jù)的分析以及圖表等應(yīng)用。

可見(jiàn),通過(guò)開(kāi)源數(shù)據(jù)庫(kù)與云服務(wù)融合發(fā)展,新一代HTAP數(shù)據(jù)庫(kù)能夠極大降低應(yīng)用開(kāi)發(fā)的復(fù)雜性,加速開(kāi)發(fā)進(jìn)程,為應(yīng)用和業(yè)務(wù)贏得更多的時(shí)間,從而助力數(shù)字化企業(yè)趕超行業(yè)對(duì)手,占得市場(chǎng)先機(jī)。

在過(guò)去幾年中,開(kāi)源與多云的融合發(fā)展,已經(jīng)凸顯出來(lái)了三個(gè)關(guān)鍵技術(shù)賽道,包括云原生、數(shù)據(jù)技術(shù)和人工智能,新一代HTAP數(shù)據(jù)庫(kù)已經(jīng)融合了這三大關(guān)鍵技術(shù),并以云服務(wù)方式對(duì)外發(fā)展。

基于開(kāi)源的開(kāi)放性,通過(guò)云原生的靈活性,發(fā)揮公有云帶來(lái)的低門(mén)檻、更快速、更有業(yè)務(wù)友好性,通過(guò)與公有云合作,新一代HTAP數(shù)據(jù)庫(kù)在第三方云平臺(tái)的公有云上部署,可以應(yīng)對(duì)當(dāng)前企業(yè)出海,走向全球化發(fā)展面臨的數(shù)據(jù)挑戰(zhàn)。

然而,并非所有的企業(yè)都會(huì)將自己的應(yīng)用全部上公有云。在發(fā)展to B業(yè)務(wù)過(guò)程中,大家也清醒地認(rèn)識(shí)到一個(gè)事實(shí),在國(guó)內(nèi)的中大型用戶(hù),基本上都采用的是1+N的部署模式,既采用自己數(shù)據(jù)中心的私有部署模式,同時(shí)又在公有云上部署,面向全球發(fā)展出海業(yè)務(wù)。為此,一種經(jīng)典的SQL體驗(yàn),多種部署形態(tài)的新一代HTAP數(shù)據(jù)庫(kù)將更利于企業(yè)用戶(hù)業(yè)務(wù)發(fā)展需要,并助力加速企業(yè)數(shù)字化創(chuàng)新。這也是TiDB發(fā)版策略變化的原因所在。

不同于之前DMR開(kāi)發(fā)里程碑版,PingCAP最新推出了LTS長(zhǎng)期支持版TiDB 6.1,采取長(zhǎng)期支持版+開(kāi)發(fā)里程碑版的發(fā)版方式,對(duì)外提供服務(wù)。TiDB可以最大限度兼顧用戶(hù)的快速迭代和穩(wěn)定投產(chǎn)兩大需求。在沒(méi)有特定需求開(kāi)發(fā)的情況下,用戶(hù)可以選擇最新的LTS版本投產(chǎn);如果需求某個(gè)DMR發(fā)布的新功能,則可以選擇該版本進(jìn)行 PoC以及試運(yùn)行,待到對(duì)應(yīng)的LTS版本發(fā)布后升級(jí)TiDB到穩(wěn)定生產(chǎn)狀態(tài)。

全球云觀察分析認(rèn)為,部署在多云架構(gòu)上,還保持著開(kāi)源快速迭代的數(shù)據(jù)庫(kù)服務(wù),可以同時(shí)滿(mǎn)足多種企業(yè)級(jí)部署模式,提供靈活更多元的開(kāi)源數(shù)據(jù)庫(kù)應(yīng)用選擇,來(lái)滿(mǎn)足企業(yè)數(shù)字化轉(zhuǎn)型進(jìn)程的需要。在很大程度上,這更利于實(shí)現(xiàn)數(shù)據(jù)敏捷的行業(yè)價(jià)值,體現(xiàn)出了一個(gè)開(kāi)源數(shù)據(jù)庫(kù)廠商重塑行業(yè)格局的決心與信心。從社區(qū)走向商業(yè)化,從互聯(lián)網(wǎng)行業(yè)走向企業(yè)級(jí)to B、to G,TiDB也邁向了企業(yè)級(jí)發(fā)展的新階段。

此外,在堅(jiān)持開(kāi)源開(kāi)放生態(tài)與云生態(tài)融合制勝的同時(shí),TiDB也不斷在降低應(yīng)用門(mén)檻。一是,成為MySQL生態(tài)圈更好的鄰居。二是,基于開(kāi)源與云的融合發(fā)展趨勢(shì),持續(xù)兼容更多的生態(tài)組件和生態(tài)產(chǎn)品。未來(lái),TiDB將與整個(gè)MySQL生態(tài)和云生態(tài)協(xié)同協(xié)作,助力企業(yè)構(gòu)建創(chuàng)新業(yè)務(wù)構(gòu)架和實(shí)現(xiàn)創(chuàng)新的技術(shù)目標(biāo)。

源于開(kāi)源帶來(lái)的開(kāi)放性,通過(guò)開(kāi)源數(shù)據(jù)庫(kù)天然和大數(shù)據(jù)生態(tài)集成,TiDB在增強(qiáng)跨云能力的同時(shí),也對(duì)上游向上結(jié)合人工智能算法技術(shù)生態(tài),進(jìn)一步強(qiáng)化“AI For DB”的能力,向下與云原生的生態(tài)融合,面向應(yīng)用開(kāi)發(fā)生態(tài),強(qiáng)化數(shù)據(jù)敏捷的綜合能力。

全球云觀察分析指出,融合開(kāi)源和云兩個(gè)生態(tài)的價(jià)值,TiDB從第三方云平臺(tái)的公有云部署,到純托管的TiDB Cloud部署,再到LTS企業(yè)穩(wěn)定版私有部署,提供了一致的SQL經(jīng)典體驗(yàn),聚焦了用戶(hù)價(jià)值的每一個(gè)環(huán)節(jié),滿(mǎn)足數(shù)字原生企業(yè)和數(shù)字轉(zhuǎn)型企業(yè)的廣泛需求。V6版的發(fā)布,對(duì)重塑行業(yè)格局帶來(lái)了積極的意義,使能行業(yè)數(shù)據(jù)價(jià)值釋放,新一代HTAP數(shù)據(jù)庫(kù)令業(yè)界刮目相看。因此,在開(kāi)源和云兩大生態(tài)助攻下,基于Scalability x HTAP的數(shù)據(jù)敏捷發(fā)展區(qū)間的創(chuàng)新構(gòu)建,HTAP數(shù)據(jù)庫(kù)“改革派”必將迎來(lái)新數(shù)據(jù)時(shí)代發(fā)展的春天。

小結(jié):不容小覷,依然面臨四大挑戰(zhàn)

當(dāng)前,HTAP概念雖然很火,新一代HTAP數(shù)據(jù)庫(kù)也開(kāi)辟了數(shù)據(jù)敏捷的發(fā)展新區(qū)域,但是我們?nèi)绻硇缘乜矗浑y發(fā)現(xiàn)HTAP一直還沒(méi)有成為主流應(yīng)用,原因是什么?全球云觀察總結(jié)指出主要有四大挑戰(zhàn),不容小覷。

其一,應(yīng)用場(chǎng)景仍在探索。眾多用戶(hù)不知道什么場(chǎng)景下什么時(shí)候用HTAP,雖然互聯(lián)網(wǎng)企業(yè)有實(shí)時(shí)數(shù)據(jù)分析的明確需求,但是尚有很多傳統(tǒng)企業(yè)還不知道如何利用實(shí)時(shí)數(shù)據(jù)來(lái)提升業(yè)務(wù)價(jià)值。

其二,應(yīng)用門(mén)檻高。在公有云領(lǐng)域應(yīng)用最廣泛的還是RDS,即Relational Database Service在線關(guān)系型數(shù)據(jù)庫(kù)服務(wù),而HTAP較少。目前大多數(shù)HTAP數(shù)據(jù)庫(kù)是商業(yè)數(shù)據(jù)庫(kù)和開(kāi)源數(shù)據(jù)庫(kù),以私有部署為主,需要用戶(hù)采購(gòu)服務(wù)器,既要懂得HTAP數(shù)據(jù)庫(kù)應(yīng)用部署,又要懂得基礎(chǔ)設(shè)施架構(gòu),有一定的應(yīng)用門(mén)檻。不過(guò),在HTAP與云原生結(jié)合之后,多云化帶來(lái)部署門(mén)檻降低,公有云優(yōu)勢(shì)與HTAP數(shù)據(jù)庫(kù)優(yōu)勢(shì)都將雙雙凸顯。

其三,架構(gòu)人員亟待調(diào)整。以前在用戶(hù)實(shí)際應(yīng)用中,大數(shù)據(jù)技術(shù)棧使用比較多,DBA運(yùn)維部門(mén)與大數(shù)據(jù)部門(mén),即TP和AP的組織架構(gòu)獨(dú)立,長(zhǎng)期以來(lái)是兩個(gè)部門(mén)在維護(hù)不同的技術(shù)棧,現(xiàn)在HTAP正在改變用戶(hù)的技術(shù)架構(gòu)和組織架構(gòu),一棧式模式帶來(lái)了架構(gòu)人員統(tǒng)一的解決之道。

其四,新一代HTAP數(shù)據(jù)庫(kù)廠商風(fēng)起云涌。如谷歌云、Snowflake、亞馬遜云科技、PingCAP等都在發(fā)力新一代HTAP數(shù)據(jù)庫(kù),聚焦數(shù)據(jù)敏捷的發(fā)展新格局,大家都想去推動(dòng)行業(yè)洗牌,重塑行業(yè)格局。


       原文標(biāo)題 : 數(shù)據(jù)敏捷,HTAP數(shù)據(jù)庫(kù)既決效率又決生死

聲明: 本文由入駐維科號(hào)的作者撰寫(xiě),觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)