国产精品无码免费视频一二三区,免费无码成人A∨片在线在线播放

當(dāng)前位置： OFweek 人工智能網(wǎng) > 大數(shù)據(jù) > 正文

SparkSQL對(duì)于批流支持的特性及批流一體化支持框架的難點(diǎn)

2020-12-24 12:10

EAWorld

關(guān)注

三、基于SparkStreaming

SQL模式的流式處理支持

SparkSQL－Flow 流式處理支持

ALL in SQL 的設(shè)計(jì)，能給數(shù)據(jù)開發(fā)人員提供極大方便，復(fù)雜SQL的表達(dá)能力也不弱。

SparkSQL－Flow 流式處理和批處理的配置沒什么不同，定義一個(gè)流式 Source，如Kafka。流或批模式是由 Source 的實(shí)現(xiàn)決定。SparkSQL－Flow 在加載底層 SPI 來識(shí)別該 Source 是 Streaming 模式，還是批處理模式。加載時(shí)，配置的 Source 中有任意一個(gè)是 Streaming 類型，則認(rèn)為是流處理模式。

SparkSQL－Flow流處理過程中的關(guān)聯(lián)

在 ETL 或者一些實(shí)時(shí)流處理中，我們常常需要對(duì)數(shù)據(jù)做一些關(guān)聯(lián)，如字典表關(guān)聯(lián)、字段轉(zhuǎn)義等操作。這在數(shù)據(jù)處理業(yè)務(wù)場(chǎng)景中很常見。

我們?cè)?Flow XML 中定義多個(gè)Source，這樣在流處理過程中，流可以在任意 Transformer 中關(guān)聯(lián)其他 Source 表中的字段。另外，我們可以對(duì)作為關(guān)聯(lián)的 Source（Transformer的結(jié)果亦可）做 cache 處理，這樣根據(jù) Spark 的模式，該表處于內(nèi)存中，且整個(gè)Job 運(yùn)行時(shí)不會(huì)再次觸發(fā)該Source 的 Stage，可以提高性能。

除了使用 Select ．．． Join 的方式關(guān)聯(lián)，還可以使用自定義 UDF 的方式關(guān)聯(lián)字段，UDF 中可以有轉(zhuǎn)換、調(diào)用數(shù)據(jù)庫、可以調(diào)用 RESTApi 等等。

四、對(duì)于批流一體化ETL的思考

Kettle ETL 工具

提到 ETL 不得不提 Kettle。批、流、數(shù)據(jù)源、多樣性大多數(shù)設(shè)計(jì)的ETL工具在他面前都相形見絀。

Kettle 作業(yè)是生成了一個(gè) dbr 文件，該 dbr 本質(zhì)上是 Kettle 支持的特有規(guī)范的一種 XML，Kettle 是實(shí)現(xiàn)了執(zhí)行該 XML 規(guī)范的一種解釋器。

但是 Kettle 的缺點(diǎn)很明顯，他的數(shù)據(jù)處理都是 Local 模式，對(duì)于大數(shù)據(jù)系統(tǒng)，把數(shù)據(jù)拉到運(yùn)行節(jié)點(diǎn)再計(jì)算缺陷是很明顯的。并且作業(yè)無法并行化，云化，無法利用大規(guī)模集群的算力。

DataX

DataX 是阿里開源的一個(gè)異構(gòu)數(shù)據(jù)源離線同步工具，致力于實(shí)現(xiàn)包括關(guān)系型數(shù)據(jù)庫（MySQL、Oracle等）、HDFS、Hive、ODPS、HBase、FTP等各種異構(gòu)數(shù)據(jù)源之間穩(wěn)定高效的數(shù)據(jù)同步功能。

DataX設(shè)計(jì)理念

DataX本身作為數(shù)據(jù)同步框架，將不同數(shù)據(jù)源的同步抽象為從源頭數(shù)據(jù)源讀取數(shù)據(jù)的Reader插件，以及向目標(biāo)端寫入數(shù)據(jù)的Writer插件，理論上DataX框架可以支持任意數(shù)據(jù)源類型的數(shù)據(jù)同步工作。同時(shí)DataX插件體系作為一套生態(tài)系統(tǒng)，每接入一套新數(shù)據(jù)源該新加入的數(shù)據(jù)源即可實(shí)現(xiàn)和現(xiàn)有的數(shù)據(jù)源互通。

DataX 理論上也支持流處理，不過他的處理方式跟 Spark 類似，流是當(dāng)做無限的批來處理。如果了解SpringBatch的話，DataX 更像是多線程的 SpringBatch 的架構(gòu)。DataX 沒有提供設(shè)計(jì)器，他提供了豐富的Reader和Writer和易擴(kuò)展的插件系統(tǒng)。和 Kettle一樣，DataX 也需要把數(shù)據(jù)拉到本地計(jì)算，并不具有分布式處理能力。

理想中的批流一體ETL

具有如 Kettle 般的算子表達(dá)能力，又具有完全的大數(shù)據(jù)處理能力。

SparkSQL－Flow 是基于Spark架構(gòu)，天生具有分布式、本地計(jì)算、完全SQL開發(fā)的批流一體化計(jì)算框架。

數(shù)據(jù)中臺(tái)之批流融合框架和產(chǎn)品

框架、計(jì)算平臺(tái)：

1．Spark

2．Flink

3．Datax

4．SparkSQL－Flow

相關(guān)產(chǎn)品：

1．DataWorks

2．DataPipeline

DataWorks： DataWorks（數(shù)據(jù)工場(chǎng)，原大數(shù)據(jù)開發(fā)套件）是阿里云重要的PaaS（Platform－as－a－Service）平臺(tái)產(chǎn)品，為您提供數(shù)據(jù)集成、數(shù)據(jù)開發(fā)、數(shù)據(jù)地圖、數(shù)據(jù)質(zhì)量和數(shù)據(jù)服務(wù)等全方位的產(chǎn)品服務(wù)，一站式開發(fā)管理的界面，幫助企業(yè)專注于數(shù)據(jù)價(jià)值的挖掘和探索。

DataPipeline：批流一體的數(shù)據(jù)融合平臺(tái) ．主要用于各類數(shù)據(jù)融合、數(shù)據(jù)交換場(chǎng)景。支持大數(shù)據(jù)、分布式、水平擴(kuò)展、圖形化設(shè)計(jì)器的數(shù)據(jù)交換平臺(tái)。

SparkSQL－Flow實(shí)現(xiàn)了一個(gè)以SparkSQL為基礎(chǔ)，以XML為載體的一種批流解釋器。在國(guó)內(nèi)某大型保險(xiǎn)內(nèi)供數(shù)項(xiàng)目所使用。大大減少了Spark程序開發(fā)難度，并且有預(yù)留了Spark原生優(yōu)化。且以SQL的方式開發(fā)數(shù)據(jù)大大降低了業(yè)務(wù)梳復(fù)雜度以及保證了供數(shù)、驗(yàn)數(shù)算法口徑的一致性。

關(guān)于作者：震秦，普元資深開發(fā)工程師。專注于大數(shù)據(jù)開發(fā) 8 年，擅長(zhǎng) Hadoop 生態(tài)內(nèi)各工具的使用、優(yōu)化和部分定制開發(fā)。曾參與國(guó)內(nèi)多省市公安項(xiàng)目實(shí)施，負(fù)責(zé)大數(shù)據(jù)數(shù)倉(cāng)設(shè)計(jì)、批處理和調(diào)度工具實(shí)現(xiàn)。

關(guān)于EAWorld：使能數(shù)字轉(zhuǎn)型，共創(chuàng)數(shù)智未來！

<上一頁 1 2 3