Flink未來(lái)將與 Pulsar集成提供大規(guī)模的彈性數(shù)據(jù)處理
未來(lái)整合
Pulsar可以以不同的方式與Apache Flink集成。一些潛在的集成包括使用流式連接器為流式工作負(fù)載提供支持,并使用批量源連接器支持批量工作負(fù)載。Pulsar還提供對(duì)schema 的本地支持,可以與Flink集成并提供對(duì)數(shù)據(jù)的結(jié)構(gòu)化訪問(wèn),例如使用Flink SQL作為在Pulsar中查詢數(shù)據(jù)的方式。最后,集成這些技術(shù)的另一種方法可能包括使用Pulsar作為Flink的狀態(tài)后端。由于Pulsar具有分層架構(gòu)(Streams和Segmented Streams,由Apache Bookkeeper提供支持),因此將Pulsar用作存儲(chǔ)層并存儲(chǔ)Flink狀態(tài)變得很自然。
從體系結(jié)構(gòu)的角度來(lái)看,我們可以想象兩個(gè)框架之間的集成,它使用Apache Pulsar作為統(tǒng)一的數(shù)據(jù)層視圖,Apache Flink作為統(tǒng)一的計(jì)算和數(shù)據(jù)處理框架和API。
現(xiàn)有集成
兩個(gè)框架之間的集成正在進(jìn)行中,開(kāi)發(fā)人員已經(jīng)可以通過(guò)多種方式將Pulsar與Flink結(jié)合使用。例如,Pulsar可用作Flink DataStream應(yīng)用程序中的流媒體源和流式接收器。開(kāi)發(fā)人員可以將Pulsar中的數(shù)據(jù)提取到Flink作業(yè)中,該作業(yè)可以計(jì)算和處理實(shí)時(shí)數(shù)據(jù),然后將數(shù)據(jù)作為流式接收器發(fā)送回Pulsar主題。這樣的例子如下所示:
// create and configure Pulsar consumer
PulsarSourceBuilder<String>builder = PulsarSourceBuilder
.builder(new SimpleStringSchema())
.serviceUrl(serviceUrl)
.topic(inputTopic)
.subscriptionName(subscription);
SourceFunction<String> src = builder.build();
// ingest DataStream with Pulsar consumer
DataStream<String> words = env.a(chǎn)ddSource(src);
// perform computation on DataStream (here a simple WordCount)
DataStream<WordWithCount> wc = words
.flatMap((FlatMapFunction<String, WordWithCount>) (word, collector) -> {
collector.collect(new WordWithCount(word, 1));
})
.returns(WordWithCount.class)
.keyBy("word")
.timeWindow(Time.seconds(5))
.reduce((ReduceFunction<WordWithCount>) (c1, c2) ->
new WordWithCount(c1.word, c1.count + c2.count));
// emit result via Pulsar producer
wc.a(chǎn)ddSink(new FlinkPulsarProducer<>(
serviceUrl,
outputTopic,
new AuthenticationDisabled(),
wordWithCount -> wordWithCount.toString().getBytes(UTF_8),
wordWithCount -> wordWithCount.word)
);
開(kāi)發(fā)人員可以利用的兩個(gè)框架之間的另一個(gè)集成包括將Pulsar用作Flink SQL或Table API查詢的流式源和流式表接收器,如下例所示:
// obtain a DataStream with words
DataStream<String> words = ...
// register DataStream as Table "words" with two attributes ("word", "ts").
// "ts" is an event-time timestamp.
tableEnvironment.registerDataStream("words", words, "word, ts.rowtime");
// create a TableSink that produces to Pulsar
TableSink sink = new PulsarJsonTableSink(
serviceUrl,
outputTopic,
new AuthenticationDisabled(),
ROUTING_KEY);
// register Pulsar TableSink as table "wc"
tableEnvironment.registerTableSink(
"wc",
sink.configure(
new String[]{"word", "cnt"},
new TypeInformation[]{Types.STRING, Types.LONG}));
// count words per 5 seconds and write result to table "wc"
tableEnvironment.sqlUpdate(
"INSERT INTO wc " +
"SELECT word, COUNT(*) AS cnt " +
"FROM words " +
"GROUP BY word, TUMBLE(ts, INTERVAL '5' SECOND)");
最后,F(xiàn)link將批量工作負(fù)載與Pulsar集成為批處理接收器,其中所有結(jié)果在Apache Flink完成靜態(tài)數(shù)據(jù)集中的計(jì)算后被推送到Pulsar。這樣的例子如下所示:
// obtain DataSet from arbitrary computation
DataSet<WordWithCount> wc = ...
// create PulsarOutputFormat instance
OutputFormat pulsarOutputFormat = new PulsarOutputFormat(
serviceUrl,
topic,
new AuthenticationDisabled(),
wordWithCount -> wordWithCount.toString().getBytes());
// write DataSet to Pulsar
wc.output(pulsarOutputFormat);
結(jié)論
Pulsar和Flink都對(duì)應(yīng)用程序的數(shù)據(jù)和計(jì)算級(jí)別如何以批量作為特殊情況流“流式傳輸”方式分享了類似的觀點(diǎn)。通過(guò)Pulsar的Segmented Streams方法和Flink在一個(gè)框架下統(tǒng)一批處理和流處理工作負(fù)載的步驟,有許多方法將這兩種技術(shù)集成在一起,以提供大規(guī)模的彈性數(shù)據(jù)處理。

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
7月8日立即報(bào)名>> 【在線會(huì)議】英飛凌新一代智能照明方案賦能綠色建筑與工業(yè)互聯(lián)
-
7月22-29日立即報(bào)名>> 【線下論壇】第三屆安富利汽車生態(tài)圈峰會(huì)
-
7月31日免費(fèi)預(yù)約>> OFweek 2025具身機(jī)器人動(dòng)力電池技術(shù)應(yīng)用大會(huì)
-
7.30-8.1火熱報(bào)名中>> 全數(shù)會(huì)2025(第六屆)機(jī)器人及智能工廠展
-
免費(fèi)參會(huì)立即報(bào)名>> 7月30日- 8月1日 2025全數(shù)會(huì)工業(yè)芯片與傳感儀表展
-
即日-2025.8.1立即下載>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍(lán)皮書(shū)》
推薦專題
- 1 AI 眼鏡讓百萬(wàn) APP「集體失業(yè)」?
- 2 豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
- 3 一文看懂視覺(jué)語(yǔ)言動(dòng)作模型(VLA)及其應(yīng)用
- 4 “支付+”時(shí)代,支付即生態(tài) | 2025中國(guó)跨境支付十大趨勢(shì)
- 5 中國(guó)最具實(shí)力AI公司TOP10
- 6 特斯拉Robotaxi上路,馬斯克端上畫(huà)了十年的餅
- 7 國(guó)家數(shù)據(jù)局局長(zhǎng)劉烈宏調(diào)研格創(chuàng)東智
- 8 AI的夏天:第四范式VS云從科技VS地平線機(jī)器人
- 9 張勇等人退出阿里合伙人
- 10 深圳跑出40億超級(jí)隱形冠軍:賣機(jī)器人年入6.1億,港股上市