大數(shù)據(jù)小知識(shí):四種數(shù)據(jù)處理系統(tǒng)各自的特征與優(yōu)勢
大數(shù)據(jù)中蘊(yùn)含的寶貴價(jià)值成為人們存儲(chǔ)和處理大數(shù)據(jù)的驅(qū)動(dòng)力,因此海量數(shù)據(jù)的處理對于當(dāng)前存在的技術(shù)來說是一種極大的挑戰(zhàn)。目前,人們對大數(shù)據(jù)的處理形式主要是對靜態(tài)數(shù)據(jù)的批量處理,對在線數(shù)據(jù)的實(shí)時(shí)處理,以及對圖數(shù)據(jù)的綜合處理。其中,在線數(shù)據(jù)的實(shí)時(shí)處理又包括對流式數(shù)據(jù)的處理和實(shí)時(shí)交互計(jì)算兩種。本文將詳細(xì)闡述上述4種數(shù)據(jù)形式特征以及各自的處理系統(tǒng)。
利用批量數(shù)據(jù)挖掘合適的模式,得出具體的含義,制定明智的決策,最終做出有效的應(yīng)對措施實(shí)現(xiàn)業(yè)務(wù)目標(biāo)是大數(shù)據(jù)批處理的首要任務(wù)。大數(shù)據(jù)的批量處理系統(tǒng)適用于先存儲(chǔ)后計(jì)算,實(shí)時(shí)性要求不高,同時(shí)數(shù)據(jù)的準(zhǔn)確性和全面性更為重要的場景。
批量數(shù)據(jù)的特征通常有3個(gè)。
第一,數(shù)據(jù)體量巨大。數(shù)據(jù)從TB級(jí)別躍升到PB級(jí)別。數(shù)據(jù)是以靜態(tài)的形式存儲(chǔ)在硬盤中,很少進(jìn)行更新,存儲(chǔ)時(shí)間長,可以重復(fù)利用,然而這樣大批量的數(shù)據(jù)不容易對其進(jìn)行移動(dòng)和備份。
第二,數(shù)據(jù)精確度高。批量數(shù)據(jù)往往是從應(yīng)用中沉淀下來的數(shù)據(jù),因此精度相對較高,是企業(yè)資產(chǎn)的一部分寶貴財(cái)富。
第三,數(shù)據(jù)價(jià)值密度低。以視頻批量數(shù)據(jù)為例,在連續(xù)不斷的監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅有一兩秒。因此,需要通過合理的算法才能從批量的數(shù)據(jù)中抽取有用的價(jià)值。此外,批量數(shù)據(jù)處理往往比較耗時(shí),而且不提供用戶與系統(tǒng)的交互手段,所以當(dāng)發(fā)現(xiàn)處理結(jié)果和預(yù)期或與以往的結(jié)果有很大差別時(shí),會(huì)浪費(fèi)很多時(shí)間。因此,批量數(shù)據(jù)處理適合大型的相對比較成熟的作業(yè)。
Google于2010年推出了Dremel,引領(lǐng)業(yè)界向?qū)崟r(shí)數(shù)據(jù)處理邁進(jìn)。實(shí)時(shí)數(shù)據(jù)處理是針對批量數(shù)據(jù)處理的性能問題提出的,可分為流式數(shù)據(jù)處理和交互式數(shù)據(jù)處理兩種模式。在大數(shù)據(jù)背景下,流式數(shù)據(jù)處理源于服務(wù)器日志的實(shí)時(shí)采集,交互式數(shù)據(jù)處理的目標(biāo)是將PB級(jí)數(shù)據(jù)的處理時(shí)間縮短到秒級(jí)。通俗而言,流式數(shù)據(jù)是一個(gè)無窮的數(shù)據(jù)序列,序列中的每一個(gè)元素來源各異,格式復(fù)雜,序列往往包含時(shí)序特性,或者有其他的有序標(biāo)簽(如IP報(bào)文中的序號(hào))。從數(shù)據(jù)庫的角度而言,每一個(gè)元素可以看作是一個(gè)元組,而元素的特性則類比于元組的屬性。流式數(shù)據(jù)在不同的場景下往往體現(xiàn)出不同的特征,如流速大小、元素特性數(shù)量、數(shù)據(jù)格式等,但大部分流式數(shù)據(jù)都含有共同的特征,這些特征便可用來設(shè)計(jì)通用的流式數(shù)據(jù)處理系統(tǒng)。
下面簡要介紹流式數(shù)據(jù)共有的特征。
首先,流式數(shù)據(jù)的元組通常帶有時(shí)間標(biāo)簽或其余含序?qū)傩。因此,同一流式?shù)據(jù)往往是被按序處理的。然而數(shù)據(jù)的到達(dá)順序是不可預(yù)知的,由于時(shí)間和環(huán)境的動(dòng)態(tài)變化,無法保證重放數(shù)據(jù)流與之前數(shù)據(jù)流中數(shù)據(jù)元素順序的一致性。這就導(dǎo)致了數(shù)據(jù)的物理順序與邏輯順序不一致。而且,數(shù)據(jù)源不受接收系統(tǒng)的控制,數(shù)據(jù)的產(chǎn)生是實(shí)時(shí)的、不可預(yù)知的。此外,數(shù)據(jù)的流速往往有較大的波動(dòng),因此需要系統(tǒng)具有很好的可伸縮性,能夠動(dòng)態(tài)適應(yīng)不確定流入的數(shù)據(jù)流,具有很強(qiáng)的系統(tǒng)計(jì)算能力和大數(shù)據(jù)流量動(dòng)態(tài)匹配的能力。
其次,數(shù)據(jù)流中的數(shù)據(jù)格式可以是結(jié)構(gòu)化的、半結(jié)構(gòu)化的甚至是無結(jié)構(gòu)化的。數(shù)據(jù)流中往往含有錯(cuò)誤元素、垃圾信息等。因此流式數(shù)據(jù)的處理系統(tǒng)要有很好的容錯(cuò)性與異構(gòu)數(shù)據(jù)分析能力,能夠完成數(shù)據(jù)的動(dòng)態(tài)清洗、格式處理等。最后,流式數(shù)據(jù)是活動(dòng)的(用完即棄),隨著時(shí)間的推移不斷增長,這與傳統(tǒng)的數(shù)據(jù)處理模型(存儲(chǔ)?查詢)不同,要求系統(tǒng)能夠根據(jù)局部數(shù)據(jù)進(jìn)行計(jì)算,保存數(shù)據(jù)流的動(dòng)態(tài)屬性。流式處理系統(tǒng)針對該特性,應(yīng)當(dāng)提供流式查詢接口,即提交動(dòng)態(tài)的SQL語句,實(shí)時(shí)地返回當(dāng)前結(jié)果。
與非交互式數(shù)據(jù)處理相比,交互式數(shù)據(jù)處理靈活、直觀、便于控制。系統(tǒng)與操作人員以人機(jī)對話的方式一問一答——操作人員提出請求,數(shù)據(jù)以對話的方式輸入,系統(tǒng)便提供相應(yīng)的數(shù)據(jù)或提示信息,引導(dǎo)操作人員逐步完成所需的操作,直至獲得最后處理結(jié)果。采用這種方式,存儲(chǔ)在系統(tǒng)中的數(shù)據(jù)文件能夠被及時(shí)處理修改,同時(shí)處理結(jié)果可以立刻被使用。交互式數(shù)據(jù)處理具備的這些特征能夠保證輸入的信息得到及時(shí)處理,使交互方式繼續(xù)進(jìn)行下去。
圖由于自身的結(jié)構(gòu)特征,可以很好地表示事物之間的關(guān)系,在近幾年已成為各學(xué)科研究的熱點(diǎn)。圖中點(diǎn)和邊的強(qiáng)關(guān)聯(lián)性,需要圖數(shù)據(jù)處理系統(tǒng)對圖數(shù)據(jù)進(jìn)行一系列的操作,包括圖數(shù)據(jù)的存儲(chǔ)、圖查詢、最短路徑查詢、關(guān)鍵字查詢、圖模式挖掘以及圖數(shù)據(jù)的分類、聚類等。隨著圖中節(jié)點(diǎn)和邊數(shù)的增多(達(dá)到幾千萬甚至上億數(shù)),圖數(shù)據(jù)處理的復(fù)雜性給圖數(shù)據(jù)處理系統(tǒng)提出了嚴(yán)峻的挑戰(zhàn)。下面主要闡述圖數(shù)據(jù)的特征和典型應(yīng)用以及代表性的圖數(shù)據(jù)處理系統(tǒng)。
圖數(shù)據(jù)中主要包括圖中的節(jié)點(diǎn)以及連接節(jié)點(diǎn)的邊,通常具有3個(gè)特征。
第一,節(jié)點(diǎn)之間的關(guān)聯(lián)性。圖中邊的數(shù)量是節(jié)點(diǎn)數(shù)量的指數(shù)倍,因此,節(jié)點(diǎn)和關(guān)系信息同等重要,圖結(jié)構(gòu)的差異也是由于對邊做了限制,在圖中,頂點(diǎn)和邊實(shí)例化構(gòu)成各種類型的圖,如標(biāo)簽圖、屬性圖、語義圖以及特征圖等。
第二,圖數(shù)據(jù)的種類繁多。在許多領(lǐng)域中,使用圖來表示該鄰域的數(shù)據(jù),如生物、化學(xué)、計(jì)算機(jī)視覺、模式識(shí)別、信息檢索、社會(huì)網(wǎng)絡(luò)、知識(shí)發(fā)現(xiàn)、動(dòng)態(tài)網(wǎng)絡(luò)交通、語義網(wǎng)、情報(bào)分析等。每個(gè)領(lǐng)域?qū)D數(shù)據(jù)的處理需求不同,因此,沒有一個(gè)通用的圖數(shù)據(jù)處理系統(tǒng)滿足所有領(lǐng)域的需求。
第三,圖數(shù)據(jù)計(jì)算的強(qiáng)耦合性。在圖中,數(shù)據(jù)之間是相互關(guān)聯(lián)的,因此,對圖數(shù)據(jù)的計(jì)算也是相互關(guān)聯(lián)的。這種數(shù)據(jù)耦合的特性對圖的規(guī)模日益增大達(dá)到上百萬甚至上億節(jié)點(diǎn)的大圖數(shù)據(jù)計(jì)算提出了巨大的挑戰(zhàn)。大圖數(shù)據(jù)是無法使用單臺(tái)機(jī)器進(jìn)行處理的,但如果對大圖數(shù)據(jù)進(jìn)行并行處理,對于每一個(gè)頂點(diǎn)之間都是連通的圖來講,難以分割成若干完全獨(dú)立的子圖進(jìn)行獨(dú)立的并行處理;即使可以分割,也會(huì)面臨并行機(jī)器的協(xié)同處理,以及將最后的處理結(jié)果進(jìn)行合并等一系列問題。這需要圖數(shù)據(jù)處理系統(tǒng)選取合適的圖分割以及圖計(jì)算模型來迎接挑戰(zhàn)并解決問題。
四種大數(shù)據(jù)各自的特點(diǎn)和處理方式都記住了嗎,使用的時(shí)候要根據(jù)不同的情況來考量哦。
想要獲取更多大數(shù)據(jù)相關(guān)資訊和知識(shí),關(guān)注微信公眾號(hào)成都科多大數(shù)據(jù)就能看到啦。
發(fā)表評論
請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個(gè)字
最新活動(dòng)更多
-
即日-8.30免費(fèi)下載>>> 福祿克在線溫度監(jiān)測應(yīng)用案例手冊
-
9月2日立即報(bào)名>> 【在線研討會(huì)】COMSOL 多物理場仿真在薄膜沉積中的應(yīng)用
-
9月23日立即預(yù)約>> 【COMSOL直播】多物理場仿真在傳感器中的應(yīng)用
-
11月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會(huì)
-
12月18日立即報(bào)名>> 【線下會(huì)議】OFweek 2025(第十屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
-
即日-12.31立即下載>> 【限時(shí)下載】《2025激光行業(yè)應(yīng)用創(chuàng)新發(fā)展藍(lán)皮書》
- 1 機(jī)器人獨(dú)角獸Field AI完成4.05億美元融資!英偉達(dá)、貝佐斯押注
- 2 臺(tái)達(dá)電子7月營收453.97億元,同比增長21.6%
- 3 上半年?duì)I收突破 80 億!臥龍電驅(qū)最新“成績單”出爐
- 4 剛剛,安川電機(jī)減持焊接機(jī)器人龍頭 5% 股份!
- 5 市場觀察 | 埃斯頓市場第一,埃夫特全球總部項(xiàng)目最新進(jìn)展,三合工業(yè)自動(dòng)化總部項(xiàng)目動(dòng)工
- 6 上半年?duì)I收突破 18 億元,禾望電氣最新“成績單”出爐
- 7 最新 !ABB 宣布在加拿大重大投資
- 8 綠的諧波半年報(bào):凈利潤大漲45.87%,增長勢頭強(qiáng)勁
- 9 智改數(shù)轉(zhuǎn),質(zhì)效同升 | 全數(shù)會(huì)2025中國智能制造數(shù)字化轉(zhuǎn)型大會(huì)圓滿落幕
- 10 蘭劍智能上半年新增訂單 15 億元,暴漲 96% !