企業(yè)如何實現(xiàn)對工業(yè)大數(shù)據(jù)的預處理?
數(shù)據(jù)分析,包括大數(shù)據(jù)分析,在企業(yè)的業(yè)務中,特別是在傳統(tǒng)的商務行業(yè),已有多年的應用實踐,在消費者市場的營銷中已成了必不可缺的技術。隨著工業(yè)互聯(lián)網和智能制造的興起和發(fā)展,工業(yè)大數(shù)據(jù)技術也越來越受到各方關注。在“中國制造2025”的技術路線圖中,工業(yè)大數(shù)據(jù)是作為重要突破點來規(guī)劃的,而在未來的十年,以數(shù)據(jù)為核心構建的智能化體系會成為支撐智能制造和工業(yè)互聯(lián)網的核心動力。
對制造企業(yè)而言,不論是新實施的系統(tǒng)還是老舊系統(tǒng),要實施大數(shù)據(jù)分析平臺,就需要先弄明白自己到底需要采集哪些數(shù)據(jù)。因為考慮到數(shù)據(jù)的采集難度和成本,大數(shù)據(jù)分析平臺并不是對企業(yè)所有的數(shù)據(jù)都進行采集,而是相關的、有直接或者間接聯(lián)系的數(shù)據(jù),企業(yè)要知道哪些數(shù)據(jù)是對于戰(zhàn)略性的決策或者一些細節(jié)決策有幫助的,分析出來的數(shù)據(jù)結果是有價值的。
比如企業(yè)只是想了解產線設備的運行狀態(tài),這時候就只需要對影響產線設備性能的關鍵參數(shù)進行采集。
再比如,在產品售后服務環(huán)節(jié),企業(yè)需要了解產品使用狀態(tài)、購買群體等信息,這些數(shù)據(jù)對支撐新產品的研發(fā)和市場的預測都有著非常重要的價值。
因此,建議企業(yè)在進行大數(shù)據(jù)分析規(guī)劃的時候針對一個項目的目標進行精確的分析,比較容易滿足業(yè)務的目標。明確目標以后,就要著手開始搜集數(shù)據(jù)并進行預處理了。本期格物匯將跟大家介紹,企業(yè)如何實現(xiàn)對工業(yè)大數(shù)據(jù)的預處理。
數(shù)據(jù)采集
首先我們看看數(shù)據(jù)是如何獲取的,在現(xiàn)實生活中,我們所面對的問題,往往都是抽象復雜的。我們來看如下兩個例子:
如何提升產品的良率?
可能這是制造業(yè)最為普遍的一個問題,如果我們要分析解決這個問題,常常就會問到:什么產品?有多少條產線在生成?經過了哪些機臺?影響產品良率的因素有哪些?我們可能會提出很多很多這樣的問題,解決這些問題需要對相關業(yè)務知識非常了解,盡可能多的找出與問題有關的數(shù)據(jù)。
如何進行人臉識別?
這問題更加復雜一些,雖然我們每個人的大腦每天都在做人臉識別,但是大腦如何工作的卻異常難懂。我們可能需要做很多科研工作,去挖掘到底哪些數(shù)據(jù)會影響到人臉識別的正確率。如果這些數(shù)據(jù)本身沒有,很可能還需要進行測量采集,比如兩眼之間的距離,嘴的寬度和長度等等。當然,我們還會評估采集的成本,并對這些數(shù)據(jù)有效性進行評估,驗證我們的成本是否值得去花費精力測量。
數(shù)據(jù)預處理簡介
數(shù)據(jù)采集以后,數(shù)據(jù)往往存放在數(shù)據(jù)庫或文件系統(tǒng)中,我們需要把他們導入到算法模型中進行訓練,得到我們想要的模型。但是我們的數(shù)據(jù)往往雜亂無章,總的來說,數(shù)據(jù)一般存在如下幾類問題:
數(shù)據(jù)類型多種多樣
我們的數(shù)據(jù)中常常出現(xiàn)字符型,時間型,數(shù)字型等多種數(shù)據(jù)類型。其中:字符型是無法代入模型計算的,所以我們根據(jù)需要,可以對字符型數(shù)據(jù)進行編碼轉換。常用的編碼方法有:
數(shù)字編碼:對于有大小比較的字符型數(shù)據(jù),可以直接轉換成數(shù)字編碼。比如:
Onehot編碼:對于沒有大小比較的字符型數(shù)據(jù),可以使用Onehot獨熱編碼。比如:
時間類型往往是一類特殊的數(shù)據(jù),把時間簡單看成一個實數(shù)的話,往往不符合邏輯。對于帶時間的數(shù)據(jù),我們通常使用時間序列的分析方法進行分析。有時候我們更加關注的是兩列時間的差值,這時我們可以構建時間差值列作為新的變量加入模型之中。
數(shù)字型往往是導入模型進行訓練的主要部分,數(shù)字型又可以細分為離散型和連續(xù)型,因為離散與連續(xù)的數(shù)據(jù)分布顯著不同,我們可以對其進行分開處理。數(shù)字型之間各個列常存在量綱差異,有的數(shù)據(jù)可能很大,有的數(shù)據(jù)可能很小,我們需要去除數(shù)據(jù)量綱,防止模型對數(shù)據(jù)較大的列進行偏倚(數(shù)據(jù)值較大時通常方差也較大)。常用的數(shù)據(jù)去量綱的方法有最大最小值歸一化法,均值標準差標準化法等等。
數(shù)據(jù)格式不對
我們期望數(shù)據(jù)格式是表結構,矩陣格式,或者是張量格式。然而我們拿到的數(shù)據(jù)往往不是格式化的數(shù)據(jù),比如機臺的日志數(shù)據(jù),圖像數(shù)據(jù),音頻視頻數(shù)據(jù)。我們需要對上述數(shù)據(jù)轉換,把數(shù)據(jù)格式轉換成我們想要的格式。
數(shù)據(jù)中存在異常
數(shù)據(jù)中還會出現(xiàn)缺失值,異常值等異常,這些情況也會強烈影響到模型的訓練,我們需要對空值進行補值。如何補值需要我們對數(shù)據(jù)非常了解,才能推斷出該用什么值來補值,才不會改變原有的數(shù)據(jù)分布。一般的補值方法有:0值補值,均值補值,中位數(shù)補值,按上一個數(shù)補值,移動平均補值,線性插值,相關列補值法等等,對于缺失值比例較大的列,可以采取直接刪除的方法。異常值則需要創(chuàng)建規(guī)則,對異常值進行識別,再用正常的值進行替換,故異常值也有類似于缺失值的替換方法。
本文作者:格創(chuàng)東智OT團隊
請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
-
即日-8.30免費下載>>> 福祿克在線溫度監(jiān)測應用案例手冊
-
9月2日立即報名>> 【在線研討會】COMSOL 多物理場仿真在薄膜沉積中的應用
-
9月23日立即預約>> 【COMSOL直播】多物理場仿真在傳感器中的應用
-
11月27日立即報名>> 【工程師系列】汽車電子技術在線大會
-
12月18日立即報名>> 【線下會議】OFweek 2025(第十屆)物聯(lián)網產業(yè)大會
-
即日-12.31立即下載>> 【限時下載】《2025激光行業(yè)應用創(chuàng)新發(fā)展藍皮書》
- 1 機器人獨角獸Field AI完成4.05億美元融資!英偉達、貝佐斯押注
- 2 臺達電子7月營收453.97億元,同比增長21.6%
- 3 上半年營收突破 80 億!臥龍電驅最新“成績單”出爐
- 4 剛剛,安川電機減持焊接機器人龍頭 5% 股份!
- 5 市場觀察 | 埃斯頓市場第一,埃夫特全球總部項目最新進展,三合工業(yè)自動化總部項目動工
- 6 上半年營收突破 18 億元,禾望電氣最新“成績單”出爐
- 7 最新 !ABB 宣布在加拿大重大投資
- 8 綠的諧波半年報:凈利潤大漲45.87%,增長勢頭強勁
- 9 營收突破 205 億大增 26.73%,新能源業(yè)務暴漲 50%!匯川技術上半年業(yè)績亮眼
- 10 蘭劍智能上半年新增訂單 15 億元,暴漲 96% !