熱門關鍵詞:
熱門關鍵詞:
江蘇鳳谷節(jié)能科技有限公司 大數據的概念與背景
大數據是最近幾年才熱起來的一個概念。大數據熱大約在2012年前后在中國出現。其中,涂子沛先生的《大數據》一書起到了重要的作用。“除了上帝,任何人都必須用數據來說話”這句話,更是得到了時任廣東省委書記汪洋(現為國務院副總理)的高度肯定。
讀過這本書的人都知道:涂子沛關注的重點是大數據對政治、社會、倫理等方面的影響。后來,各家互聯網公司、IT公司將人們關注的熱點引向了商業(yè)領域,再經股評師的運作,使之成為全社會炙手可熱的概念。與此同時,學術界不失時機地將大數據的概念引入了工業(yè)界。
然而,工業(yè)界重視數據分析早已不是新鮮事了。人們很早就希望通過數據發(fā)現客觀規(guī)律、優(yōu)化生產過程。例如,筆者25年前就開始涉足工業(yè)數據的分析研究,而數據挖掘等理論也早已廣泛傳播。對數據挖掘的價值,一種流行的觀點是:當企業(yè)競爭進入白熱化、所有手段都已用盡時,數據挖掘提供了領先半步的可能。與現在的觀點相比,這個認識是相當低調的。當然,低調背后是有原因的,因為業(yè)界真正成功的案例其實非常少。
很多企業(yè)急于搭上“工業(yè)大數據”這趟快車,然而在現實中遇到了很多的困惑。
人們似乎都認為數據的作用很大,但從事過工業(yè)數據分析的人往往有這樣的體會:分析過程往往達不到預想的目標,數據似乎并不是傳說中的金礦。
這種困惑也體現在商務活動中。企業(yè)信息化建設原本應該遵循一個基本原則:用戶需求驅動系統(tǒng)開發(fā)。從事大數據業(yè)務的IT公司對用戶說:你說怎么做,我就怎么做;用戶卻說:我不知道能得到什么,也不知道該怎么做,最好你告訴我怎么做。
誰都不知道怎么做。于是,大家都被暢銷書的理念忽悠著做事。然而,暢銷書的觀點是正確的嗎?在筆者看來,暢銷書上的觀點往往對不上中國企業(yè)的現狀———或將商務大數據的應用場景套在工業(yè)大數據,或將未來的場景套用到現在。
現在關于大數據的流行觀點,幾乎都是針對商務大數據的。然而,許多觀點可能并不適合工業(yè)界。筆者認為,工業(yè)和商業(yè)至少有以下幾點不同:
可發(fā)現的新知識少。一般來說,發(fā)現新知識是大數據分析的一個重要目的。然而,在工業(yè)領域,人們對生產過程的研究一般比較深入,專業(yè)知識也很豐富,很難從數據中發(fā)現新的知識。與之相比,商務活動的大數據分析往往涉及人的喜好,這些恰恰是過去難以量化研究的,故而大數據的含金量高。
對分析結果的質量要求高。工業(yè)界對分析結果的精度和可靠度要求高。如果將不可靠、不精確的分析結果用于指導生產,不僅不能創(chuàng)造價值,甚至可能導致極大的損失。與之相比,在許多商務大數據的應用場景下,即便分析錯誤,損失也不大。
分析難度高。工業(yè)系統(tǒng)往往是復雜的人造系統(tǒng),包含大量復雜的前饋和反饋環(huán)節(jié)。這意味著,變量間的相關性往往不是自然的因果關系。這個問題很容易誤導分析和決策的過程。另外,工業(yè)數據的信噪比往往比較低,分析結果很容易出現嚴重偏離事實的畸變(即所謂的有偏估計)。
相關性包含的信息少。在商務大數據中,數據之間的“相關性”本身往往就具有很大的參考價值,而在工業(yè)體系中則未必是這樣。
價值是用戶決定的。一杯水,放在沙漠里可以救命,剩在餐桌上就是垃圾。工業(yè)大數據也是一樣,能否創(chuàng)造價值,首先是要看用在什么場景中。
筆者認為,用戶對工業(yè)大數據提不出需求,是客觀現實的真實反映。大數據有用,但合適的應用場景不一定是現在。下面分析幾個有用的場景:
質量要求高的生產場景。制造業(yè)從什么時候開始重視數據?顯然,當我們追求高質量、高穩(wěn)定性的時候,數據會顯得非常重要,數據的價值才得以體現。國外先進企業(yè)追求6Sigma(一種改善企業(yè)質量流程管理的技術,主要強調通過制定極高的目標、收集數據以及分析結果,來減少產品和服務的缺陷),故而強調數據的重要性;許多企業(yè)一味追求低成本,數據的重要性自然就會低。
高度自動化及智能化的生產場景。在高度自動化和智能化的生產單元,人的介入很少,對質量的要求一般也很高。這時,對設備健康狀態(tài)和產品質量的自動監(jiān)控就變得非常重要。
工業(yè)互聯網的場景。工業(yè)互聯網能使成千上萬用戶的數據實現共享。多個用戶的共享會帶來兩個過去無法企及的效果。首先是分析結果的可靠性上升。這得益于來自不同用戶的實例,可用于對分析結論的重復性認證。其次是分析結果可以在眾多的用戶中分享,以創(chuàng)造更大的價值。
在當今的中國企業(yè)中,符合上述要求的場景是不多見的。多數企業(yè)重視成本遠甚于質量,智能制造和自動化的水平低,工業(yè)互聯網尚未起步。由此可見,對中國多數企業(yè)來說,工業(yè)大數據的價值很可能只是“未來時”,雖然這個未來可能并不遙遠。
推進工業(yè)大數據現在該做啥?
馬云策劃淘寶的年代,筆者正在浙江大學攻讀博士學位。記得那時學校的網速只有每秒100個字節(jié)———這件事啟發(fā)我們:機會往往發(fā)生在條件不太成熟的時候。所以,創(chuàng)新者的起步一定要早。在工業(yè)大數據全面應用之前,是我們培養(yǎng)能力、積累技術的時候。
但是,僅起步早是不夠的,關鍵還要走對路子。正如培根所說:“跛足而走對路的人,勝過健步如飛卻誤入歧途者。”怎樣盡早抓住機會呢?筆者認為,可以從以下幾個方面做起:
一是理解工業(yè)大數據的本質作用。
對企業(yè)來說,大數據用得好壞的關鍵是看能否創(chuàng)造出高于成本的價值。所以,筆者贊同從功能的角度定義工業(yè)大數據:大數據是過程(生產制造、研發(fā)服務、采購銷售)痕跡的數字化記錄,目的是為“用數據說話”奠定基礎,是對已有系統(tǒng)所產生的數據的二次利用。
這意味著,工業(yè)大數據平臺的建設,應該高度重視數據的組織,避免遺漏重要的數據以及數據之間的聯系。例如,實時的設備狀態(tài)和工藝參數應該與所生產的產品準確對應,相關的時鐘不能混亂。
二是以方便“人”的分析為出發(fā)點。
在商務大數據中,很多人強調機器學習,強調從大量數據中獲得規(guī)律性、重復性的知識。對于工業(yè)大數據,這種認識要做調整:工業(yè)知識主要來自人腦,數據的作用是對已有認識的確認、分辨與準確化。這就意味著,大數據平臺的要點是方便人從事分析工作。而人的分析工作往往是針對特定事件驅動的。
人的一項重要工作,是對生產制造、研發(fā)服務、采購銷售過程進行監(jiān)控,使得這些過程做到透明化,提高管理水平,通過更有效的管理創(chuàng)造效益。這樣,建立大數據平臺的一個重要任務是:讓相關過程顯性化,避免人陷落在信息和數據的海洋中,喪失關注的焦點。按照這個觀點,在工業(yè)領域,“知識自動化”的重點應該是知識的管理,而非知識的發(fā)現。
三是正確認識工業(yè)大數據的知識發(fā)現。
如前所述,由于工業(yè)數據體現出來的規(guī)律性往往難以突破人已有的認識范圍,發(fā)現規(guī)律性的知識(如工藝與質量之間的關系)是比較困難的。然而,工業(yè)大數據往往適合發(fā)現另外一類知識,即從數據中提煉信息的知識,將物理量的檢測數據轉化成產品質量、能耗、效率、設備狀態(tài)等信息的“軟測量”算法,其實就是這種類型的知識。這些知識往往是生產技術人員并不熟悉的盲點。故而,從數據研究者的角度看,它們屬于容易出成績的領域。
過去,學術界對這些問題很熱衷,企業(yè)卻不重視,因為這種知識很難創(chuàng)造價值。不能創(chuàng)造價值的原因,是未能將其納入管理或者控制的流程中,故而創(chuàng)造價值的途徑不暢通。為此,企業(yè)可能會需要一個平臺,以便將這些知識轉化成數字化的模型,并納入生產制造等流程中,以便創(chuàng)造經濟價值。
四是注重與智能制造的結合。
在筆者看來,數字化、網絡化引發(fā)的智能制造大體是這樣一個邏輯:信息驅動知識,在決策過程中創(chuàng)造價值、體現智能。其中,信息來自供應鏈、客戶、智能設備、物聯網,知識表現為軟件化的模型,決策則包括自動或人工的管理與控制。
如前所述,工業(yè)大數據在這個邏輯中有兩個重要作用:獲取“從數據提煉成信息的知識”;決策和專業(yè)知識主要來自人腦,但需要用大數據將其驗證、矯正和精確化。
五是加強數據分析可靠性理論研究。
在工業(yè)系統(tǒng)中,可靠分析的結果才有使用價值。可靠性分析原本是統(tǒng)計理論的重要組成部分。但用于大數據明顯是不合適的。這些理論的基本假設條件往往都是不成立的。而且,許多理論和著名觀點也造成了大量的誤導,如盲目強調分析結果的準確性、認為大數據強調相互關系而輕視因果等。
大數據的因果分析是個十分需要重視的領域,但過去主要是科學、哲學研究的范疇,統(tǒng)計學家對其重視不足。筆者認為,其實,可以從杜絕假象、通過證偽等思路來逼近因果。也就是說,重點分析那些容易導致錯誤結果的情況。同時,邏輯鏈的完整性和證據的獨立性也很重要。
鳳谷工業(yè)爐集設計研發(fā),生產銷售,培訓指導,售后服務一體化,專利節(jié)能技術應用,每年為企業(yè)節(jié)省40%-70%的能源成本,主要產品加熱爐,工業(yè)爐,節(jié)能爐,蓄熱式爐,垃圾氣化處理設備,歡迎致電咨詢:0510-88818999