報告編委
黃勇
愛分析合伙人&首席分析師
孟晨靜
愛分析分析師
外部專家(按姓氏拼音排序)
杜晨陽
力維智聯 五維實驗室主任
王哲
九章云極DataCanvas 雅圖BU總經理
特別鳴謝(按拼音排序)
目錄
1. 報告綜述
2. 金融行業數據科學與機器學習平臺
3. 工業數據科學與機器學習平臺
4. 結語
1.報告綜述
隨著數據體量的快速增長、算法迭代優化以及CPU、GPU、DPU等多種算力技術的發展,以大數據建模為核心的機器學習技術正被企業廣泛應用到營銷、廣告、風控、生產等場景中。
機器學習涉及復雜的建模流程,如數據準備、特征工程、模型訓練、模型部署、模型運營等,需要數據工程師、數據科學家、數據分析師、BI、軟件工程師以及業務人員等多方協作。在企業傳統的建模方式中,建模以項目制為主,建模周期長,協作困難,建模門檻高且嚴重依賴數學科學家。
然而,市場環境、消費者需求的快速變化推動企業向敏捷性組織轉型,對業務決策時效性要求更加嚴格。對此,企業一方面需要提升建模效率以支持業務的持續更新、適應廣泛的建模場景,另一方面也需要賦予一線業務人員建模能力,提升業務人員對市場的反應能力。傳統建模方式難以滿足企業快速決策需求。
數據科學與機器學習平臺為企業提供了一個高效的解決方案。數據科學與機器學習平臺整合數據接入、數據準備、特征工程、模型訓練、模型部署、模型管理及模型運營等模型開發全流程,集成豐富的模型開發工具,不僅能有效提升模型開發效率,還能基于AutoML實現低門檻建模,滿足業務人員的建模需求。數據科學與機器學習平臺正成為企業數智化轉型的必要基礎設施。
不同行業的企業對數據科學與機器學習平臺的需求側重點不同。如對于具備專業建模人員的金融、醫療等行業,需要數據科學與機器學習平臺兼顧專業建模人員和業務人員的建模需求;而對于普遍不具備專業建模人員的其他傳統行業,如工業、消費、能源等,更需要業務人員可快速上手的低門檻建模系統。
本報告選取具有代表性的金融行業、工業行業的數據科學與機器學習平臺解決方案為研究對象,圍繞該解決方案在大中型企業的落地應用展開研究,重點分析兩個行業中甲方對數據科學與機器學習平臺的需求和解決方案。
2.金融行業數據科學與機器學習平臺
在領先的數字化轉型進程、海量數據積累、充分的科技人才儲備以及豐富的業務場景應用需求等驅動因素下,金融行業對數據科學與機器學習平臺應用的滲透率明顯高于其他傳統行業。尤其在銀行業,數據科學與機器學習平臺的建設呈現出從全國性大型銀行向地域性城商行覆蓋的趨勢。數據科學與機器學習平臺作為人工智能基礎設施正被納入更多金融機構的數字化轉型規劃中。
以銀行業為例,銀行中的數據科學與機器學習平臺的用戶可分為兩類人群:數據科學家和業務人員。其中數據科學家指具備專業建模能力的模型開發人員,負責模型的開發、算法的優化,是模型開發的核心人員。業務人員諸如營銷、風控、產品研發等場景下的數據分析人員、BI分析師。銀行的2C屬性使得更靠近C端消費者的業務人員對產品、服務的優化更敏感,也更具話語權,為實現銀行的精細化運營,業務人員對敏捷地模型開發及應用的需求逐漸增強。兩類人群對數據科學與機器學習平臺的需求也不同。
圖1:數據科學家和業務人員對數據科學與機器學習平臺的需求
數據科學家在進行機器學習建模時,主要面臨以下挑戰:
-
傳統項目制建模方式導致計算資源無法共享:在金融機構傳統的機器學習建模過程中,數據科學家各自以項目形式對業務場景進行建模,對于計算資源的調用以申請高性能CPU或GPU服務器為主,計算資源分配不均勻,算力不能高效利用。
-
傳統建模方式下建模工具缺失:傳統的開發工具簡單,模型訓練和模型部署都需要數據科學家手動實現,尤其模型部署過程中涉及模型轉換、模型優化以及模型在業務平臺運行的性能和穩定性等復雜的工程化落地能力,數據科學家實現模型部署較為困難。此外,由于缺乏數據、代碼、模型的版本管理功能,建模過程中的數字資產無法共享、復用。
-
建模全過程多角色協同困難:由于模型開發過程會涉及到數據準備、模型訓練、模型部署以及模型運維等多個環節,涉及數據工程師、數據科學家、軟件數據分析師等多角色共同協作完成,存在反復溝通、協作流程不明確等問題,帶來重復性工作。
業務人員對數據科學與機器學習平臺的需求更偏向簡單易上手的建模工具,需要屏蔽數據準備、模型訓練、模型部署等環節的復雜性,實現一鍵建模,并能及時查看模型對業務決策分析的效果。
為同時滿足數據科學家專業建模需求和業務人員低門檻的建模需求,最大化算法模型價值推動實現高效決策,金融行業的數據科學與機器學習平臺解決方案應圍繞以下要點展開。
圖2:金融行業數據科學與機器學習平臺解決方案要點
-
統一資源管理:對模型開發需要的CPU、GPU資源進行整合,以容器化的方式對算力虛擬化,實現彈性擴容、性能加速、資源共享,避免資源浪費。
-
建立數據管道:模型訓練過程依賴金融機構內外的高質量數據,且智能應用上線后,需持續對模型效果進行監控,持續輸入新鮮的高質量數據集進行模型迭代,因此需要建立數據管道,包括為金融機構接入多種數據源如關系型數據庫、Hadoop大數據平臺,提供統一的存儲、治理、管理服務,提供豐富的數據分析算子進行標注、檢查、改進等數據預處理。
-
模型訓練:兼容多種高性能訓練和推理引擎框架,如TensorFlow、Pytorch、MXNet等。提供多種建模方式,包括自由度更高的Notebook建模、可視化建模、AutoML建模,適用于金融機構不同建模人員使用。針對Notebook建模、可視化建模提供豐富的白盒算子,以供數據科學家進行優化或是建立模型訓練工作流;AutoML建模中則應具備數據自動處理、模型自動訓練、模型自動選擇等功能,使得業務人員只需提供原始數據集即可完成獲得特定業務場景下的模型開發,開展智能應用。
-
模型部署和運維:提供一鍵部署功能,實現模型快速部署;提供模型監控功能,對模型漂移提供預警。
-
模型開發數字資產的沉淀:在模型開發過程中,針對數據接入、數據轉換、特征工程、模型訓練、模型部署等環節,提供數據、代碼和模型等的版本管理,實現模型數字資產的沉淀和復用。
案例1:AI中心加速山西銀行智能化轉型,打造數據驅動型組織 山西銀行是經中國銀保監會批準,于2021年4月28日掛牌開業,以原大同銀行、長治銀行、晉城銀行、晉中銀行、陽泉市商業銀行為基礎,通過新設合并方式設立的省級法人城市商業銀行,現有員工7000余名,擁有分行級機構12家,各類營業網點387個,遍布全省10個地市、23個區、36個縣。 山西銀行成立之初,在對原大同銀行、長治銀行、晉城銀行、晉中銀行、陽泉市商業銀行科技系統整合的基礎上,為建立一套全行的可持續“讓數據用起來”的數據體系,于2021年啟動數據中臺項目群,推動包括數據開發平臺、數據管控平臺、數據服務平臺和客戶集市等功能實現。 建模方式不完善,亟待建模能力和建模系統全面升級 其中,為實現數據賦能業務需求,山西銀行擬圍繞以人工智能、大數據、云計算為代表的科技能力為基礎搭建自動化聯合建模平臺,為建模人員提供樣本導入、數據匹配、特征加工、模型訓練及模型評估等一站式聯合建模服務,并將聯合建模平臺作為數據開發平臺的重要組成部分。山西銀行對聯合建模平臺的需求主要體現在以下方面: 實現聯合建模。山西銀行中業務人員普遍不具備建模能力,而具備專業建模能力的科技人員對業務了解也不透徹,這導致科技人員在建模過程中需要與業務人員就具體需求、數據范圍、數據質量、模型設計等方面進行反復溝通,耗費大量時間。山西銀行亟需為業務人員實現自動建模功能,為科技人員提供一站式建模平臺支撐,實現業務人員和科技人員聯合建模,提升模型開發效率。 提升算力。AI的算力強弱直接影響到AI模型訓練的精度與推理結果。一方面,由于山西銀行數據由5家銀行數據合并而來,數據體量遠超之前單個銀行數據體量;另一方面,每個項目組都會各自申請計算資源,導致科技人員在進行模型訓練過程中經常面臨算力資源不足的問題,頻繁出現內存溢出、開發工具重啟等現象。此外,不同的業務場景需要的資源類型也不同,如機器學習模型常用CPU計算,深度學習模型傾向用GPU進行計算,因此如何提升建模的算力支持,且為科技人員屏蔽復雜的算力管理細節,專注于建模本身,是聯合建模平臺需要解決的主要問題之一。 實現數據、代碼等模型數據資產共享及沉淀。山西銀行技術人員在面向精準營銷、智能風控、產品設計等不同業務需求時,優秀的數據集、代碼、模型版本等成果不能及時共享,需要聯合建模平臺支持建模過程成果沉淀。 基于以上需求,山西銀行將聯合建模平臺項目進行招投標,綜合考量技術先進性、對業務場景的適應性、系統運行穩定性、系統安全性、系統可拓展性以及信創環境支持等因素,最終選擇與九章云極DataCanvas合作。 北京九章云極科技有限公司(簡稱:九章云極DataCanvas)成立于2013年,是中國數據智能基礎軟件領軍者。公司專注數據智能基礎軟件的持續開發與建設,通過自主研發的一系列企業級AI應用所需的平臺軟件產品及解決方案,助力用戶實現數智化升級。目前,九章云極DataCanvas機器學習平臺業務涉及政府、金融、通信、制造、能源、交通、航空等十余個行業,客戶覆蓋多個行業頭部和世界五百強企業。 基于DataCanvas APS機器學習平臺,建設AI中心 在九章云極DataCanvas協助下,山西銀行正式建設聯合建模平臺,基于九章云極成熟的DataCanvas APS機器學習平臺建立“模型實驗室”。該項目從2021年11月開始推進實施,歷經近9個月的時間,于2022年8月初完成平臺建設并進行線上試運行,之后于2023年1月正式在全行推廣,針對全行范圍的數據、模型需求正式開展工作。山西銀行模型實驗室面向科技人員和業務人員實現一站式模型開發,主要功能包括以下方面: 圖3:模型實驗室功能架構圖/示意圖
1.異構多引擎融合架構
2.簡化數據準備,實現多源異構大數據分析 模型實驗室支持多種數據連接器,山西銀行可便捷獲取包括本地數據、關系型數據庫、Hadoop大數據平臺等在內的各類數據源,并且模型實驗室支持支持異構多源數據的加工和混合處理,即在一個工作流中可以將多個異構數據源中的數據作為輸入并調用平臺上的多種數據分析算子進行處理。 3.開放性算法支持
4.提供三種編碼方式,適應不同建模水平人員
5.模型全生命周期管理 對數據接入、數據轉換、特征工程、建?梢暬、模型倉庫、模型生產化等建模全過程的數據、環境、代碼、模型版本進行管理,實現數據、特征、模型的復用和迭代,沉淀數據資產。 6.支持高性能的分布式訓練 融合主流分布式計算框架如Spark、TensorFlow、PyTorch、Dask等,并預置豐富的分布式訓練場景;深度學習分布式支持單機單卡、單機多卡、多機多卡訓練,用戶可以在復雜場景下快速高效完成模型訓練。 以上是模型實驗室的重要功能。 山西銀行在搭建模型實驗室的基礎上,也在考慮如何改善模型開發流程讓模型實驗室發揮最大價值。由于模型開發流程包含業務需求分析、搜集數據、數據清洗、特征工程、模型訓練、模型部署、模型運維等環節,涉及業務部門、IT部門、算法開發人員等多個部門,為保證模型開發流程高效運轉,在建設模型實驗室基礎上,山西銀行制定了一套完善的模型開發協作機制,如下圖所示。其中,業務部門提出業務需求并對模型最終效果進行確認。數金業務部承擔與業務部門溝通的職責,包括業務需求確認、模型設計溝通、模型初訓練的效果確認等。數金科技負責數據預處理、模型訓練工作。 圖4:山西銀行跨部門模型開發協作流程示意圖
模型實驗室大幅提升建模效率、有效降低建模成本 模型實驗室作為山西銀行的AI中心,利用先進的異構多引擎融合架構,適應業務人員和科技人員的不同建模需求,為智能應用建設生命周期提供完善的工具和支持,實現端到端一站式建模,有效解決算力瓶頸問題,大幅提升建模效率。 1.解決算力瓶頸問題 模型實驗室基于異構多引擎融合架構,具有優秀的可擴展性,利用Spark 分布式內存計算提供強大的計算能力,支持海量數據計算分析。此外,模型實驗室能在模型開發的數據處理、模型訓練等環節提供資源自動推薦,用戶也可對資源類型和配額進行調整,實現算力的高效利用。同時,模型實驗室對使用者屏蔽了大數據技術組件的復雜性,使業務人員和科學人員能輕松獲得大數據處理能力。 2.提升建模能力,提高建模效率 模型實驗室提供端到端一站式建模全流程支持,能大幅提升山西銀行在數據探索、預處理、特征工程、分析挖掘以及模型服務等環節的能力。另一方面,模型實驗室為業務人員提供的AutoML建模和圖形化建模方式,使業務人員能根據需求自主建模,基于模型效果再與科技人員溝通進行模型優化或調整,改進建模流程,大幅縮短建模時間,實現對業務需求的敏捷響應。 3.模型資產和建模方法論沉淀 建模過程中,包括數據集、數據清洗、特征工程、模型訓練、模型上線等過程的代碼、數據,以及建模的流程都能保留并提供下載,科技人員可以通過權限定義分享對象,從而實現人員協同、成果復用,沉淀模型資產、解決問題的方法論和流程。 4.有效實現成本控制:經統計,基于模型實驗室,單個機器學習模型的建模成本縮減60%,運維成本降低30%。 |
3.工業數據科學與機器學習平臺
工業互聯網趨勢下,以AI模型為核心的人工智能通過融合工業機理知識與專家經驗,實現設計創新、生產優化、產品智能檢測、智能運維等價值,正廣泛應用在企業的設計研發、生產制造、運維、供應鏈管理、產品檢測等場景中。人工智能已經成為工業企業提升生產效率、提高產品質量、降低人力成本、實現環境可持續發展的新型基礎設施。
當前,工業企業中的數字化轉型領先企業,在試點驗證機器學習模型價值后,希望擴大智能應用的范疇,對特定場景進行智能化改造,如化工、石化等流程工業企業的生產場景下,生產裝置的模擬與優化普遍基于傳統的機理建模,以實現對生產過程的工況分析和流程優化。但基于單個環節或是單個裝置的機理模型收斂慢、研發周期長且模型可移植性差,難以實現對系統過程全流程的模擬。
機器學習平臺通過融合機器學習建模和機理建模,不僅能簡化模型復雜度,還能實現對生產過程中各環節、各化工裝置實現建模開發,從而達到對生產全流程的精準控制和精準預測。工業企業對應用機器學習平臺的難點/需求,具體表現在:
圖5:工業企業應用數據科學與機器學習平臺的難點/需求
-
企業缺失專業建模人才。工業企業的IT人才儲備有限,企業不具備專業的機器學習建模人才。同時,企業的智能化進程需要為一線業務人員賦能模型開發、模型應用能力,因此機器學習平臺必須低門檻、易上手。
-
實現知識資產沉淀和復用。工業下細分行業眾多,不同細分行業的生產流程差異巨大。企業在日常經營中積累了豐富的場景知識和專家經驗,需要將此類知識沉淀為數據科學與機器學習平臺中的數據集模板、特征工程模板、模型模板或是工作流程,實現專家經驗知識沉淀。
-
提供個性化行業場景預訓練模型支持。工業在生產工藝、產品檢測等環節數據量有限,難以支撐需要大規模數據支撐的模型,需要合適的預訓練模型實現小數據量下的模型開發。
為了解決工業企業在數據科學與機器學習平臺應用上的難點,廠商對工業企業的解決方案應包括以下三方面內容:
圖6:工業企業數據科學與機器學習平臺解決方案要點
1. 平臺建設:搭建端到端一站式模型開發平臺
-
建模方式:提供低門檻的建模支持,包括無代碼AutoML建模和低代碼圖形化建模。其中AutoML應支持自動化的數據處理、特征工程、模型選擇、超參數調優以及模型部署。
-
算法提供:提供豐富的數據預處理算法、機器學習算法、深度學習算法,供業務人員調用;提供業務場景適用的預訓練模型,以保證業務場景下“小數據”的模型效果。
-
計算資源管理支持:支持算力資源的分布式管理和精細化管理,為模型訓練提供自動化資源推薦,以及屏蔽大數據技術組件的復雜性,使業務人員能輕松獲得大數據處理能力。
2. 平臺部署:軟硬件環境適配
工業企業的軟硬件環境復雜,數據科學與機器學習建模平臺內嵌在工業互聯網平臺中,面向多種業務系統,需要針對性的進行兼容性適配開發。因此,廠商軟件開發人員需要與企業的工程師協同對認證系統、數據中臺、業務系統進行定制化的開發和對接聯調工作,以保證平臺的順利部署。
3. 平臺運維:培訓建模流程、技巧
在數據科學與機器學習平臺建設完成后,廠商的數據分析師、數據科學家應提供培訓教學,為企業的業務人員培訓機器學習基礎概念,同時通過實訓方式讓業務人員上機實操,結合業務場景案例,快速掌握平臺建模能力。
案例2:某石化企業通過工業大數據分析建模平臺實現加氫裂化裝置工藝優化,提升經營效率 某石化企業是一家集石油化工、煤化工、石化產品銷售為一體,配套齊全的大型煉化一體化企業,原油加工能力2200萬噸/年、芳烴生產能力100萬噸/年,加工規模和技術水平位居國內煉油企業第一梯隊。 近年來,該石化企業積極推進信息化工業化兩化深度融合,基于工業互聯網提出“智能煉廠”,在裝置優化、計劃優化、供應鏈優化等環節推進相關應用研究。目前,該企業工業互聯網已廣泛應用于工藝、設備、HSE、能源、經營管理、物流等領域。 與此同時,煉化企業為應對低油價與成品油市場寒冬,紛紛以生產優化為核心深入實施降本增效,進而對生產模型精度、模型開發效率以及模型應用廣度等都提出更高要求。 而智能建模技術作為“智能煉廠”的核心技術,以煉油生產為“目標函數”,能通過快速創建智能化應用,為安全生產、降本增效提供智能決策,成為石化企業普遍關注的關鍵技術。加氫裝置(包括加氫精制、加氫裂化)是石油煉化企業的關鍵環節,該石化企業希望通過敏捷建模實現煉化生產智能化。 既有建模方式門檻高、難應用 針對生產優化,該企業早已應用基于機理的傳統優化建模軟件如Aspen、Petro-SIM、ProII,同時也在嘗試基于機器學習算法的大數據建模技術,如將煉化機理知識與深度學習算法相結合,已經實現加氫裝置原料油換熱器結垢預測、加氫催化劑床層溫度預測等場景的智能化應用,并取得了較好效果。但兩種建模路徑都難以滿足業務需求,使企業處于“有數據、無模型、有模型、難應用”的被動局面,具體痛點表現在: 1)技術門檻高;跈C理的傳統優化建模嚴重依賴專家經驗以及國外廠商提供的優化求解軟件,且建模軟件模型收斂慢,調優復雜。而機器學習建模過程涉及數據準備、特征工程、模型構建、模型部署,也嚴重依賴具備專業建模能力的數據科學家。該企業缺乏懂建模也懂業務的專業復合型人才,同時高技術門檻阻礙了建模技術在企業煉化場景的廣泛推廣應用。 2)建模周期長,建模成本高。傳統優化建模和機器學習建模都存在著“大數據、小任務”,執行任務單一的特點。其建模過程中數據體量大、開發難度大、研發周期長,而開發的模型僅能適用于單個“小場景”。如果想覆蓋煉化過程的更多場景就需要定制化的開發多個模型,導致兩種建模方式均投入巨大,難以快速為企業帶來效益提升。 3)模型部署難。在該石化企業業務中,當機器學習算法模型訓練完畢部署到生產環境中時,數據采集、預處理和邊緣推理計算時均受智能設備影響,AI模型的實際效果與智能設備的選型、接入、點位選擇以及人力調試密切相關。然而該化工企業智能設備來源廣泛,不同生產領域的設備型號各異,缺少統一的接入標準,且設備安裝、接入和調試需要耗費大量人力,導致模型在不同生產領域部署時均需以項目課題形式實施,模型部署難也進一步制約機器學習建模在企業的推廣應用。 建設一站式煉化工業大數據分析建模平臺,支撐深度學習算法推廣應用 鑒于機器學習建模在前期實驗中的出色效果,該石化企業決定將深度學習算法進行推廣應用,將“智能煉廠”推進“深度編碼”階段,通過先進的技術手段,如容器化、分布式計算、低代碼等技術,實現對深度學習算法在煉化領域落地的助推。而實現深度學習算法的推廣應用,需要大數據建模平臺做支撐。該石化企業考慮到自建大數據建模平臺成本投入大、技術難度較高,如分布式計算環境對硬件資源要求高、大數據組件的開發與應用難度大、模型部署對接各個系統復雜性較高等,于是決定與第三方廠商合作,綜合考慮行業服務經驗、核心技術能力、兼容性、成本等方面,最終選擇與力維智聯合作。 力維智聯成立于2005年,是國家高新技術企業,憑借泛在數據接入與匯聚和大數據智能等AIoT技術和十余年AIoT系統集成交付能力,提供軟硬一體的行業AIoT產品、解決方案與服務。同時,力維智聯通過低代碼機器學習開發平臺提供AI開發工具軟件和AI中臺解決方案,該平臺已服務于上海世紀出版集團、南方電網科研院、中海油、航天科技、國家5G中高頻器件創新中心等企業和公共服務平臺。 在力維智聯的協助下,該石化企業在既有工業互聯網平臺架構下,針對石化煤柴油加氫裝置構建起一站式煉化工業大數據分析建模平臺,集成數據預處理、主流機器學習算法、智能優化算法和模型自動訓練方法,最終實現生產數據到模型應用的端到端建模平臺。 圖7:工業大數據分析建模平臺在工業互聯網的位置
圖8:工業大數據分析建模平臺架構示意圖
1. 工業大數據分析建模平臺架構 工業大數據分析建模平臺處于石化工業互聯網的工業PaaS層。架構上,工業大數據分析建模平臺分為數據分析引擎和數據模型用戶端。 1)數據分析引擎 數據分析引擎分為底層架構和業務架構。底層架構由Spark、MongoDB、Java Client、Webserver等技術組成。業務架構包含數據讀入、數據處理、特征工程、機器學習、深度學習、智能優化、AUTOML等模塊。數據分析引擎主要提供數據分析與挖掘、特征工程與模型訓練功能,其中數據分析還包括數據輸出及數據可視化。 2)數據模型用戶端 數據模型用戶端底層架構由Java Client、Azkban、Redis、Java Springboot等技術組成。業務架構通過數據視圖——算子流構建——模型管理——模型工作流——模型服務——發布應用構建起來。數據模型用戶端支持多種數據庫接入,但不對接入數據進行存儲,該石化企業另部署數據庫進行對接。 數據模型用戶端主要提供用戶權限管理、資源的定義和管理、任務調度以及數據的呈現,其中資源包含數據視圖、算子流、工作流和應用等。 2. 工業大數據分析建模平臺功能 基于以上架構,工業大數據分析建模平臺覆蓋數據準備、統計分析、數據可視化、特征構造、模型構建和模型部署等智能應用開發全流程。具體實現了以下功能: 1)提供豐富的算法:平臺包含的算法主要分為兩部分,一是通用數據科學挖掘算法,包括數據預處理和主流機器學習算法;二是優化算法,包括模型自訓練算法和智能優化算法。一線煉化工程師可以根據自身需要設計算子流,對多種格式的數據數據進行預處理,或是根據業務場景進行建模。 2)煉化數據與大數據融合:一方面,平臺通過預置煉化過程“工藝、質量”等領域專題數據集固化先驗知識,并對工藝特征工程進行遷移,為大數據算法落地提供特征模板與數據基礎,將工程師的專家知識固化到平臺;另一方面,平臺預置豐富機器學習、深度學習算子,可為不同煉化過程大數據建模場景提供算法與數據的適配融合。 3)實現低門檻建模:一方面,基于應用引擎、算子流和工作流的編排功能,工業大數據分析建模平臺為煉化工程師提供無代碼的圖形化“拖拉拽”建模支持,通過連接任意算子形成算子流,可便捷實現數據預處理、模型設計、訓練和部署。另一方面,平臺支持無代碼的模型自訓練(AutoML),包括自動數據準備,自動機器學習,自動模型調參,大大降低煉化工程師的建模門檻。 4)提供智能應用開發:模型部署后,平臺提供API服務的方式供其他業務系統調用,同時也支持借助BI+AI圖標和控制組件開發動態可交互的可視化應用。 5)資源分布式、項目制管理:通過集群部署,平臺實現了模型訓練算力與推理算力資源的分布式管理,以項目為單位,對數據資源和硬件資源進行精細化管理控制。 6)軟硬件兼容適配:力維智聯在平臺部署時使用了容器化技術,對國產化軟硬件進行兼容性適配開發,保證平臺順利部署、穩定運行。針對數據接口接入,力維智聯通過適配該煉化企業自有的工業互聯網平臺數據微服務接口,完成了煉化數據接入,保證數據流轉暢通。另外,平臺還額外提供了ETL能力,對數據進行治理與融合,實現算法建模前對數據進行預處理。 7)完備的流程管理:平臺提供從數據接入、數據分析處理、數據展示、特征工程、模型管理、模型部署以及智能應用上線一站式實現和管理。 工業大數據分析建模平臺顯著提高建模效率、轉變模型開發方式 該石化企業通過大數據低代碼建模平臺,解決了煉油化工企業“有數據、無模型;有模型、難應用”、“建模成本高、建模周期長”的問題。通過實踐證明在預測誤差、利潤產品收率、建模周期等方面均得到顯著改善。 1)模型性能提升,預測誤差降低 基于大數據建模平臺開發的“多通道多尺度卷積神經網絡(MCMSCNN)”模型在加氫催化劑床層溫度預測、氫氣耗量預測方面誤差<3%,提升了煉化工程師對核心工況參數的監控把握,大幅降低氫氣、燃料氣等生產成本。 基于低代碼平臺開發的“大數據預訓練+工藝數據微調”遷移算法解決了因LIMS(實驗室信息管理系統)化驗分析數據量不足而造成的產品性質預測模型性能不佳的問題,實現了加氫裂化產品性質的實時軟測量,利潤產品收率提高約0.8%。 2)建模門檻降低,建模周期大幅縮短 數據智能建模平臺實現了生產裝置海量數據的有效利用,從數據采集到模型部署,由2周大幅縮短為1天。其中建模環節,因平臺支持通過建立與煉油裝置有關的工藝和質量的專題數據集來固化先驗知識,遷移建模特征,為大數據算法落地提供特征模板與數據基礎,使建模時間由原來的一周大幅縮短為8小時,建模效率大幅提高。 此外,該石化企業內的模型開發工作也實現了“去中心化”,從原有信息中心的個別工程師在實驗室開發,轉變為一線工程師結合生產問題廣泛開發,有效賦能生產。 3)模型資產實現復用 由煉化工程師自主研發的10余個機器學習模型,日調用量超1000余次。 廠商選型和企業科研意識是大數據低代碼建模平臺落地關鍵 該石化企業通過建設低代碼工業大數據分析建模平臺實現加氫裝置多環境的優化,取得良好效果,其成功經驗可以復用到煉化行業生產工藝環節、其他流程行業企業,或是供已建設工業物聯網的企業借鑒,主要包括以下兩點: 1)廠商選型 石化企業的生產流程具有顯著行業特點,生產環境復雜,對產品的穩定性、可靠性要求苛刻,且石化企業普遍不具備建模能力,建模平臺完成后需提供完善的售后服務。因此廠商應具備以下能力。
2)企業自身對數字化、對科研的重視 一方面,企業需要有強烈的科研意識,能夠緊跟新技術發展,勇于在自身業務領域進行創新;另一方面,企業管理層對工業互聯網、對數字化建設的重視也是機器學習建模平臺能順利落地的保障。 |
4.結語
機器學習正在向更多行業滲透,市場對數據科學與機器學習平臺的產品需求正變得更加復雜。一方面,不同行業的數字化進程、IT人才、建模人才儲備不同,使用數據科學與機器學習平臺的的對象愈發多元化,包括不限于算法開發人員、模型開發人員、數據工程師、應用開發人員、BI分析師、數據分析師等。不同對象對數據科學與機器學習平臺的功能訴求不同;另一方面,客戶對機器學習平臺解決方案的需求走向深水區,強調適應場景需求、產生業務價值,需要機器學習廠商能融合行業或場景知識,提供定制化的行業解決方案。