薩摩耶雲:模型數據升級，AI決策“破”

本報訊人類對人工智能的想象和探索從未停止。

隨著數據、算法和計算能力的提升，人工智能的應用場景已經滲透到生活的方方面面。我們在搜索引擎中輸入關鍵詞後，網頁會自動匹配相關的搜索內容；短視頻App可以根據我們的瀏覽習慣推送相似的博主和場景；向智能手機等移動終端呼叫，可以調用相關功能，實現人機交互。

以人工智能為代表的數字化行業正在快速推進，行業的數字化轉型已經成為不可逆轉的趨勢。各行各業都在尋找與自身商業模式相匹配的AI大腦。AI決策能力是AI大腦的核心，決定了AI解決方案的效率和可執行性。

AI決策是由模型性能決定的，而模型性能離不開人工智能三駕馬車——數據、算法和計算能力的拉動。其中，數據在模型建立的過程中起著基礎性的作用，壹個模型的好壞取決於數據和樣本的維度，就像巧婦難為無米之炊壹樣。

因此，數據推廣在模型優化中起著基礎性和全局性的作用，數據和模型也是AI系統的重要組成部分。目前AI模型開發和應用的難點主要在於數據應用和算法創新，其中後者更多體現的是建模方法的恰當性。

數據應用維度不足。從AI決策模型的發展現狀來看，目前很多模型只是基於二維的數據組織形式，沒有考慮數據在完整周期內的時間節點變化。最終容易導致模型的辨識性、準確性和穩定性的失衡，AI決策的效果大打折扣。

例如，在視頻推薦和電商推薦場景中，如果模型只是建立在用戶賬號、行為屬性、社交記錄、交易結果等標準數據集上並進行優化，而不包括用戶在決策過程中重要時間節點的行為表現，可能會使模型過於擬合，無法準確預測用戶偏好和交易風險控制。

壹般來說，二維數據的維度主要是樣本維度和特征維度。樣本維度往往是用戶ID信息或者訂單號，而特征維度則是用戶人口統計屬性、行為屬性、外部信用信息等等。在二維數據模式下，用戶在每個時間點只對應壹個變量。

回到實際的業務場景，用戶在不同的時間節點會呈現不同的行為。雖然這些行為的強度不同，但最終都會反饋到行為特征上。如果將不同時間節點的用戶特征行為差異盡可能地納入建模過程，那麽原來壹對壹的二維數據將擴展為壹對多的時間序列，也就是說，數據將升級為樣本維、時間維和特征維的三維數據組織形式。

三維數據不僅可以減少數據集特征不足的影響，還可以最大化數據的價值，增加特征的數量，提高模型的精度。尤其是在獲取業務數據時，外部信用等數據往往會遇到訪問不確定性，而內部數據的數量和類型有限，利用程度趨於飽和。

然而，對於模型開發，更高的準確性和識別需要引入更多維度的數據，挖掘數據規則並生成更多衍生變量。壹旦無法從數量維度獲得更多變量，就只能從質量角度下功夫，深入挖掘變量的內在信息。深入挖掘數據信息的方法之壹是從壹對多時間序列的角度來升級維度。

事實上，數據維度升級可以用於優化AI模型的場景有很多。比如在股票、基金的智能投資業務中，AI模型的數據應用增加了時間維度，與樣本維度、個股、單個基壹起形成三維樣本，可以將節點變量考慮在內，更準確地預測未來走勢。

要想通過高維時間序列數據優化模型，僅僅停留在數據層面是遠遠不夠的，算法還有待改進。剩下的決定模型質量的20%是建模方法的選擇，與高維時間序列數據處理相匹配的算法通常是基於神經網絡算法的深度學習。

以薩摩耶雲為例，薩摩耶雲基於深度學習框架，探索面向模型性能提升的數據維度升級，開發適用於多個行業和場景的AI解決方案，滿足企業高效智能決策的需求。同時，這些端到端的雲原生技術解決方案以SaaS+aPaaS的形式交付，通過雙方的系統對接實現實時信息交互，可以為合作夥伴輸出基於雲的智能決策服務。

在薩摩耶雲首席科學家王明明看來，更高維的時間序列數據建模意味著對現有業務數據的全新理解，更多的數據信息，更復雜的數據組織，更高的機器性能要求，存儲要求和模型在線要求。基於高維時間序列數據，利用神經網絡對多維變量特征進行訓練和處理，最終建立和優化模型的AI決策能力。

具體來說，神經網絡作為機器學習的壹個重要分支，是壹種從數據中學習表示的新方法，強調從連續的地層中學習。在神經網絡算法的驅動下，模型可以同時學習所有的表示層，這些表示層可能包括幾十甚至上百個連續層，而其他機器學習方法往往只學習壹兩層數據表示。

在高維時間序列數據的學習中，壹方面，神經網絡以漸進、逐層的方式形成越來越復雜的表示；另壹方面，要從漸進表示中學習，每壹層都需要同時考慮上下層的需求。這意味著當狀態變量引入遞歸神經網絡時，可以保存每壹時刻的信息，與當前輸入壹起確定該時刻的輸出。

從薩摩耶雲的AI決策實踐來看，薩摩耶雲不僅考慮了之前的樣本維度和特征維度，還考慮了各個時間節點的用戶特征差異，通過三維數據處理完善了數據特征。在此基礎上，薩摩耶雲利用神經網絡和深度學習建立和訓練模型，實現了比常規模型更高效的模型效果。

這對提高模型的預測能力和精度非常重要。就像讀壹條新聞，如果只從每壹個字每壹個短語去理解，很容易斷章取義，不能真正理解新聞的意思。但是，把新聞作文中的字和句連接起來，放到各種背景節點中，就可以理解新聞的準確含義。

當薩摩耶雲將基於神經網絡等技術的AI模型應用到實際業務場景中，可以進壹步放大數據價值，幫助企業增強預測分析能力，提升精準營銷、銷售管理、供應鏈協同、結果預測、風險控制等效率，實現從經驗決策到智能決策的轉變，達到降本增效的效果。

實驗數據還表明，神經網絡的時間序列可以用來導出變量，可以產生顯著的變量增益效應。派生變量可以直接用於其他傳統建模環節，同時可以擴展內部派生變量空間。當原始特征的區分能力提高時，模型的區分效果也增強，最終增強了AI模型的性能。

作為領先的獨立雲服務技術解決方案提供商，薩摩耶雲深耕基於場景需求的AI決策智能賽道，不斷升級大數據、算法、模型策略和產品設計，為企業數字經濟和數字化轉型提供技術支持。在這個過程中，薩摩耶雲不僅強化了核心自主競爭力，還聚焦數字中國全景，不斷釋放科技賦能的價值。(山川河流)