當下“打破數(shù)據(jù)孤島”與“深入挖掘數(shù)據(jù)價值”的理念被更廣泛認知,數(shù)據(jù)與智能的融合被視作企業(yè)發(fā)展的新引擎。一個顯見的問題是,在數(shù)據(jù)科技與人工智能關注不同要素,沿兩條不同的技術路線越走越遠背景下,融合如何充分實現(xiàn)。
作為全球領先的云服務解決方案供應商,以及云上數(shù)智融合的推動者,亞馬遜云科技日前就“企業(yè)在云中打造統(tǒng)一數(shù)據(jù)基礎底座,實現(xiàn)大數(shù)據(jù)和機器學習的雙劍合璧”的相關內(nèi)容分享了自身的理念與成果,并對提供數(shù)智化技術的“智能湖倉”架構的新變化進行了說明。
(圖:亞馬遜云科技大中華區(qū)產(chǎn)品部總經(jīng)理陳曉建)
企業(yè)“數(shù)智融合”過三關
亞馬遜云科技大中華區(qū)產(chǎn)品部總經(jīng)理陳曉建分享了亞馬遜云科技在多年服務中歸納的企業(yè)數(shù)智融合共性問題,主要有三點,且相互關聯(lián):
一是,大數(shù)據(jù)和機器學習“分而治之”。一方面,既表現(xiàn)在技術路線的差異上,又表現(xiàn)在負責團隊的各自獨立上;另一方面,也存在專業(yè)數(shù)據(jù)在不同業(yè)務部門間缺少流轉的情況,這也給機器學習中數(shù)據(jù)采集和解構的過程帶來了額外的負擔。
二是。數(shù)據(jù)處理能力整體不足?,F(xiàn)實情況中,負責機器學習的團隊更關注算法,缺少對海量規(guī)模數(shù)據(jù)處理的能力,這對算法的后續(xù)優(yōu)化與后續(xù)應用的有效性都有影響。
三是,數(shù)據(jù)分析人員參與度低。陳曉建介紹稱,現(xiàn)實情況很可能是,一個算法在研發(fā)和測試階段表現(xiàn)非常好,但一到使用環(huán)節(jié)就暴露很多問題,因為測試環(huán)節(jié)只是真實環(huán)境的簡單模擬,真實環(huán)境復雜度會高很多。
以上問題的存在,也是亞馬遜云科技認為“企業(yè)在云中要打造統(tǒng)一的數(shù)據(jù)基礎底座,實現(xiàn)大數(shù)據(jù)和機器學習的雙劍合璧”的原因。
亞馬遜的“云上數(shù)智融合”
就陳曉建的描述,一個好的、合理的大數(shù)據(jù)和機器學習融合架構要具備三點關鍵的能力特征,這也是亞馬遜云科技努力實現(xiàn)的:
其一,能夠建立統(tǒng)一融合的數(shù)據(jù)底座。其中包括數(shù)據(jù)質(zhì)量、權限、開發(fā)、可視化,通過大數(shù)據(jù)與AI機器學習之間高效、充分的雙向互動與循環(huán),實現(xiàn)數(shù)據(jù)融合。重點在于,實現(xiàn)統(tǒng)一的數(shù)據(jù)共享,避免重復工作、增加復雜度、浪費成本;建立統(tǒng)一的數(shù)據(jù)采集、存儲、質(zhì)量權衡標準、權限控制,推進數(shù)據(jù)流動;統(tǒng)一開發(fā)和流程編排。
其二,能夠為機器學習提供生產(chǎn)級的數(shù)據(jù)處理能力。重點是能夠通過開放的引擎,對異構的、多元的數(shù)據(jù)進行處理;具備彈性,能夠根據(jù)業(yè)務的負載進行靈活的底層資源收縮;優(yōu)化數(shù)據(jù)質(zhì)量,為機器學習提供高質(zhì)量的數(shù)據(jù)源。
其三,能夠通過智能數(shù)據(jù)分析,統(tǒng)一技術和業(yè)務價值。通過為用戶提供更智能的數(shù)據(jù)分析服務,讓業(yè)務人員可以完成智能分析、模型效果驗證以及自主式創(chuàng)新,進一步是吸納研發(fā)與業(yè)務之間的協(xié)同。
“智能湖倉”的能力迭代
根據(jù)亞馬遜云科技大中華區(qū)產(chǎn)品部技術專家團隊總監(jiān)王曉野的描述,亞馬遜云科技認為,企業(yè)在現(xiàn)代化數(shù)據(jù)進程中,需要的不是單一的產(chǎn)品,而是需要靈活開放的架構,通過可擴展、安全可靠的數(shù)據(jù)服務,專門構建帶來高效分析能力的數(shù)據(jù)分析引擎以及AI工具,從而提供極致性能。
至于近一年來的具體升級,則是在關聯(lián)前述關鍵能力的前提下展開:
亞馬遜云科技統(tǒng)一的數(shù)據(jù)治理底座不僅能提升大數(shù)據(jù)和機器學習的高效融合,還能減少大數(shù)據(jù)和機器學習重復構建的工作,并且顯著降低成本。
其中,Amazon Lake Formation推出諸多新功能,實現(xiàn)了數(shù)據(jù)網(wǎng)格跨部門的數(shù)據(jù)資產(chǎn)共享,以及基于單元格的最細粒度的權限控制機制;Amazon SageMaker Studio可一站式地完成數(shù)據(jù)開發(fā)、模型開發(fā)及相關的生產(chǎn)任務,該服務基于多種專門構建的服務為大數(shù)據(jù)和機器學習提供統(tǒng)一的開發(fā)平臺。
亞馬遜云科技提供多種靈活可擴展、專門構建的大數(shù)據(jù)服務,幫助客戶進行復雜的數(shù)據(jù)加工及處理,應對數(shù)據(jù)規(guī)模的動態(tài)變化,優(yōu)化數(shù)據(jù)質(zhì)量。
其中,Amazon Athena能夠對支持多種開源框架的大數(shù)據(jù)平臺,包括多種數(shù)據(jù)源,對這些數(shù)據(jù)源進行聯(lián)邦查詢,快速完成機器學習建模的數(shù)據(jù)加工。數(shù)據(jù)源中以Amazon Redshift、Amazon Managed Streaming for Apache Kafka (Amazon MSK)和 Amazon EMR 為代表的無服務器分析能力,可以讓客戶無需配置、擴展或管理底層基礎設施,即可輕松地處理任何規(guī)模的數(shù)據(jù),為機器學習項目提供兼具性能和成本效益的特征數(shù)據(jù)準備。
亞馬遜云科技還不斷提供更加智能的數(shù)據(jù)分析服務,賦能業(yè)務人員進行智能分析、模型效果驗證以及自主式創(chuàng)新。
例如,在日常分析工具中集成機器學習模型預測能力,其中深度集成機器學習Amazon SageMaker模型預測能力的Amazon QuickSight 、在分析結果中添加基于模型預測的Amazon Athena ML,可幫助用戶使用熟悉的技術,甚至通過自然語言來使用機器學習;還提供如Amazon Redshift ML、可視數(shù)據(jù)準備工具Amazon Glue DataBrew、零代碼化的機器學習模型工具 Amazon SageMaker Canvas等服務,讓業(yè)務人員探索機器學習建模。
目前來看,在企業(yè)轉型縱深推進、數(shù)智融合加速進行的過程中,“建立統(tǒng)一的數(shù)據(jù)基礎底座”是可行路徑,統(tǒng)一底座在“云”中落實,能夠極大限度地保障融合的有效性,亞馬遜云科技的“云、數(shù)、智三位一體”服務組合將為相關企業(yè)提供更多有效助力。(釘科技原創(chuàng),轉載請務必注明出處“釘科技網(wǎng)”)
- QQ:61149512