機(jī)器學(xué)習(xí)零代碼平臺:SageMaker Canvas拆解
低代碼、無代碼平臺在近幾年流行了起來,那么這類平臺的實(shí)際體驗(yàn)效果如何?本篇文章里,作者就針對一款面向業(yè)務(wù)分析師的零代碼機(jī)器學(xué)習(xí)工具——Amazon SageMaker Canvas,進(jìn)行了分析體驗(yàn),一起來看一下。
一、概述
Sagemaker Canvas 是一款面向非技術(shù)人員,提供無代碼自動化建模及數(shù)據(jù)預(yù)測的機(jī)器學(xué)習(xí)服務(wù)。所以,在拆解該產(chǎn)品前,我覺得有必要了解下機(jī)器學(xué)習(xí)和無代碼這兩個(gè)的基本概念。
1. 機(jī)器學(xué)習(xí)
關(guān)于機(jī)器學(xué)習(xí)的定義,我引用百度百科說明:“機(jī)器學(xué)習(xí)是對能通過經(jīng)驗(yàn)自動改進(jìn)的計(jì)算機(jī)算法的研究;機(jī)器學(xué)習(xí)是用數(shù)據(jù)或以往的經(jīng)驗(yàn),以此優(yōu)化計(jì)算機(jī)程序的性能標(biāo)準(zhǔn)”。
簡單來講,機(jī)器學(xué)習(xí)是一個(gè)模型訓(xùn)練過程:數(shù)據(jù)輸入-建模-結(jié)果輸出,基于結(jié)果再進(jìn)行“數(shù)據(jù)輸入-建模-結(jié)果輸出”循環(huán)往復(fù),最終得到最優(yōu)模型的過程。此處用到的模型,也可以叫算法,算法基本上是有現(xiàn)成方法論的機(jī)器學(xué)習(xí)模型。所以,想要得到一個(gè)最優(yōu)的模型,核心是需要:
2. 無代碼
低代碼平臺概念最早在2014年由Forrester Research正式提出,隨后各低代碼頭部企業(yè)對低代碼平臺有了自己的定義和解釋,因此也誕生了無代碼這種類型的產(chǎn)品。粗獷點(diǎn)理解,我覺得低代碼是一個(gè)便于開發(fā)人員快速開發(fā)和部署應(yīng)用的平臺,而無代碼是面向業(yè)務(wù)人員通過頁面的可視化操作便可以搭建應(yīng)用的平臺。
由此我得到了一個(gè)信息:那就是無代碼平臺適用于流程比較容易標(biāo)準(zhǔn)化的業(yè)務(wù)場景;面向的是技術(shù)能力相對不足且希望能快速搭建自己的業(yè)務(wù)系統(tǒng)以降本增效的中小企業(yè)業(yè)務(wù)人員,及大型企業(yè)中對這部分預(yù)算投入較少的部門。
機(jī)器學(xué)習(xí)流程上容易標(biāo)準(zhǔn)化,且一方面建設(shè)一個(gè)數(shù)據(jù)科學(xué)團(tuán)隊(duì)的成本很高,另一方面從業(yè)務(wù)需求到模型產(chǎn)出之間的時(shí)間也會比較長,作為需要及時(shí)相應(yīng)的業(yè)務(wù)來說,他們也需要一個(gè)可以業(yè)務(wù)直接使用的輕量機(jī)器學(xué)習(xí)工具,我覺得這是canvas找到的一個(gè)突破口。
二、行業(yè)
1. 規(guī)模
基于艾瑞2022年8月低代碼行業(yè)報(bào)告顯示,2021年中國低代碼行業(yè)市場規(guī)模為27.5億,預(yù)計(jì)未來4年復(fù)合增速達(dá)到44.1%,2025年規(guī)模達(dá)到118.4億。單從增速上來看,低代碼在國內(nèi)還處于成長期。但一個(gè)比較有意思的數(shù)據(jù)是,基于海比研究院2021年中國低代碼/無代碼行業(yè)報(bào)告顯示,2020年低代碼行業(yè)市場規(guī)模占比86%,無代碼市場規(guī)模僅占了14%。
2022年1月艾瑞人工智能行業(yè)報(bào)告,2021年中國AI產(chǎn)品服務(wù)核心市場規(guī)模達(dá)到275億,預(yù)計(jì)未來4年復(fù)合增速達(dá)到20.6%,2025年規(guī)模達(dá)到578億。從增速和現(xiàn)有市場規(guī)模來看,機(jī)器學(xué)習(xí)相較低代碼行業(yè)已經(jīng)進(jìn)入一個(gè)穩(wěn)定增長期,但增速還是比較可觀的。
2. 標(biāo)準(zhǔn)化
無代碼適用于流程相對固定且容易標(biāo)準(zhǔn)化的場景。作為一個(gè)機(jī)器學(xué)習(xí)工具類產(chǎn)品,無疑它的標(biāo)準(zhǔn)化是更容易做到且更容易跨行業(yè)兼容的產(chǎn)品形態(tài)。
3. 商業(yè)環(huán)境
1)根據(jù)國家統(tǒng)計(jì)局數(shù)據(jù),2022年前三季度,GDP累計(jì)同比增長為3%,第三產(chǎn)業(yè)累計(jì)同比增長為2.3%,其中,信息傳輸、軟件和信息技術(shù)服務(wù)同比增長8.8%。整體經(jīng)濟(jì)增速放緩,傳統(tǒng)企業(yè)對數(shù)字化轉(zhuǎn)型的愿望更加迫切,需求也會逐步提高。
2)根據(jù)億歐智庫2020年報(bào)告統(tǒng)計(jì),2010年至2020年4月,中國人工智能企業(yè)數(shù)量共計(jì)1135家,私募股權(quán)投資從2015年的千億級別回落到2020年第一季度的幾十億,人工智能的創(chuàng)業(yè)敞口期正在縮緊。資本對人工智能的認(rèn)知更加理性,更加看重人工智能在實(shí)際場景的落地而不是炒概念,所以未來所謂AI 產(chǎn)品更加重要的是如何通過AI解決企業(yè)的實(shí)際業(yè)務(wù)痛點(diǎn)。
3)技術(shù)應(yīng)用上,據(jù)億歐智庫2020年報(bào)告,機(jī)器學(xué)習(xí)在中國13項(xiàng)人工智能技術(shù)應(yīng)用企業(yè)數(shù)量中排名第三,占比為12%。機(jī)器學(xué)習(xí)是需求側(cè)比較受認(rèn)可的應(yīng)用之一。
4. 競爭態(tài)勢
三、定位
中大型企業(yè)/通用型/工具型。
一款面向業(yè)務(wù)分析師的零代碼機(jī)器學(xué)習(xí)工具,幫助客戶解決:① 機(jī)器學(xué)習(xí)結(jié)果對業(yè)務(wù)的相應(yīng)時(shí)間過慢問題 ② 為沒有機(jī)器學(xué)習(xí)能力的企業(yè)快速構(gòu)建自己的機(jī)器學(xué)習(xí)模型。
客群:主要為能夠有一定業(yè)務(wù)量的中大型企業(yè)。
盈利模式:會話時(shí)長及訓(xùn)練數(shù)據(jù)單元格的數(shù)量付費(fèi)。
產(chǎn)品線:Amazon Sagemaker。
四、資源
- 原生的云服務(wù)資源,提供穩(wěn)定的算力和數(shù)據(jù)存儲服務(wù)。
- 亞馬遜作為在北美區(qū)月活占有率50%以上的頭部線上交易平臺,擁有豐富的機(jī)器學(xué)習(xí)經(jīng)驗(yàn)及客戶資源。
五、能力
- 豐富的適用場景:由于機(jī)器學(xué)習(xí)的通用性,canvas理論上可以服務(wù)于大部分?jǐn)?shù)字化程度較高的行業(yè),如:金融、電商、物流、倉儲、連鎖超市等。
- 云計(jì)算:AWS擁有超過16年的云服務(wù)運(yùn)營經(jīng)驗(yàn),能為應(yīng)用程序提供穩(wěn)定性更高的云服務(wù)。
- 使用便捷:Amazon SageMaker是基于AWS構(gòu)建的完全托管的機(jī)器學(xué)習(xí)服務(wù),可讓日常開發(fā)人員和數(shù)據(jù)科學(xué)家無需任何前置經(jīng)驗(yàn)即可運(yùn)用機(jī)器學(xué)習(xí)。
六、用戶體驗(yàn)
1. 注冊
AWS提供統(tǒng)一賬號管理,注冊試用期12個(gè)月,可免費(fèi)試用AWS所有產(chǎn)品。
因?yàn)锳WS提供的產(chǎn)品實(shí)在太多了,注冊頁還能檢索具體的免費(fèi)方案。
注冊后進(jìn)入SageMaker,需要先配置SageMaker域。這一步作為非技術(shù)的我不知道有什么作用,但是在這個(gè)配置的過程中,每個(gè)頁面都會有明確引導(dǎo),所以不理解也沒關(guān)系,照著做就行。設(shè)置頁已經(jīng)配置好了默認(rèn)設(shè)置,這個(gè)也很友好,基本傻瓜式點(diǎn)下一步就可以完成了。
每一步提示信息都很明晰。
總結(jié):就注冊環(huán)節(jié)上來說,引導(dǎo)清晰,每一步都有明確提示,注冊上不會有太多障礙。
2. 實(shí)際試用
亮點(diǎn)一:針對0代碼經(jīng)驗(yàn)的業(yè)務(wù)分析人員提供的樣例和操作導(dǎo)覽很豐富。
非常清晰的使用導(dǎo)覽(幾個(gè)月前試用的時(shí)候還是沒有的,迭代速度還是很快的,而且也很注重用戶的反饋):
workshop studio提供樣例數(shù)據(jù)集試用,標(biāo)明行業(yè),使用場景以及使用的模型,真的太贊了。
功能模塊按照機(jī)器學(xué)習(xí)的核心流程劃分清晰:
亮點(diǎn)二:基于需要預(yù)測的字段數(shù)據(jù)類型自動推薦模型類型。
配置需要預(yù)測的數(shù)據(jù),系統(tǒng)為你推薦最優(yōu)模型類型,當(dāng)然你也可以自己選。目前支持二分類、時(shí)間序列、numeric model
亮點(diǎn)三:提供可視化的數(shù)據(jù)預(yù)處理界面。
可查看每個(gè)字段的數(shù)據(jù)分布:
支持通過托拉拽對數(shù)據(jù)進(jìn)行交叉分析:
支持建模前的預(yù)處理:
亮點(diǎn)四:模型結(jié)果報(bào)告自動生成
這個(gè)需求的點(diǎn)在于,業(yè)務(wù)分析師通過0代碼平臺構(gòu)建模型最大的好處是提高對業(yè)務(wù)的響應(yīng),可以對數(shù)據(jù)和模型訓(xùn)練做一個(gè)預(yù)探索,如果有更復(fù)雜的需求才找到數(shù)據(jù)團(tuán)隊(duì)解決。
就拿風(fēng)控策略來說,一個(gè)策略分析師必須是對風(fēng)控策略及各類信貸產(chǎn)品有非常深刻的理解的,但是TA不一定懂復(fù)雜的代碼編寫,很多業(yè)務(wù)的需求需要經(jīng)由風(fēng)控分析師的分析將需求給到數(shù)據(jù)團(tuán)隊(duì),數(shù)據(jù)團(tuán)隊(duì)接到需求建模后給到業(yè)務(wù),業(yè)務(wù)基于數(shù)據(jù)表現(xiàn)再決定是要再進(jìn)行優(yōu)化調(diào)整還是可以直接投入使用,這一來二去的耗時(shí)是非常久了。
如果有一個(gè)0代碼的分析工具,業(yè)務(wù)分析師可以自己先進(jìn)行簡單的數(shù)據(jù)探索和模型構(gòu)建,之后再把可能需要編程才能完成的工作給到數(shù)據(jù)科學(xué)團(tuán)隊(duì),這樣顯然效率是更高的。這就需要一個(gè)可以將模型結(jié)果對外分享的功能,以便數(shù)據(jù)科學(xué)團(tuán)隊(duì)可以再做進(jìn)一步優(yōu)化。canvas提供了PNG下載,以解決此需求。
提供報(bào)告png圖片格式下載,方便分享給部門其他人:
亮點(diǎn)五:結(jié)果預(yù)測支持在線調(diào)整數(shù)值以更新預(yù)測結(jié)果。
這個(gè)功能的好處是,你可以自己調(diào)整每個(gè)字段的數(shù)值,來測試哪個(gè)數(shù)值區(qū)間對預(yù)測結(jié)果更敏感。
七、總結(jié)
首先就canvas的定位而言,我覺得是一個(gè)比較巧妙的切入點(diǎn),產(chǎn)品功能小而聚焦,功能設(shè)計(jì)輕便且直觀,滿足了高可用的這一特點(diǎn)。
就我比較了解的電商運(yùn)營和信貸風(fēng)控而言,由于是業(yè)務(wù)需要及時(shí)響應(yīng)的領(lǐng)域,如果一個(gè)需求響應(yīng)時(shí)間需要1-2周,一個(gè)大促都走完一半了,一個(gè)信貸周期都過去一半了。如果有一個(gè)產(chǎn)品能幫業(yè)務(wù)人員解決這個(gè)問題,以前1周的需求周期能縮減到幾個(gè)小時(shí),這將大大提升業(yè)務(wù)的運(yùn)營效率。但是在實(shí)際試用后我發(fā)現(xiàn)理想是豐滿的,但是現(xiàn)實(shí)還是很骨感:
① canvas依照會話時(shí)長及訓(xùn)練數(shù)據(jù)單元格的數(shù)量付費(fèi),并不適宜國內(nèi)的使用習(xí)慣
我在試用canvas的一周內(nèi),幾乎無感知的獲得了一份費(fèi)用大禮包,我甚至都不知道這些費(fèi)用是怎么產(chǎn)生的。謝謝亞馬遜,讓我對云服務(wù)的收費(fèi)有了直觀的理解。
② 可以對數(shù)據(jù)進(jìn)行自動處理的功能很吸引人,但是實(shí)際使用并不美好
我試用了一組《信貸用戶逾期預(yù)測建?!窋?shù)據(jù),這組數(shù)據(jù)中有非常多的空值。在做機(jī)器學(xué)習(xí)之前,對無效數(shù)據(jù)進(jìn)行處理是一種基本操作,canvas很自然的提供了可以自動識別missing data且進(jìn)行刪除的功能,但是這個(gè)功能只支持單個(gè)字段添加刪除的形式。所以當(dāng)我的元數(shù)據(jù)集中有非常多空值時(shí),我甚至多了非常多的機(jī)械操作。
③ 目前的預(yù)測只支持單指標(biāo)預(yù)測,使用場景可能會受限制
首先是只能對單指標(biāo)進(jìn)行預(yù)測,其次模型分享其實(shí)只能分享給同樣使用了sagemaker studio的用戶。這意味著想要有更好的用戶體驗(yàn)和更便利的辦公協(xié)同環(huán)境,企業(yè)可能需要同時(shí)購買sagemaker studio服務(wù)。合理懷疑,canvas是studio產(chǎn)品使用過程中催生出來的新需求。
參考資料:
[1] sagemaker canvas產(chǎn)品文檔:https://docs.aws.amazon.com/sagemaker/latest/dg/canvas.html
[2] 【海比研究院】2021年中國低代碼_無代碼市場研究報(bào)告
[3] 【億歐智庫】2021低代碼市場研究報(bào)告0806_2021-08-11
[4] 艾瑞咨詢:生態(tài)聚合-中國低代碼行業(yè)生態(tài)發(fā)展洞察報(bào)告
[5] 艾瑞咨詢:不啻微芒,造炬成陽:2022年中國低代碼行業(yè)研究報(bào)告
數(shù)據(jù)來源:
[1] Amazon workshop studio:https://catalog.us-east-1.prod.workshops.aws/workshops/80ba0ea5-7cf9-4b8c-9d3f-1cd988b6c071/en-US
[2] 阿里云天池:信貸用戶逾期預(yù)測建?!?span id="qsh1b7padf" class="candidate-entity-word" data-gid="1066749932429119594">銀聯(lián)商務(wù)】
本文由 @隱君隨記 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于CC0協(xié)議。
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。