今天你低代碼了嗎?(低代碼是什么)
今天你低代碼了嗎?(低代碼是什么)
編輯導(dǎo)語:當(dāng)下,各行各業(yè)都在尋找可以降本增效的效率途徑,AI人工智能、機(jī)器學(xué)習(xí)等概念也被廣泛應(yīng)用至業(yè)務(wù)中;而亞馬遜云科技推出的0代碼機(jī)器學(xué)習(xí)智能工具——Amazon SageMaker Canvas,就是一款可以應(yīng)用于數(shù)據(jù)分析業(yè)務(wù)中的工具。本文作者就對(duì)這款工具做了體驗(yàn)測(cè)評(píng),一起來看。
隨著人工智能技術(shù)的發(fā)展和普及,人們對(duì)機(jī)器學(xué)習(xí)和數(shù)據(jù)分析的需求一直居高不下。幾乎沒有哪個(gè)行業(yè)在交易中不涉及機(jī)器學(xué)習(xí)。
在這一背景下,與許多大型科技公司一樣,亞馬遜云科技也推出了一款無低代碼機(jī)器學(xué)習(xí)平臺(tái)——Amazon SageMaker Canvas,今天就讓我們來試用一下吧。
一、測(cè)評(píng)說明
- 測(cè)評(píng)人:剛畢業(yè)一年的B端產(chǎn)品經(jīng)理,碩士畢業(yè),計(jì)算機(jī)專業(yè),機(jī)器學(xué)習(xí)方向;
- 測(cè)評(píng)對(duì)象:Amazon SageMaker Canvas(一款低代碼機(jī)器學(xué)習(xí)平臺(tái));
- 測(cè)評(píng)目的:對(duì)產(chǎn)品的可操作性(用起來方不方便)、預(yù)測(cè)準(zhǔn)確性(好不好用)進(jìn)行測(cè)評(píng)。
二、使用體驗(yàn)測(cè)評(píng)
1. 對(duì)沒有機(jī)器學(xué)習(xí)知識(shí)的人友好
作為一個(gè)有機(jī)器學(xué)習(xí)專業(yè)知識(shí)背景的新用戶,我從最初的賬號(hào)注冊(cè),到最終使用SageMaker Canvas構(gòu)建模型,花費(fèi)了不過半天時(shí)間,非但不用在本地電腦裝各種軟件、各種庫、各種包,還省去了幾百行的機(jī)器學(xué)習(xí)代碼,整個(gè)過程無需編碼即可構(gòu)建機(jī)器學(xué)習(xí)模型,完成對(duì)本地?cái)?shù)據(jù)的預(yù)測(cè)分析。
對(duì)比過去和現(xiàn)在,如果你想使用機(jī)器學(xué)習(xí)算法對(duì)手頭上的數(shù)據(jù)進(jìn)行分類、預(yù)測(cè):
表1 過去 VS. 現(xiàn)在
2. 界面風(fēng)格簡潔
以產(chǎn)品經(jīng)理的視角看,Amazon SageMaker Canvas每個(gè)頁面的排版樣式、控件設(shè)計(jì)及交互效果都非常的通俗易懂。
例如,登錄Amazon SageMaker Canvas的工作臺(tái)后,能在其中查看該賬戶下所有已創(chuàng)建模型和已導(dǎo)入的數(shù)據(jù)集。其中,模型列表支持兩種展現(xiàn)形式:卡片列表和表格列表。
我個(gè)人比較喜歡卡片列表,因?yàn)榭ㄆ斜硐啾扔诒砀窳斜恚瑯邮揭顫姾芏?,能讓頁面顯得不那么死板和單調(diào)。接著進(jìn)入一個(gè)模型之后,會(huì)看到選擇數(shù)據(jù)>>模型構(gòu)建>>模型分析>>模型預(yù)測(cè)這四個(gè)步驟,這能指引用戶更便捷地完成模型構(gòu)建工作。
圖1 模型列表—卡片式
圖2 訓(xùn)練模型的步驟
三、功能測(cè)評(píng)
低代碼作為一種技術(shù)手段,自然有它獨(dú)特的優(yōu)勢(shì),可低代碼機(jī)器學(xué)習(xí)平臺(tái)的預(yù)測(cè)準(zhǔn)確性相較于常規(guī)的python編程語言會(huì)有所下降嗎?
下文將從分類、預(yù)測(cè)兩大類場(chǎng)景使用Amazon SageMaker Canvas構(gòu)建模型,并將Amazon SageMaker Canvas構(gòu)建的模型準(zhǔn)確度與python編程語言得出的結(jié)果進(jìn)行對(duì)比分析。
1. 分類問題
1)數(shù)據(jù)集
我們一般接觸到的分類問題大多屬于二分類問題,非此即彼。乳腺癌分類問題就是機(jī)器學(xué)習(xí)中一個(gè)經(jīng)典的二分類問題,建立乳腺癌風(fēng)險(xiǎn)評(píng)估模型,預(yù)測(cè)乳腺癌發(fā)生概率,對(duì)乳腺癌的防治具有重要意義。
本文使用的數(shù)據(jù)據(jù)集來自美國威斯康星州公開的乳腺癌診斷數(shù)據(jù)集,醫(yī)療人員采集了患者乳腺腫塊經(jīng)過細(xì)針穿刺后的數(shù)字化圖像,并從這些數(shù)字圖像中提取了32個(gè)特征,用這些特征描述圖像中的細(xì)胞核呈現(xiàn)。
數(shù)據(jù)集共569行,每行數(shù)據(jù)具有32個(gè)特征,第一行是id,第行為diagnosis診斷類型(良性/惡性),第3-32個(gè)特征其實(shí)只包含了十個(gè)屬性,只是每個(gè)屬性都從3個(gè)維度:平均、標(biāo)準(zhǔn)差、最大值去分析,所以總共有30個(gè)特征。
表2 乳腺癌數(shù)據(jù)集說明
2)對(duì)比分析
使用Amazon SageMaker Canvas實(shí)現(xiàn)乳腺癌分類的步驟如下:
① 登錄Amazon SageMaker Canvas。
② 數(shù)據(jù)準(zhǔn)備:導(dǎo)入本地?cái)?shù)據(jù)到Amazon SageMaker Canvas。
③ 構(gòu)建模型,選擇數(shù)據(jù)集中的某一列作為讓模型去預(yù)測(cè)的目標(biāo)列,此時(shí)SageMaker Canvas會(huì)根據(jù)該列的值,自動(dòng)識(shí)別該問題是分類問題還是預(yù)測(cè)問題。在我導(dǎo)入乳腺癌數(shù)據(jù)集,選擇了“diagnosis”列作為目標(biāo)列后,Amazon SageMaker Canvas判斷其為二分類問題。的確,該列只有兩種值:B表示乳腺癌良性,M表示乳腺癌惡性。
除此之外,SageMaker Canvas會(huì)自動(dòng)對(duì)上傳的數(shù)據(jù)集進(jìn)行預(yù)處理,例如,使用數(shù)據(jù)集中毗鄰的值來推斷缺失值,且能提供數(shù)據(jù)集中每列的數(shù)據(jù)是如何分布的,這極大省去了在使用python進(jìn)行分類時(shí)的特征預(yù)處理以及特征選擇的工作。
圖3 使用python進(jìn)行特征預(yù)處理
接著點(diǎn)擊構(gòu)建或預(yù)覽模型,SageMaker Canvas會(huì)從自身封裝的眾多模型中為你推薦最合適的一個(gè),并將特征按照重要程度排名,你可據(jù)此看出哪些特征對(duì)機(jī)器學(xué)習(xí)模型影響最大,去掉不重要的特征,點(diǎn)擊更新模型,待到模型準(zhǔn)確率無明顯變化后便可不再調(diào)整。
圖4 特征重要程度排名
講到這里,大家肯定想印證一下,用python編程語言篩選出的特征和Amazon SageMaker Canvas給出的特征排名,二者之間有沒有偏差,或者說有多少是吻合的?下面就為大家揭秘。
如下圖所示,左側(cè)是Amazon SageMaker Canvas得出的排名,右側(cè)是python得出的特征相關(guān)性熱力圖,據(jù)此熱力圖選取相關(guān)性特征值維度值較大的特征。
表3 SageMaker Canvas Vs. Python
能夠識(shí)別患者是否罹患乳腺癌的分類器訓(xùn)練完了,那么如何評(píng)判這個(gè)分類器的優(yōu)劣呢?
傳統(tǒng)的評(píng)估分類器性能的方法是使用混淆矩陣來描述數(shù)據(jù)集的真實(shí)標(biāo)簽和模型預(yù)測(cè)標(biāo)簽之間的差異。此外,基于混淆矩陣,還可以計(jì)算出各種指標(biāo)來比較分類器的性能,如F1-Score、準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)、AUC值。
如下表所示,針對(duì)以上指標(biāo),對(duì)比二者的結(jié)果。通過比較,使用Amazon SageMaker Canvas得出的模型評(píng)估值,和用Python中l(wèi)inear_SVM算法得到的結(jié)果幾乎吻合,近似一致。
只是AUC值一列,似乎存在一些問題,Amazon SageMaker Canvas得出的為0.991%,python得出的是0.974,數(shù)值上是吻合的,但在度量上差了兩位小數(shù)點(diǎn)兒,這一點(diǎn)還有待進(jìn)一步探討。
表4 Amazon SageMaker Canvas VS. Python
圖5 SageMaker Canvas的混淆矩陣和幾大指標(biāo)
3)小結(jié)
分類算法的應(yīng)用范圍和涉及的場(chǎng)景非常多,涉及各行各業(yè),我們要解決的問題大都可以抽象為分類問題.
就拿信用卡的生命周期來講,在營銷期,利用分類算法對(duì)積累的客戶的數(shù)據(jù)進(jìn)行預(yù)測(cè),找到潛在的推廣客戶,滿足個(gè)性化營銷。
到審核階段,需要對(duì)客戶進(jìn)行資質(zhì)評(píng)估,無通過分類算法預(yù)測(cè)違約的概率,從而達(dá)到信用評(píng)級(jí)的目的。
到了穩(wěn)定期,隨著客戶的賬齡不斷增長,客戶的資質(zhì)不斷發(fā)生變化,需要定時(shí)定點(diǎn)對(duì)客戶進(jìn)行風(fēng)險(xiǎn)的研究,及時(shí)發(fā)現(xiàn)風(fēng)險(xiǎn)客戶并進(jìn)行管理。
最后,到了衰退期,會(huì)涉及到客戶流失的問題,需要用分類算法預(yù)測(cè)客戶流失的可能性有多高。
2. 預(yù)測(cè)問題
1)數(shù)據(jù)集
波士頓房價(jià)預(yù)測(cè)是經(jīng)典的數(shù)據(jù)分析/機(jī)器學(xué)習(xí)入門項(xiàng)目,我們都知道,房價(jià)一般會(huì)與房間面積的大小、房子所在的城市、房子的空間布局等因素有關(guān)。而房價(jià)預(yù)測(cè)的任務(wù)就是給定與房價(jià)相關(guān)因素的數(shù)據(jù),通過這些數(shù)據(jù)預(yù)測(cè)出房子的價(jià)格。
波士頓房價(jià)數(shù)據(jù)集:波士頓房價(jià)數(shù)據(jù)集來自卡內(nèi)基梅隆大學(xué)StatLib庫,涵蓋了麻省波士頓的506個(gè)不同郊區(qū)的房屋數(shù)據(jù),404條訓(xùn)練數(shù)據(jù)集,102條測(cè)試數(shù)據(jù)集 每條數(shù)據(jù)14個(gè)字段,包含13個(gè)屬性和1個(gè)房價(jià)的平均值。下表是對(duì)波士頓房價(jià)數(shù)據(jù)集的特征描述:
表5 波士頓房價(jià)預(yù)測(cè)數(shù)據(jù)集
2)對(duì)比分析
波士頓房價(jià)數(shù)據(jù)集中共計(jì)13個(gè)特征,每個(gè)特征都會(huì)或多或少的提升或者抑制房價(jià)。現(xiàn)將SageMaker Canvas預(yù)測(cè)出的特征重要程度排名與Python機(jī)器學(xué)習(xí)算法得出的進(jìn)行對(duì)比,發(fā)現(xiàn)前7個(gè)特征中,有5個(gè)特征是重疊的,這證明SageMaker Canvas的模型預(yù)測(cè)性是值得信賴的。
比如,抑制房價(jià)最明顯的是特征NOX,它表示一氧化氮的濃度,基于常識(shí)可知,一氧化氮濃度越高,說明住房所在地的環(huán)境污染越嚴(yán)重,房價(jià)也就越便宜。對(duì)房價(jià)提升最明顯的特征是 RM,對(duì)應(yīng)數(shù)據(jù)集可知,RM指的是每處住房的平均房間數(shù)量,這也是很容易理解,房間越多,房屋總面積就越大,面積越大,總房價(jià)就高。
表6 Canvas得出的特征重要性排名 VS. Python得出的
SageMaker Canvas除了能夠?qū)?shù)據(jù)集中影響預(yù)測(cè)結(jié)果的特征進(jìn)行重要性排名,還能清晰地展示出每一個(gè)特征和預(yù)測(cè)結(jié)果之間的關(guān)系(是正相關(guān)的還是負(fù)相關(guān)的),例如,LSTAT這一特征表示“該地區(qū)中有多少房東屬于低收入人群”,如下圖所示,該地區(qū)低收入人群越多,房價(jià)越低。
圖7 各個(gè)屬性對(duì)模型預(yù)測(cè)的影響力排名
鑒于可視化能給人們帶來最直觀的認(rèn)知,SageMaker Canvas中提供了可視化方法,來展示回歸模型預(yù)測(cè)的效果。
如下圖,可以看到針對(duì)波士頓房價(jià)數(shù)據(jù)集,預(yù)測(cè)房價(jià)和實(shí)際房價(jià)之間的對(duì)比圖。針對(duì)預(yù)測(cè)類問題,SageMaker Canvas提供了均方根誤差(RMSE),如下圖所示,線條周圍紫色區(qū)域的寬度代表了RMSE的范圍,房價(jià)預(yù)測(cè)的值通常會(huì)落在這個(gè)范圍之內(nèi)。
3)小結(jié)
本次,在使用SageMaker Canvas預(yù)測(cè)房價(jià)的過程中,我們只需要給定輸入數(shù)據(jù)集,SageMaker Canvas就可以從中推演出指定目標(biāo)變量的可能結(jié)果。其他預(yù)測(cè)問題,也能在SageMaker Canvas上實(shí)現(xiàn)。
四、總結(jié)
高昂的硬件價(jià)格、復(fù)雜軟件配置一直是阻礙初學(xué)者入門 AI 的絆腳石,低代碼機(jī)器學(xué)習(xí)開發(fā)平臺(tái)的問世與推廣可謂是“碼盲人群”的一道曙光。通過低代碼功能,使用支持比 Python 編碼更快、更容易的模型操作的新的機(jī)器學(xué)習(xí)算法,變得讓人期待。可見,在未來,即使是完全不具備機(jī)器學(xué)習(xí)知識(shí)的業(yè)務(wù)人員,也可以運(yùn)用機(jī)器學(xué)習(xí)模型高效解決業(yè)務(wù)上的實(shí)際問題。
本文由 @麥地與詩人 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自u(píng)nsplash,基于CCO協(xié)議