秒變AI算法專家,還完全免費!這個國際開源AI平臺真香(ai開放平臺算法工程師)
智東西(公眾號:zhidxcom)
作者 | ZeR0
編輯 | 漠影
智東西5月10日報道,近期,一個規(guī)?;疉I模型生產平臺在Github悄然上線。
這個平臺叫AI SUITE – YMIR(中文名:挖米匠),能以無代碼開發(fā)方式,實現(xiàn)數(shù)據(jù)管理、數(shù)據(jù)挖掘、模型訓練、模型驗證等功能。
由于各功能均已開源,你既可以用這個平臺高效訓練出AI模型,也可以按需任意修改代碼,并且無論是個人使用或商用,都完全免費!
其核心發(fā)起人陣容亦相當吸睛,有多位知名國際AI大牛,包括:云天勵飛首席科學家王孝宇;美國硅谷NEC實驗室媒體分析部主管、UCSD教授,印裔科學家Manmohan Chandraker;前谷歌、亞馬遜、Snap機器學習研究員,硅谷初創(chuàng)公司Heali聯(lián)合創(chuàng)始人、首席AI官,法裔科學家William Brendel等等。
▲云天勵飛首席科學家王孝宇(圖左),印裔科學家Manmohan Chandraker(圖中),法裔科學家William Brendel(圖右)
王孝宇告訴智東西,有多家美國科技巨頭公司的首席AI官擔任這個開源項目的顧問。
此前,YMIR主要發(fā)起人撰寫的論文《YMIR: A Rapid Data-centric Development Platform for Vision Applications》已被國際頂級機器學習會議NIPS 2021收錄。
▲YMIR論文
除了大牛云集外,在上手試用YMIR平臺后,智東西的感受是,對于有一定編程基礎的開發(fā)者而言,這個平臺絕對會帶來生產力的飛躍。
曾經TensorFlow、PyTorch等開源框架,掀起了AI開發(fā)普及的盛世,那么如今這些國際AI大牛發(fā)起的開源AI基礎軟件平臺,又能帶來哪些改變?
相比此前已有的AI模型開發(fā)平臺,YMIR有哪些獨特優(yōu)勢?它通過怎樣的核心技術,來滿足在真實業(yè)務場景中大批量生產模型的需求?
帶著問題,智東西聯(lián)系到了YMIR平臺的幾位發(fā)起人和核心研發(fā)成員,挖掘其背后的技術真經。
YMIR項目鏈接:http://www.viesc.com/
Github傳送門:https://github.com/IndustryEssentials/ymir
YMIR論文鏈接:https://arxiv.org/pdf/2111.10046.pdf
一、免費的產品級開源工具:降低企業(yè)AI開發(fā)門檻
為什么國際AI科學家們,要聯(lián)合發(fā)起這樣一個開源AI模型生產平臺?
云天勵飛首席科學家王孝宇是YMIR平臺的核心發(fā)起人之一,據(jù)他回憶,發(fā)起YMIR的初衷,是希望通過開源AI系統(tǒng)能力,讓每一家企業(yè)都能擁抱AI,加速AI產業(yè)化、平民化。
未來AI會滲入各行各業(yè),AI能力或AI思維將會成為一個從業(yè)者需具備的基本素質,但因資源有限,每個企業(yè)都招聘很多博士去做AI開發(fā)是不現(xiàn)實的。
這也是YMIR核心發(fā)起團隊的共識:加速AI普及,一定需要一個開源平臺,來幫助AI企業(yè)低門檻、高質量地完成AI開發(fā)。
▲YMIR主頁
就像40年前,使用電腦是一項專業(yè)技能,而隨著Windows操作系統(tǒng)、Office辦公軟件等工具地發(fā)展,如今基本受過高等教育的人都會使用電腦。
AI亦是如此,要從早期過程不標準化、對人才專業(yè)度要求高的“快糙猛”研發(fā)方式,過渡到大規(guī)模應用于各垂類行業(yè)階段,搭建系統(tǒng)性能力平臺至關重要。
“業(yè)內 雖然已有不少開源項目,但還缺少針對算法研發(fā)全流程工作的產品級開源工具?!蓖跣⒂钫f。
AI算法開發(fā)是一整套專業(yè)研發(fā)環(huán)節(jié)的組合,包括數(shù)據(jù)標注、計算框架、神經網絡設計、數(shù)據(jù)挖掘設計等等。這些工作通常需要AI專業(yè)的碩士或博士通過編程進行每個環(huán)節(jié)的設計,并手動將這些環(huán)節(jié)連接起來形成一整套研發(fā)流程。
如果缺乏開源易用的工具,那么高質量的AI研發(fā)就只能是“專家的事”。
YMIR團隊對國內外的模型生產工具做過詳細調研,他們發(fā)現(xiàn),這些工具的開發(fā)多由科學家或科研人員主導,缺乏對產業(yè)認知,無法真正解決業(yè)界痛點。
“算法的研發(fā)是持續(xù)的過程。”王孝宇說,“根據(jù)我們的經驗,第一次訓練的模型是百分之百不能滿足業(yè)務需求的,你必須在客戶現(xiàn)實的場景中去迭代模型,才能達到業(yè)務所需的目標。”
但當前許多模型生產工具都是“一次性”、“理想化”的,訓練一遍就不再動了,等模型被用到實際場景,很可能出現(xiàn)偏差。
而YMIR項目由一幫有豐富產品經驗的AI算法開發(fā)人員參與,他們將此前的經驗以數(shù)據(jù)、流程等可視化的形式沉淀積累,通過流水線流程設計,讓AI開發(fā)的工作效率飛速轉起來。
“以前這么多人可以干一件事情,現(xiàn)在這么多人可以干十件事情,效率更高?!蓖跣⒂钫f。
無論是小型AI公司,還是有AI開發(fā)需求但缺少AI研發(fā)人才的企業(yè),都能免費使用這一開源平臺,針對目標場景,訓練出滿足需求的專用AI模型。
據(jù)YMIR核心研發(fā)成員胡文澤博士透露,一些AI芯片公司也在投入人力向YMIR提交代碼,從而批量化生產模型,滿足研發(fā)芯片期間測試特定算法的需求。
這樣一來,高精度AI模型開發(fā),不再只是AI專家的獨享技能。
▲YMIR團隊分享的一個簡短背景介紹視頻
二、親自上手:“挖掘-標注-訓練”循環(huán),高精度模型訓練的有效飛輪
智東西試用后,感覺YMIR極易上手,整個過程無需敲入代碼,只用進行鼠標點擊或拖拽,每個步驟都有清晰的指引,而且可視化顯示界面很方便用戶對數(shù)據(jù)和模型的管理和查看。
YMIR采用項目制管理設計,覆蓋了典型AI模型開發(fā)過程中端到端的全流程步驟,通過將訓練流程標準化和可視化,為數(shù)據(jù)處理、模型訓練、模型評估、模型迭代等業(yè)務需求提供一站式服務。
下面我們展示YMIR系統(tǒng)的幾個主要用戶界面。
在使用YMIR前,你需要先準備好數(shù)據(jù)集,并安裝好英偉達驅動環(huán)境,然后就可以進行數(shù)據(jù)集導入了。
▲界面1:數(shù)據(jù)集導入
需注意的是,當你導入帶標注文件的數(shù)據(jù)集時,要確保標注類型屬于系統(tǒng)已有的標簽列表,否則需先進入標簽管理界面,添加自定義標簽。
完成該任務后,頁面會指引進入數(shù)據(jù)標注步驟。
YMIR支持使用開放的LabelFree標注工具,提供有一鍵標注服務,對數(shù)據(jù)集大小、用戶數(shù)量、項目數(shù)量等均無限制。你也可以外接其他標注工具。
▲界面2:LabelFree數(shù)據(jù)標注
胡文澤告訴智東西,經過其內部測試,YMIR可支持數(shù)百萬級數(shù)據(jù)規(guī)模的目標檢測任務。
深度學習訓練需要對大量的數(shù)據(jù)進行標注,如果全部由人工進行標注,人力和時間成本都很高。
而YMIR平臺采用主動學習的方法,通過挖掘、標注和重訓練的循環(huán),比將全部數(shù)據(jù)標注后再訓練的方法更加高效,減少了對低質量數(shù)據(jù)的標注成本。
下圖所示是數(shù)據(jù)挖掘界面。
▲界面3:數(shù)據(jù)挖掘
在AI模型開發(fā)周期中,模型迭代占據(jù)90%以上的時間,而數(shù)據(jù)迭代是模型迭代的關鍵部分。
YMIR提供的數(shù)據(jù)集版本管理功能,能自動生成數(shù)據(jù)集版本,并記錄每次對數(shù)據(jù)集的操作,完整追蹤數(shù)據(jù)集的迭代,對有大量數(shù)據(jù)挖掘的研發(fā)非常友好。
在模型訓練界面,你可以清晰地看到訓練進度以及一些關鍵參數(shù)。
▲界面4:模型訓練
每次模型訓練后,YMIR還可以對模型結果進行驗證,即通過可視化方式查看模型在真實圖片中的表現(xiàn)。如果達到預期,即可下載模型;如果需繼續(xù)使用該模型挖掘,則可進入下一輪的“挖掘-標注-訓練”循環(huán),直至達到預期效果。
▲界面5:模型驗證
YMIR以模型與數(shù)據(jù)集的迭代為核心目標來設計,一套流程走下來,不僅能針對業(yè)務場景持續(xù)提高模型性能,還能提高開發(fā)效率,降低研發(fā)門檻。
YMIR核心開發(fā)者黃軒介紹,過去用傳統(tǒng)研發(fā)方式,大概至少需1個月迭代1次數(shù)據(jù)和模型,現(xiàn)在用YMIR平臺1周就能迭代2次。
以前經驗豐富的AI算法工程師才能完成的工作,現(xiàn)在,只要具備計算機操作知識,你就能用YMIR平臺實現(xiàn)類似的高精度模型結果。
為什么YMIR在降低操作門檻的同時,能確保沒有在產出模型質量上做妥協(xié)?
我們將在下一章節(jié)做進一步解讀。
三、數(shù)據(jù)驅動,滿足實際業(yè)務場景訓練需求
針對不同應用場景,YMIR如何做到發(fā)揮穩(wěn)定地訓練出高精度模型?
這主要得益于YMIR采用的數(shù)據(jù)處理方式。
YMIR是一個數(shù)據(jù)驅動的AI訓練平臺,與模型驅動的訓練方式相比,在面對具體任務時,往往能更為快速地在目標場景中,迭代出高精度的AI模型。
模型驅動的顯著特征是當模型足夠準確時,其結果在絕大多數(shù)情況下可達到預期甚至取得最優(yōu)。但在實際應用中,即使對一個具體任務進行精確實驗室建模,其也極難在應用場景中達到預期。
而數(shù)據(jù)驅動的方式,是讓模型在數(shù)據(jù)中不斷校驗調優(yōu),最終得出符合預期需求模型的過程。
這解決了業(yè)界的一個主要痛點:模型需要持續(xù)迭代。
早在2015年,機器學習泰斗、斯坦福大學教授吳恩達(Andrew Ng)就在演講中提到“公司的壁壘不是算法,而是數(shù)據(jù)”。
他認為,要打造一款AI產品,需要讓算法利用足夠的數(shù)據(jù),使得產品運行起來,然后通過產品來獲取用戶,用戶再提供更多的數(shù)據(jù)……周而復始。
吳恩達預言,在未來的AI研發(fā)中,數(shù)據(jù)迭代帶來的性能提升,將大大超過模型架構本身的演進帶來的性能提升。
而YMIR的核心理念,便是依靠產品級模型生產流水線平臺,以主動學習、數(shù)據(jù)驅動方式,讓更多不具備專業(yè)知識和經驗的人參與到算法開發(fā)中,從而加速AI技術和應用的繁榮。
▲一個典型的YMIR工作流程
YMIR平臺先用少量已標注數(shù)據(jù)訓練出一個初始模型,再用該模型從海量數(shù)據(jù)中挖掘出對優(yōu)化模型最有利的數(shù)據(jù),然后僅針對這些高質量數(shù)據(jù)進行標注,實現(xiàn)對原本的訓練數(shù)據(jù)集進行高效擴充。
接著,該平臺使用更新后的數(shù)據(jù)集再次訓練模型,如此循環(huán)往復,模型的質量就會不斷提升。
由于YMIR各功能都是開源的,你可以將自己開發(fā)的工具對接到YMIR平臺提供的開放API,也可以按照自己的想法修改代碼,包括數(shù)據(jù)存儲、模型訓練、標注工具、可視化界面等等。
據(jù)了解,YMIR也參與了云天勵飛獲得2021年吳文俊人工智能科技進步一等獎的項目,是實現(xiàn)模型快速迭代平臺的關鍵組成。
YMIR核心開發(fā)成員向智東西透露,目前已有超過20家機構申請試用YMIR平臺。
結語:以開源強化AI生產力
邊際成本是未來十年AI行業(yè)的競爭核心要素。目前,AI模型通用性低導致的項目碎片化、交付效率低是行業(yè)的普遍痛點。未來高效率、低成本邊際成產AI算法將成為行業(yè)的競爭焦點。
而擁有流程化、一站式、開放設計、無代碼、開源免費五大特點的YMIR平臺,對推動AI模型生產更加高效低質的目標,起到積極的推進作用。
總體來說,YMIR平臺的使用門檻很低,采用RPA流程化思維設計,一站式覆蓋AI模型生產的整個生命周期,支持無代碼開發(fā),不需要使用者具備專業(yè)AI技能,并且個人、企業(yè)均可免費使用不受限。
有編程基礎的開發(fā)人員,不妨申請試用,也可以參與到這個國際開源社區(qū)中交流,或許能被啟發(fā)或貢獻一些新的想法,助力優(yōu)化AI模型生產流程。
YMIR試用申請地址:https://github.com/IndustryEssentials/ymir#12-apply-for-trial