秒變AI算法專家，還完全免費！這個國際開源AI平臺真香（ai開放平臺算法工程師）

智東西（公眾號：zhidxcom）
作者 | ZeR0
編輯 | 漠影

智東西5月10日報道，近期，一個規(guī)?；疉I模型生產平臺在Github悄然上線。

這個平臺叫AI SUITE – YMIR（中文名：挖米匠），能以無代碼開發(fā)方式，實現(xiàn)數(shù)據(jù)管理、數(shù)據(jù)挖掘、模型訓練、模型驗證等功能。

由于各功能均已開源，你既可以用這個平臺高效訓練出AI模型，也可以按需任意修改代碼，并且無論是個人使用或商用，都完全免費！

其核心發(fā)起人陣容亦相當吸睛，有多位知名國際AI大牛，包括：云天勵飛首席科學家王孝宇；美國硅谷NEC實驗室媒體分析部主管、UCSD教授，印裔科學家Manmohan Chandraker；前谷歌、亞馬遜、Snap機器學習研究員，硅谷初創(chuàng)公司Heali聯(lián)合創(chuàng)始人、首席AI官，法裔科學家William Brendel等等。

秒變AI算法專家，還完全免費！這個國際開源AI平臺真香（ai開放平臺算法工程師）

▲云天勵飛首席科學家王孝宇（圖左），印裔科學家Manmohan Chandraker（圖中），法裔科學家William Brendel（圖右）

王孝宇告訴智東西，有多家美國科技巨頭公司的首席AI官擔任這個開源項目的顧問。

此前，YMIR主要發(fā)起人撰寫的論文《YMIR: A Rapid Data-centric Development Platform for Vision Applications》已被國際頂級機器學習會議NIPS 2021收錄。

秒變AI算法專家，還完全免費！這個國際開源AI平臺真香（ai開放平臺算法工程師）

▲YMIR論文

除了大牛云集外，在上手試用YMIR平臺后，智東西的感受是，對于有一定編程基礎的開發(fā)者而言，這個平臺絕對會帶來生產力的飛躍。

曾經TensorFlow、PyTorch等開源框架，掀起了AI開發(fā)普及的盛世，那么如今這些國際AI大牛發(fā)起的開源AI基礎軟件平臺，又能帶來哪些改變？

相比此前已有的AI模型開發(fā)平臺，YMIR有哪些獨特優(yōu)勢？它通過怎樣的核心技術，來滿足在真實業(yè)務場景中大批量生產模型的需求？

帶著問題，智東西聯(lián)系到了YMIR平臺的幾位發(fā)起人和核心研發(fā)成員，挖掘其背后的技術真經。

YMIR項目鏈接：http://www.viesc.com/
Github傳送門：https://github.com/IndustryEssentials/ymir
YMIR論文鏈接：https://arxiv.org/pdf/2111.10046.pdf

一、免費的產品級開源工具：降低企業(yè)AI開發(fā)門檻

為什么國際AI科學家們，要聯(lián)合發(fā)起這樣一個開源AI模型生產平臺？

云天勵飛首席科學家王孝宇是YMIR平臺的核心發(fā)起人之一，據(jù)他回憶，發(fā)起YMIR的初衷，是希望通過開源AI系統(tǒng)能力，讓每一家企業(yè)都能擁抱AI，加速AI產業(yè)化、平民化。

未來AI會滲入各行各業(yè)，AI能力或AI思維將會成為一個從業(yè)者需具備的基本素質，但因資源有限，每個企業(yè)都招聘很多博士去做AI開發(fā)是不現(xiàn)實的。

這也是YMIR核心發(fā)起團隊的共識：加速AI普及，一定需要一個開源平臺，來幫助AI企業(yè)低門檻、高質量地完成AI開發(fā)。

秒變AI算法專家，還完全免費！這個國際開源AI平臺真香（ai開放平臺算法工程師）

▲YMIR主頁

就像40年前，使用電腦是一項專業(yè)技能，而隨著Windows操作系統(tǒng)、Office辦公軟件等工具地發(fā)展，如今基本受過高等教育的人都會使用電腦。

AI亦是如此，要從早期過程不標準化、對人才專業(yè)度要求高的“快糙猛”研發(fā)方式，過渡到大規(guī)模應用于各垂類行業(yè)階段，搭建系統(tǒng)性能力平臺至關重要。

“業(yè)內雖然已有不少開源項目，但還缺少針對算法研發(fā)全流程工作的產品級開源工具?！蓖跣⒂钫f。

AI算法開發(fā)是一整套專業(yè)研發(fā)環(huán)節(jié)的組合，包括數(shù)據(jù)標注、計算框架、神經網絡設計、數(shù)據(jù)挖掘設計等等。這些工作通常需要AI專業(yè)的碩士或博士通過編程進行每個環(huán)節(jié)的設計，并手動將這些環(huán)節(jié)連接起來形成一整套研發(fā)流程。

如果缺乏開源易用的工具，那么高質量的AI研發(fā)就只能是“專家的事”。

YMIR團隊對國內外的模型生產工具做過詳細調研，他們發(fā)現(xiàn)，這些工具的開發(fā)多由科學家或科研人員主導，缺乏對產業(yè)認知，無法真正解決業(yè)界痛點。

“算法的研發(fā)是持續(xù)的過程。”王孝宇說，“根據(jù)我們的經驗，第一次訓練的模型是百分之百不能滿足業(yè)務需求的，你必須在客戶現(xiàn)實的場景中去迭代模型，才能達到業(yè)務所需的目標。”

但當前許多模型生產工具都是“一次性”、“理想化”的，訓練一遍就不再動了，等模型被用到實際場景，很可能出現(xiàn)偏差。

而YMIR項目由一幫有豐富產品經驗的AI算法開發(fā)人員參與，他們將此前的經驗以數(shù)據(jù)、流程等可視化的形式沉淀積累，通過流水線流程設計，讓AI開發(fā)的工作效率飛速轉起來。

“以前這么多人可以干一件事情，現(xiàn)在這么多人可以干十件事情，效率更高?！蓖跣⒂钫f。

無論是小型AI公司，還是有AI開發(fā)需求但缺少AI研發(fā)人才的企業(yè)，都能免費使用這一開源平臺，針對目標場景，訓練出滿足需求的專用AI模型。

據(jù)YMIR核心研發(fā)成員胡文澤博士透露，一些AI芯片公司也在投入人力向YMIR提交代碼，從而批量化生產模型，滿足研發(fā)芯片期間測試特定算法的需求。

這樣一來，高精度AI模型開發(fā)，不再只是AI專家的獨享技能。

▲YMIR團隊分享的一個簡短背景介紹視頻

二、親自上手：“挖掘-標注-訓練”循環(huán)，高精度模型訓練的有效飛輪

智東西試用后，感覺YMIR極易上手，整個過程無需敲入代碼，只用進行鼠標點擊或拖拽，每個步驟都有清晰的指引，而且可視化顯示界面很方便用戶對數(shù)據(jù)和模型的管理和查看。

YMIR采用項目制管理設計，覆蓋了典型AI模型開發(fā)過程中端到端的全流程步驟，通過將訓練流程標準化和可視化，為數(shù)據(jù)處理、模型訓練、模型評估、模型迭代等業(yè)務需求提供一站式服務。

下面我們展示YMIR系統(tǒng)的幾個主要用戶界面。

在使用YMIR前，你需要先準備好數(shù)據(jù)集，并安裝好英偉達驅動環(huán)境，然后就可以進行數(shù)據(jù)集導入了。

秒變AI算法專家，還完全免費！這個國際開源AI平臺真香（ai開放平臺算法工程師）

▲界面1：數(shù)據(jù)集導入

需注意的是，當你導入帶標注文件的數(shù)據(jù)集時，要確保標注類型屬于系統(tǒng)已有的標簽列表，否則需先進入標簽管理界面，添加自定義標簽。

完成該任務后，頁面會指引進入數(shù)據(jù)標注步驟。

YMIR支持使用開放的LabelFree標注工具，提供有一鍵標注服務，對數(shù)據(jù)集大小、用戶數(shù)量、項目數(shù)量等均無限制。你也可以外接其他標注工具。

秒變AI算法專家，還完全免費！這個國際開源AI平臺真香（ai開放平臺算法工程師）

▲界面2：LabelFree數(shù)據(jù)標注

胡文澤告訴智東西，經過其內部測試，YMIR可支持數(shù)百萬級數(shù)據(jù)規(guī)模的目標檢測任務。

深度學習訓練需要對大量的數(shù)據(jù)進行標注，如果全部由人工進行標注，人力和時間成本都很高。

而YMIR平臺采用主動學習的方法，通過挖掘、標注和重訓練的循環(huán)，比將全部數(shù)據(jù)標注后再訓練的方法更加高效，減少了對低質量數(shù)據(jù)的標注成本。

下圖所示是數(shù)據(jù)挖掘界面。

秒變AI算法專家，還完全免費！這個國際開源AI平臺真香（ai開放平臺算法工程師）

▲界面3：數(shù)據(jù)挖掘

在AI模型開發(fā)周期中，模型迭代占據(jù)90%以上的時間，而數(shù)據(jù)迭代是模型迭代的關鍵部分。

YMIR提供的數(shù)據(jù)集版本管理功能，能自動生成數(shù)據(jù)集版本，并記錄每次對數(shù)據(jù)集的操作，完整追蹤數(shù)據(jù)集的迭代，對有大量數(shù)據(jù)挖掘的研發(fā)非常友好。

在模型訓練界面，你可以清晰地看到訓練進度以及一些關鍵參數(shù)。

秒變AI算法專家，還完全免費！這個國際開源AI平臺真香（ai開放平臺算法工程師）

▲界面4：模型訓練

每次模型訓練后，YMIR還可以對模型結果進行驗證，即通過可視化方式查看模型在真實圖片中的表現(xiàn)。如果達到預期，即可下載模型；如果需繼續(xù)使用該模型挖掘，則可進入下一輪的“挖掘-標注-訓練”循環(huán)，直至達到預期效果。

秒變AI算法專家，還完全免費！這個國際開源AI平臺真香（ai開放平臺算法工程師）

▲界面5：模型驗證

YMIR以模型與數(shù)據(jù)集的迭代為核心目標來設計，一套流程走下來，不僅能針對業(yè)務場景持續(xù)提高模型性能，還能提高開發(fā)效率，降低研發(fā)門檻。

YMIR核心開發(fā)者黃軒介紹，過去用傳統(tǒng)研發(fā)方式，大概至少需1個月迭代1次數(shù)據(jù)和模型，現(xiàn)在用YMIR平臺1周就能迭代2次。

以前經驗豐富的AI算法工程師才能完成的工作，現(xiàn)在，只要具備計算機操作知識，你就能用YMIR平臺實現(xiàn)類似的高精度模型結果。

為什么YMIR在降低操作門檻的同時，能確保沒有在產出模型質量上做妥協(xié)？

我們將在下一章節(jié)做進一步解讀。

三、數(shù)據(jù)驅動，滿足實際業(yè)務場景訓練需求

針對不同應用場景，YMIR如何做到發(fā)揮穩(wěn)定地訓練出高精度模型？

這主要得益于YMIR采用的數(shù)據(jù)處理方式。

YMIR是一個數(shù)據(jù)驅動的AI訓練平臺，與模型驅動的訓練方式相比，在面對具體任務時，往往能更為快速地在目標場景中，迭代出高精度的AI模型。

模型驅動的顯著特征是當模型足夠準確時，其結果在絕大多數(shù)情況下可達到預期甚至取得最優(yōu)。但在實際應用中，即使對一個具體任務進行精確實驗室建模，其也極難在應用場景中達到預期。

而數(shù)據(jù)驅動的方式，是讓模型在數(shù)據(jù)中不斷校驗調優(yōu)，最終得出符合預期需求模型的過程。

這解決了業(yè)界的一個主要痛點：模型需要持續(xù)迭代。

早在2015年，機器學習泰斗、斯坦福大學教授吳恩達（Andrew Ng）就在演講中提到“公司的壁壘不是算法，而是數(shù)據(jù)”。

他認為，要打造一款AI產品，需要讓算法利用足夠的數(shù)據(jù)，使得產品運行起來，然后通過產品來獲取用戶，用戶再提供更多的數(shù)據(jù)……周而復始。

吳恩達預言，在未來的AI研發(fā)中，數(shù)據(jù)迭代帶來的性能提升，將大大超過模型架構本身的演進帶來的性能提升。

而YMIR的核心理念，便是依靠產品級模型生產流水線平臺，以主動學習、數(shù)據(jù)驅動方式，讓更多不具備專業(yè)知識和經驗的人參與到算法開發(fā)中，從而加速AI技術和應用的繁榮。

秒變AI算法專家，還完全免費！這個國際開源AI平臺真香（ai開放平臺算法工程師）

▲一個典型的YMIR工作流程

YMIR平臺先用少量已標注數(shù)據(jù)訓練出一個初始模型，再用該模型從海量數(shù)據(jù)中挖掘出對優(yōu)化模型最有利的數(shù)據(jù)，然后僅針對這些高質量數(shù)據(jù)進行標注，實現(xiàn)對原本的訓練數(shù)據(jù)集進行高效擴充。

接著，該平臺使用更新后的數(shù)據(jù)集再次訓練模型，如此循環(huán)往復，模型的質量就會不斷提升。

由于YMIR各功能都是開源的，你可以將自己開發(fā)的工具對接到YMIR平臺提供的開放API，也可以按照自己的想法修改代碼，包括數(shù)據(jù)存儲、模型訓練、標注工具、可視化界面等等。

據(jù)了解，YMIR也參與了云天勵飛獲得2021年吳文俊人工智能科技進步一等獎的項目，是實現(xiàn)模型快速迭代平臺的關鍵組成。

YMIR核心開發(fā)成員向智東西透露，目前已有超過20家機構申請試用YMIR平臺。

結語：以開源強化AI生產力

邊際成本是未來十年AI行業(yè)的競爭核心要素。目前，AI模型通用性低導致的項目碎片化、交付效率低是行業(yè)的普遍痛點。未來高效率、低成本邊際成產AI算法將成為行業(yè)的競爭焦點。

而擁有流程化、一站式、開放設計、無代碼、開源免費五大特點的YMIR平臺，對推動AI模型生產更加高效低質的目標，起到積極的推進作用。

總體來說，YMIR平臺的使用門檻很低，采用RPA流程化思維設計，一站式覆蓋AI模型生產的整個生命周期，支持無代碼開發(fā)，不需要使用者具備專業(yè)AI技能，并且個人、企業(yè)均可免費使用不受限。

有編程基礎的開發(fā)人員，不妨申請試用，也可以參與到這個國際開源社區(qū)中交流，或許能被啟發(fā)或貢獻一些新的想法，助力優(yōu)化AI模型生產流程。

YMIR試用申請地址：https://github.com/IndustryEssentials/ymir#12-apply-for-trial

秒變AI算法專家，還完全免費！這個國際開源AI平臺真香（ai開放平臺算法工程師）

一、免費的產品級開源工具：降低企業(yè)AI開發(fā)門檻

二、親自上手：“挖掘-標注-訓練”循環(huán)，高精度模型訓練的有效飛輪

三、數(shù)據(jù)驅動，滿足實際業(yè)務場景訓練需求

結語：以開源強化AI生產力

相關新聞

二、親自上手：“挖掘-標注-訓練”循環(huán)，高精度模型訓練的有效飛輪

三、數(shù)據(jù)驅動，滿足實際業(yè)務場景訓練需求