日本电影一区二区_日本va欧美va精品发布_日本黄h兄妹h动漫一区二区三区_日本欧美黄色

GitHub黑市曝光,高檔刷星6元一顆,最奇葩開源項目97%都是刷的(github 刷星)

夢晨 克雷西 發(fā)自 凹非寺

量子位 | 公眾號 QbitAI

在黑市買Github星星多少錢?

最貴的高達6元一顆。

有創(chuàng)業(yè)者Yassin Eldeeeb自掏腰包測試了一把。他足足花20歐元(約156人民幣),只買到25顆“高級星星”。

GitHub黑市曝光,高檔刷星6元一顆,最奇葩開源項目97%都是刷的(github 刷星)

沒錯,在黑市上刷GitHub星星也是分高低貴賤的。

高級的都是注冊一年以上的賬號來刷,昵稱頭像工作地點等個人資料非常自然絕不重樣。

甚至至少還有一個對其他開源項目的貢獻記錄等,不但算法檢測不出來,肉眼看也沒毛病。

GitHub黑市曝光,高檔刷星6元一顆,最奇葩開源項目97%都是刷的(github 刷星)

便宜的最低可做到0.4-0.88元一顆星星,這種就是最簡單的新注冊空號去刷了,默認(rèn)頭像,隨機生成昵稱的那種。

買了一個月以后發(fā)現(xiàn)都已經(jīng)被平臺封號處理,買到的星星也跟著消失了。

不過這種廉價服務(wù)最瘋狂的地方在:失效了可以聯(lián)系賣方,免費包重刷。

具體有多少人購買這種服務(wù)無從得知,不過Eldeeeb注意到他的賬單編號是#57189,說明成交量絕對不在少數(shù)。

GitHub黑市曝光,高檔刷星6元一顆,最奇葩開源項目97%都是刷的(github 刷星)

像這樣的“黑市”刷星服務(wù),最近被頻頻曝光,也在開發(fā)者社區(qū)成了話題熱榜的常客。

GitHub黑市曝光,高檔刷星6元一顆,最奇葩開源項目97%都是刷的(github 刷星)

大家的討論中,有一個最奇葩的開源項目,被檢測出有97%的星都是假的。

假星檢測器

檢測出這個奇葩項目的是另一位創(chuàng)業(yè)者Fraser Marlow,他偶然發(fā)現(xiàn)了GitHub黑市的存在。

同時他也注意到投資人越來越重視GitHub標(biāo)星數(shù),當(dāng)作評估開源產(chǎn)品的指標(biāo)了。

不過作為數(shù)據(jù)管道服務(wù)公司Dagster的增長主管,他不但沒有給自己產(chǎn)品刷星——

反而與識別垃圾郵件的專家合作,收集數(shù)據(jù)并開發(fā)了一個假星檢測器。

GitHub黑市曝光,高檔刷星6元一顆,最奇葩開源項目97%都是刷的(github 刷星)

具體分為兩種算法,簡單算法只能檢測出那些“一眼假”的。

比如大批賬號都給相同的兩個項目標(biāo)星,沒有貢獻記錄,除了頭像和用戶名不同其他一毛一樣那種。

GitHub黑市曝光,高檔刷星6元一顆,最奇葩開源項目97%都是刷的(github 刷星)

但對于開頭提到的那種6元一星的高級賬號,簡單算法就無能為力了。

為此,Dagster還設(shè)計了一種更復(fù)雜的監(jiān)督聚類算法。

原理也很簡單,一批假賬號會具有相似的特征,在可視化中可以聚集在一起。

而正常用戶的特征應(yīng)該相當(dāng)獨特,在統(tǒng)計上非常分散,不應(yīng)該屬于任何大的群體。

舉個栗子來說,正常的GitHub賬號不是每天都有活動記錄,如果一群賬號活躍的日期都重合,就表明它們很有可能是受同一個腳本控制的。

為驗證算法可靠性,他們創(chuàng)建了一個靶子倉庫,并真的去購買了刷星服務(wù)。

聚類算法在測試中表現(xiàn)非常好,接近100%的匹配率。

在更復(fù)雜的真實數(shù)據(jù)上,也達到了98%的精確度和85%的召回率。

GitHub黑市曝光,高檔刷星6元一顆,最奇葩開源項目97%都是刷的(github 刷星)

接下來,團隊在Github Archive公開數(shù)據(jù)集上綜合使用兩種算法測試。

一測不得了,造假最嚴(yán)重的okcash總標(biāo)星759,簡單算法只發(fā)現(xiàn)一個疑似假星,結(jié)合聚類算法直接蹦到97%,

由于計算成本較高,測試中只分析了2022年1月1日及之后獲得的星星。

也就是說,還有很多2022年之前刷星的項目沒有被揪出來。

GitHub黑市曝光,高檔刷星6元一顆,最奇葩開源項目97%都是刷的(github 刷星)

與之相比,他們檢測了自己的產(chǎn)品Dagster和幾個同行,刷星率都比較低,看來數(shù)據(jù)管道這個行業(yè)還是比較健康的。

GitHub黑市曝光,高檔刷星6元一顆,最奇葩開源項目97%都是刷的(github 刷星)

在這之后,他們與GitHub團隊分享了這些發(fā)現(xiàn),并把檢測器也開源了。

曝光48小時之內(nèi),GitHub和刷星供應(yīng)商都行動起來,他們測試用的“靶子倉庫”中的假星都消失了。

據(jù)GitHub方面回應(yīng),其實多年以來一直都在積極打擊刷星行為,但仍舊頻發(fā),根本管不住。

之前就有學(xué)術(shù)研究,通過數(shù)據(jù)分析找出63872個可疑賬號,但其中只有不到5%被GitHub平臺自己檢測出并封號。

GitHub黑市曝光,高檔刷星6元一顆,最奇葩開源項目97%都是刷的(github 刷星)

研究推測,刷星行業(yè)早在2018-2019年就獲得了341萬-437萬美元的利潤。

那么為什么會有人花大價錢買GitHub標(biāo)星,真的能帶來實際收益么?

投資人:我們就愛看星標(biāo)

開源項目團隊選擇“刷星”的一個重要目的,就是吸引投資者的目光。

一家風(fēng)險投資公司的合伙人Pratima Aiyagari 表示,做開源項目極大可能很久都賺不到錢。

既然收入情況沒法拿來參考,那就要多看一看產(chǎn)品本身的狀況了。

考察開源項目最準(zhǔn)確的方式是查看代碼,但這種方法復(fù)雜繁瑣且專業(yè)性強,并沒有成為投資者的首選方式。

于是投資者找出了替代方法——看星標(biāo)——實際上,他們天生就會尋找快速增長的新賬號。

GitHub黑市曝光,高檔刷星6元一顆,最奇葩開源項目97%都是刷的(github 刷星)

除了絕對數(shù)量,風(fēng)投公司Runa還專門設(shè)計了一種名為ROSS指數(shù)的指標(biāo),依據(jù)星標(biāo)數(shù)年增長率對團隊進行排名。

Runa的一名合伙人Konstantin Vinogradov說,ROSS指標(biāo)已經(jīng)成為了開源項目遵循的重要標(biāo)準(zhǔn),排名靠前的開源項目中有三分之一都獲得了融資。

不過伴隨著“刷星”現(xiàn)象的出現(xiàn),投資者對星標(biāo)數(shù)的看法也開始弱化。

投資人Kevin Zhang說,星標(biāo)數(shù)可能可以成為一塊“敲門磚”,但不意味著投資者會因為星標(biāo)數(shù)和項目團隊“第二次見面”。

這也印證了學(xué)術(shù)界的看法——加州大學(xué)圣地亞哥分校助理教授Stuart Geiger表示,隨著時間的推移,指標(biāo)(星標(biāo)數(shù))可能會自行失效。

GitHub黑市曝光,高檔刷星6元一顆,最奇葩開源項目97%都是刷的(github 刷星)

這就涉及到了兩條社會科學(xué)定律——坎貝爾定律和古德哈特定律。

坎貝爾定律說,決策當(dāng)中使用的一項指標(biāo)越受重視,就越容易被操縱。

好比網(wǎng)絡(luò)購物,實物我們看不見摸不著,自然就會參考其他買家的評價,于是“刷單”現(xiàn)象也就應(yīng)運而生了。

古德哈特定律則認(rèn)為,如果一項指標(biāo)被人們刻意追逐,那就不(或不再)是一個好的指標(biāo)。

但在沒有更好的替代指標(biāo)的情況下,就必須確保數(shù)據(jù)的真實度了,就好像在考試中要不遺余力地打擊作弊一樣。

GitHub黑市曝光,高檔刷星6元一顆,最奇葩開源項目97%都是刷的(github 刷星)

不過,除了想吸引投資者的團隊之外,還有許多個人開發(fā)者也會“刷星”。

目的和創(chuàng)業(yè)團隊有異曲同工之處,只不過吸引的不是投資者而是HR,希望高星項目能在求職中為他們帶來優(yōu)勢。

事實上,也的確有企業(yè)將GitHub信息作為評價求職者的指標(biāo),甚至有人憑借套殼項目就斬獲了Google的offer。

GitHub黑市曝光,高檔刷星6元一顆,最奇葩開源項目97%都是刷的(github 刷星)GitHub黑市曝光,高檔刷星6元一顆,最奇葩開源項目97%都是刷的(github 刷星)

除了選人,在技術(shù)選型時也是同樣的道理——很多人(尤其非專業(yè)人士)會傾向于使用高星項目。

GitHub黑市曝光,高檔刷星6元一顆,最奇葩開源項目97%都是刷的(github 刷星)

除了GitHub,還有綜合型產(chǎn)品發(fā)布平臺Product hunt,數(shù)據(jù)類產(chǎn)品平臺kaggle,以及IT問答平臺StackOverFlow等媒介也越來越多的受到投資人的關(guān)注。

不過如果不能建立有效的“防刷單”策略,可能最終也難逃換湯不換藥的命運。

對于這種現(xiàn)象,有人總結(jié)是“Fake it till they make it.”——

如同“先上車后補票”一樣,先假裝自己已經(jīng)成功,直到真的成功為止。

One More Thing

AI,特別是大模型的發(fā)展,讓檢測虛假賬戶越來越難了。

以前的造假可能只是刷刷星標(biāo)和點贊,判斷用戶真?zhèn)蔚姆绞街饕强促~戶本身的特征。

但自從有了ChatGPT以后,還可以刷以假亂真而且不重樣的評論。

如果一個賬戶命中了虛假賬號的特征,但發(fā)布的回復(fù)卻和真人毫無二致,該如何判斷它的真?zhèn)危?/p>

參考鏈接:
[1]https://www.wired.com/story/github-stars-black-market-coders-cheat/

[2]https://news.ycombinator.com/item?id=37990338
[3]https://dagster.io/blog/fake-stars
[4]https://dl.acm.org/doi/10.1145/3427228.3427258

— 完 —

量子位 QbitAI · 頭條號簽約

關(guān)注我們,第一時間獲知前沿科技動態(tài)

相關(guān)新聞

聯(lián)系我們
聯(lián)系我們
公眾號
公眾號
在線咨詢
分享本頁
返回頂部
枞阳县| 房产| 宁远县| 吉林省| 三原县| 正蓝旗| 黎城县| 霍山县| 重庆市| 铜鼓县| 澄城县| 施甸县| 河北区| 邳州市| 开封县| 淄博市| 济源市| 中山市| 徐闻县| 象州县| 丰顺县| 东城区| 斗六市| 辽宁省| 共和县| 绥江县| 绩溪县| 盖州市| 博乐市| 新龙县| 兴山县| 内丘县| 蒲江县| 锡林浩特市| 敦化市| 西峡县| 县级市| 莱阳市| 靖远县| 奉化市| 贵定县|