脫單攻略:數(shù)據(jù)教你精準(zhǔn)把到交大女神
摘要: 開(kāi)學(xué)了,交個(gè)女朋友再自然不過(guò)。不過(guò),對(duì)于和長(zhǎng)者同為校友的上海交大學(xué)子而言,除了思考隔壁“華師大的姑娘真的那么可愛(ài)嗎”的誘惑外,還要飽受“你女朋友才是交大的呢”、”有個(gè)交大女朋友是怎樣一種體驗(yàn)“的質(zhì)疑,甚至還有好事者編了首歌叫《交大無(wú)美女》。于是,作為交大的數(shù)據(jù)俠,張宏倫決定為本校的女生洗白……
文/DT財(cái)經(jīng) 張宏倫
交大女神,生活好;少吃晚飯,愛(ài)洗澡
“為什么要找交大女生做女友?”這個(gè)問(wèn)題,其實(shí)知乎上已經(jīng)有不少神回復(fù)了。
我們利用現(xiàn)有上海交大的校園卡數(shù)據(jù),基于商戶(hù)信息、用戶(hù)信息、交易記錄、氣象記錄和校園網(wǎng)記錄五個(gè)數(shù)據(jù)集,來(lái)分析一下交大女生有何特質(zhì)。
由于校園卡消費(fèi)人群具有許多特性,不同人群每周去食堂、超市、洗浴中心的次數(shù),以及在不同場(chǎng)所的花銷(xiāo)也不同,但總體來(lái)說(shuō)人群會(huì)根據(jù)消費(fèi)習(xí)慣的不同形成不同的類(lèi)別。通過(guò)對(duì)校園卡消費(fèi)人群進(jìn)行聚類(lèi)分析,得出的結(jié)論是:“交大女神,生活好;少吃晚飯,愛(ài)洗澡?!?/strong>
(DT君OS:看到這里,DT君忍不住翻了一個(gè)白眼。但本著尊重作者的專(zhuān)業(yè)態(tài)度,DT君還是決定好好看下去……)
第1步:交大女生常在哪里出沒(méi)?
知己知彼,才能百戰(zhàn)不殆。
在男女比例為1:0.618的上海交大(注:本數(shù)據(jù)來(lái)自上海交大微信公號(hào)),要想捕獲一枚交大女神也不是那么容易。
首先,我們得先明確一下,她們都在哪兒出沒(méi)。
根據(jù)校園卡數(shù)據(jù),我們將全校消費(fèi)的商戶(hù)信息分為以下幾類(lèi):
可以看出校園卡消費(fèi)用戶(hù)大部分的消費(fèi)記錄都集中在食堂(72.31%)上;此外洗浴及熱水(19.23%)和超市(6.86%)消費(fèi)也占據(jù)了一部分,其他的消費(fèi)記錄(其他服務(wù)、運(yùn)動(dòng)、圖書(shū)館)只占據(jù)了極小部分(1.60%)。
食堂的就餐行為占整個(gè)用戶(hù)的刷卡交易行為的72.31%,可見(jiàn)食堂就餐是一卡通持卡用戶(hù)交易最頻繁、交易量最大的消費(fèi)行為。本著最大的可能性,從食堂里找交大女生最為容易了。
因此,我們將重點(diǎn)集中在餐飲消費(fèi)數(shù)據(jù),來(lái)看看人群的行為習(xí)慣。
先來(lái)看看下面這張按照出現(xiàn)頻率統(tǒng)計(jì)的消費(fèi)地點(diǎn)詞云:
由于每條消費(fèi)記錄會(huì)包含一個(gè)窗口名稱(chēng),還有一個(gè)所屬食堂,所以我們很容易得出哪些食堂的哪些地方消費(fèi)次數(shù)最多,營(yíng)業(yè)額最高。
根據(jù)窗口信息匯總,最受歡迎的食堂非第三食堂莫屬。新閔行第三餐飲學(xué)生餐廳完成裝修后于2014年9月2日重新投入營(yíng)業(yè)。在觀測(cè)時(shí)間范圍內(nèi),營(yíng)業(yè)額為3793804元,在各子商戶(hù)中排名第一;消費(fèi)人次達(dá)626013次,同樣位于第一。
而女生的總體商戶(hù)消費(fèi)分布是長(zhǎng)這樣子的(看不清沒(méi)關(guān)系,有個(gè)概念就好,接下來(lái)會(huì)有解釋?zhuān)?/p>
可見(jiàn),無(wú)論是小本、碩士、還是女博士,最受姑涼們歡迎的是閔行第三餐飲學(xué)生餐廳和教育超市(DT君OS:都說(shuō)“玩在復(fù)旦,住在交大,吃在同濟(jì),愛(ài)在華師大”,如今交大女生是要逆天呀……)。
下圖給了你一個(gè)全景,讓你看看交大女生的總體消費(fèi)習(xí)慣是怎么樣:
可以很明顯地看出,女生在就餐上的開(kāi)銷(xiāo)總體大約比男生少600元,碩士和博士在就餐上的花費(fèi)范圍也比本科生波動(dòng)要大一些。
而本科生在超市和點(diǎn)心上的消費(fèi)比碩士和博士更多,女生在水果和咖啡上的消費(fèi)也比男生要多一些。
從消費(fèi)次數(shù)分布可以看到更明顯的一些特征。男生人均比女生在食堂就餐的次數(shù)更多,女生比男生洗澡次數(shù)更多,本科生比碩士和博士生逛超市的次數(shù)更多。從本科到碩士到博士,所念學(xué)歷越高,學(xué)生在食堂就餐的最低次數(shù)逐漸降低,也許是因?yàn)槊τ诳蒲袥](méi)時(shí)間出去吃飯,所以養(yǎng)成了點(diǎn)外賣(mài)的習(xí)慣~
還有一個(gè)很出人意料的結(jié)論:各類(lèi)用戶(hù)(男和女,本碩博)中都有在就餐方面消費(fèi)總額和次數(shù)均為零的情況,他們從來(lái)不在食堂吃飯!
看完了這一節(jié),你至少知道如何在校園里,和為數(shù)不多的交大女生來(lái)一次大概率的偶遇了吧。
第2步:聚類(lèi)分析劃定五類(lèi)人,里面就有你要的女神
交大女生那么多?哪一款才是我們的女神呢?讓我們把交大學(xué)生做一次聚類(lèi)分析。
聚類(lèi)分析法是一種無(wú)監(jiān)督的機(jī)器學(xué)習(xí)方法,即根據(jù)事物某方面特性把它們劃分成為多個(gè)類(lèi)別,使得屬于同一類(lèi)別的個(gè)體具有相似的特性或比較高的相似度,而不屬于同一類(lèi)別的個(gè)體具有不同的特征或比較低的相似度。同一類(lèi)別的相似性越大,不同類(lèi)別間差別越大,聚類(lèi)效果就越好。
因?yàn)槲覀兊臄?shù)據(jù)集比較大,而涉及到的數(shù)值型的屬性比較多(消費(fèi)數(shù)額,消費(fèi)次數(shù)等),所以這里我們選用基于劃分的K-Means聚類(lèi)。
聚類(lèi)特征的選取很重要,考慮到對(duì)消費(fèi)人群進(jìn)行畫(huà)像,我們選取學(xué)生在食堂、洗浴中心及超市的消費(fèi)次數(shù)、平均消費(fèi)金額作為特征。整理好數(shù)據(jù)集后我們查視一下數(shù)據(jù)集的格式:
我們從中選取數(shù)據(jù)的數(shù)值特征,為了保證可靠的方差分析,我們先用scale函數(shù)對(duì)樣本特征的取值范圍進(jìn)行歸一化,并繪制組內(nèi)方差圖選取合適的K值,下面的圖表現(xiàn)了不同K值下組內(nèi)方差的結(jié)果。x軸代表聚類(lèi)個(gè)數(shù),y軸代表平均組內(nèi)方差。我們可以看到,當(dāng)聚類(lèi)數(shù)目越大的時(shí)候,每組的組內(nèi)方差就越小。
可以看出當(dāng)聚類(lèi)個(gè)數(shù)K>5后組內(nèi)方差下降趨勢(shì)變緩,同時(shí)也保證了K的數(shù)目足夠小,所以我們選取K=5為聚類(lèi)個(gè)數(shù)。
利用R的kmeans函數(shù)可以很快實(shí)現(xiàn)K-Means,如下:
得到聚類(lèi)中心后,我們可以可視化我們的聚類(lèi)結(jié)果,我們不妨比較一下去食堂次數(shù)以及去超市次數(shù)的聚類(lèi)散點(diǎn)圖:
可以從圖中看出形成了比較明顯的聚類(lèi),即屬于第三聚類(lèi)的人群去超市次數(shù)多于其他各類(lèi),去食堂次數(shù)則相對(duì)較少,從生活習(xí)性我們可以推斷這些人可能是比較喜歡買(mǎi)泡面解決飲食的宅男們。
不妨再比較一下去食堂次數(shù)以及去洗浴中心等次數(shù)的聚類(lèi)散點(diǎn)圖:
我們從圖中可以果斷的找出女神人群就是第一聚類(lèi),愛(ài)洗澡 生活有規(guī)律(去食堂) 女生占比大的種類(lèi),非女神莫屬!(DT君OS:大俠,你的口味好獨(dú)特哦?。?/p>
我們可以隨機(jī)抽取50個(gè)樣本,繪制聚類(lèi)熱力圖,如下:
結(jié)合熱力圖和不同性別,不同學(xué)歷在各組間出現(xiàn)的比例,我們可以推測(cè)各個(gè)組的性質(zhì)。
就此我們可以得到這5類(lèi)人群的畫(huà)像:
-
第一聚類(lèi):女神or男神,這一聚類(lèi)女生比例較高,去食堂次數(shù)十分規(guī)律穩(wěn)定,而且注重個(gè)人衛(wèi)生,經(jīng)常去洗澡。
第二聚類(lèi):潛力股or學(xué)術(shù)帝,男生很多,博士生的比例最高,相對(duì)于第一類(lèi)生活更規(guī)律,去食堂的次數(shù)更多。
第三聚類(lèi):宅男,這一聚類(lèi)男生比例極高,去食堂的次數(shù)相對(duì)較少,反而經(jīng)常去超市,推測(cè)經(jīng)常購(gòu)買(mǎi)的物品一定是泡面紙巾……
第四聚類(lèi):奇行種,去食堂、超市、洗浴中心的次數(shù)都很少,不知道他們每天都在哪里。
第五聚類(lèi):人民群眾,去食堂、超市、洗浴中心的次數(shù)都比較均衡,是我們廣大人民群眾中的一員。
顯然,我們要找的是第一種??蛇@里面竟然還有男的……(DT君OS:嗯其實(shí)找個(gè)干凈的男朋友也是不錯(cuò)的,男生們你們不妨也考慮一下……)
第3步:精準(zhǔn)定位你的女神
見(jiàn)證奇跡的時(shí)刻到了。
究竟如何準(zhǔn)確定位女神呢?
我們將消費(fèi)數(shù)據(jù)與第一聚類(lèi)匹配,就得到第一聚類(lèi)中女性(即女神!敲黑板畫(huà)重點(diǎn)!)的消費(fèi)頻次分布,如下圖:
接著,我們可以利用性別、入學(xué)年份、出生年份、學(xué)位類(lèi)別、最常去的食堂、就餐均勻度、總就餐次數(shù)和工作日就餐比等特征,匹配自己的資料和就餐習(xí)慣,逐步縮小篩選范圍并最終鎖定目標(biāo)(哪怕數(shù)據(jù)已經(jīng)經(jīng)過(guò)了脫敏處理)。
根據(jù)當(dāng)下男生喜歡的類(lèi)型,我輸入了“年齡?。?5后),本科生,女,愛(ài)洗澡愛(ài)逛超市,生活有規(guī)律”幾個(gè)條件,為你篩選出15個(gè)高顏值女神。
當(dāng)然,如果你覺(jué)得光是一卡通數(shù)據(jù)不夠精準(zhǔn)定位你的女神,還可以和校園網(wǎng)wifi數(shù)據(jù)結(jié)合起來(lái)挖掘,可以進(jìn)一步研究女神的特征,比如她們經(jīng)常訪(fǎng)問(wèn)一些文藝的網(wǎng)站,購(gòu)買(mǎi)化妝品、衣服等等(DT君OS:從這里可見(jiàn),張童鞋是位老司機(jī))。
彩蛋:我們還可以定位最佳男友哦
這個(gè)話(huà)題,其實(shí)上面已經(jīng)提到一些些了。
好基友的定義有很多種。利用餐飲數(shù)據(jù),我們簡(jiǎn)單的定義最佳好基友為幫基友或舍友帶飯的童鞋;而好男友簡(jiǎn)單的定義,則為每次都會(huì)幫女友刷卡的童鞋們……他們之間共同的特征是會(huì)在連續(xù)打若干次飯,并且價(jià)錢(qián)相近。利用這條規(guī)則,我們?cè)谡业搅?0000多次刷卡記錄,剔除掉無(wú)效的數(shù)據(jù)(同一時(shí)間出現(xiàn)兩條數(shù)據(jù)的、聯(lián)系兩次但價(jià)格相差很大的),共有10000余條這樣的記錄,這說(shuō)明至少有10000次這樣代為打飯的同學(xué)。前5名如下所示:
雖然不知道這幾位同學(xué)具體的名字,但是按你胃,你們現(xiàn)在成為國(guó)民好男友啦。
數(shù)據(jù)獲取與整理
本文是在一份比賽報(bào)告基礎(chǔ)上進(jìn)行改寫(xiě)的。
本次研究是參加EMC杯智慧校園開(kāi)放數(shù)據(jù)大賽的比賽報(bào)告,比賽舉辦方是交大網(wǎng)絡(luò)信息中心;比賽數(shù)據(jù)由上海交通大學(xué)網(wǎng)絡(luò)信息中心和OMNILab聯(lián)合提供。
研究報(bào)告涉及到的數(shù)據(jù),分為以下幾個(gè)部分:
-
用戶(hù)信息中包含了上海交通大學(xué)閔行校區(qū)使用過(guò)校園卡消費(fèi)的學(xué)生信息。包擴(kuò)卡號(hào)(匿名化)、學(xué)號(hào)(匿名化)、性別、年齡、入學(xué)年、學(xué)生類(lèi)型。共30861項(xiàng)觀測(cè),包含30861個(gè)一卡通賬戶(hù)、30812個(gè)學(xué)號(hào),即有49名學(xué)生擁有兩個(gè)一卡通賬戶(hù)。時(shí)間跨度為2014-09-01至2015-01-31。
交易記錄中包含了上海交通大學(xué)閔行校區(qū)的校園卡消費(fèi)信息。每條交易記錄包括消費(fèi)者卡號(hào)、商戶(hù)號(hào)、商戶(hù)所屬系統(tǒng)、交易時(shí)間、交易金額。共7915289項(xiàng)交易記錄,時(shí)間跨度為2014-09-01至2015-01-31。
商戶(hù)信息中包含了上海交通大學(xué)大學(xué)閔行校區(qū)各個(gè)商戶(hù)的信息。包括商戶(hù)所屬系統(tǒng)代碼、商戶(hù)所屬系統(tǒng)名稱(chēng)、商戶(hù)代碼、商戶(hù)名稱(chēng)、商戶(hù)地點(diǎn)(有缺失)、商戶(hù)成立時(shí)間。共134項(xiàng)觀測(cè),包含32個(gè)商戶(hù)系統(tǒng)、85個(gè)子商戶(hù)。
校園網(wǎng)記錄中包含了共12736408項(xiàng)校園網(wǎng)記錄,時(shí)間跨度為2014-09-01至2015-01-31。
數(shù)據(jù)俠門(mén)派(附第二個(gè)彩蛋)
本文數(shù)據(jù)俠:張宏倫,上海交通大學(xué)OMNILab實(shí)驗(yàn)室直博生,研究方向?yàn)閿?shù)據(jù)分析和數(shù)據(jù)可視化。
好了,答應(yīng)你們的彩蛋來(lái)了:
文章的最后,萌主問(wèn)張宏倫,既然交大女生這么好,你給我介紹個(gè)師妹來(lái)實(shí)習(xí)吧!(這是真的!萌主約你一統(tǒng)江湖。)
他回復(fù):你覺(jué)得我有師妹嗎?
BTW,更慘痛的事實(shí)是,萌主私下多方打聽(tīng)了解到,張大俠的女朋友……并不是交大的!
如何加入數(shù)據(jù)俠
“數(shù)據(jù)俠”欄目網(wǎng)羅全球最I(lǐng)N的大數(shù)據(jù)俠客,利用人工智能、機(jī)器學(xué)習(xí)以及各種前瞻算法,打造理性而酷炫的數(shù)據(jù)可視化盛宴。過(guò)去,我們用文字,視頻,圖片傳達(dá)信息?,F(xiàn)在,我們用大數(shù)據(jù)闡述事實(shí)及其背后邏輯趨勢(shì)。
DT時(shí)代超級(jí)英雄正在組隊(duì)!你也想要成為成為數(shù)據(jù)俠嗎?請(qǐng)將你腦洞大開(kāi)的數(shù)據(jù)作品,發(fā)到數(shù)據(jù)俠聯(lián)盟萌主沈念祖的郵箱:shennianzu@dtcj.com。哦對(duì)了,請(qǐng)不要叫她沈先生,切記。
(了解更多有趣又有料的商業(yè)數(shù)據(jù)分析,歡迎關(guān)注DT財(cái)經(jīng)微信公眾號(hào)“DTcaijing”,下載“DT·一財(cái)”APP)