西湖大學(xué)迎來一位新成員,其辦公室吸引了多位老師前來交流探討。這位新教授究竟擁有怎樣的學(xué)術(shù)背景,能產(chǎn)生如此的“磁吸效應(yīng)”?
答案在于統(tǒng)計(jì)學(xué)。
近期,國際知名統(tǒng)計(jì)學(xué)家佘軼原教授已正式加入西湖大學(xué),擔(dān)任理學(xué)院和理論科學(xué)研究院講席教授。
統(tǒng)計(jì)學(xué)作為數(shù)據(jù)科學(xué)的核心基礎(chǔ),是機(jī)器學(xué)習(xí)與人工智能等領(lǐng)域不可或缺的支撐學(xué)科,廣泛服務(wù)于自然科學(xué)、工程技術(shù)及社會科學(xué)等諸多領(lǐng)域。事實(shí)上,統(tǒng)計(jì)學(xué)無處不在,它不僅關(guān)乎我們對數(shù)據(jù)的理解和處理,更深刻地塑造著我們的科學(xué)理念與信念。

佘軼原教授
不定中的確定
說到統(tǒng)計(jì),許多人往往誤以為它只是數(shù)據(jù)的簡單收集與整理,實(shí)際上,這只是統(tǒng)計(jì)學(xué)的起點(diǎn)。
統(tǒng)計(jì)學(xué)更關(guān)注如何通過數(shù)據(jù)推斷總體規(guī)律,并為實(shí)際決策提供堅(jiān)實(shí)的理論依據(jù)。作為國家一級學(xué)科,統(tǒng)計(jì)學(xué)不僅嚴(yán)謹(jǐn)且富有實(shí)踐價值,早已深度融入社會生活和各類科學(xué)領(lǐng)域。
“統(tǒng)計(jì)學(xué)是一門以數(shù)據(jù)為核心、研究與應(yīng)對不確定性的科學(xué)。”佘軼原說。
為什么要關(guān)注不確定性?測量誤差、個體差異、抽樣偏差,以及現(xiàn)實(shí)世界問題的高度復(fù)雜性和模型的不完備性等等,共同構(gòu)成了不確定性的來源。統(tǒng)計(jì)學(xué)通過嚴(yán)謹(jǐn)?shù)姆治雠c建模,幫助我們理解并量化這些不確定性,提升科學(xué)推斷和決策的可靠性。
這幾年火熱的人工智能,其實(shí)也離不開統(tǒng)計(jì)學(xué)的底層原理支持。馬斯克前段時間略帶醋意地說:“機(jī)器學(xué)習(xí)的本質(zhì)就是統(tǒng)計(jì)學(xué)。”
的確,人們期待中的人工智能理想模型,不僅需要在給定數(shù)據(jù)上實(shí)現(xiàn)良好的擬合效果,更重要的是具備統(tǒng)計(jì)上的有效性——即模型能夠適應(yīng)更廣泛、更一般的未知情境,這才是真正意義上的智能。
統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)領(lǐng)域?qū)⑦@種能力稱為“泛化能力”。反之,如果忽視這種考量,模型通常會出現(xiàn)過擬合的問題,也就是失去泛化能力。
當(dāng)今復(fù)雜模型的參數(shù)量已達(dá)萬億級別,遠(yuǎn)超人類認(rèn)知維度。佘軼原的研究重點(diǎn)之一——高維統(tǒng)計(jì)領(lǐng)域,其核心挑戰(zhàn)在于樣本量遠(yuǎn)低于變量維度,導(dǎo)致“維度災(zāi)難”(curse of dimensionality)尤為尖銳。這種以少測多的挑戰(zhàn)在數(shù)學(xué)上曾一度被認(rèn)為是“不適定問題”。
然而,現(xiàn)代統(tǒng)計(jì)學(xué)的研究發(fā)現(xiàn),現(xiàn)實(shí)世界的數(shù)據(jù)并非毫無結(jié)構(gòu),而是常常蘊(yùn)含著內(nèi)在的簡潔性,比如經(jīng)過適當(dāng)變換后呈現(xiàn)出的稀疏性或低秩性。利用這一洞察,我們依然能夠從中獲得精準(zhǔn)的預(yù)測與穩(wěn)健的推斷。
現(xiàn)代統(tǒng)計(jì)學(xué)的核心挑戰(zhàn)之一,便是在有限且不完美的樣本中,如何精準(zhǔn)地還原高維數(shù)據(jù)的內(nèi)在結(jié)構(gòu)——佘軼原教授如此概括。
他的研究致力于融合嚴(yán)謹(jǐn)?shù)姆菨u進(jìn)性理論分析、高效的優(yōu)化算法與先進(jìn)的正則化技術(shù),如選擇、投影、聚類等,深入挖掘數(shù)據(jù)背后的內(nèi)在關(guān)聯(lián),旨在讓看似混亂的高維信息變得清晰且可解釋。
在高維統(tǒng)計(jì)、低秩建模、穩(wěn)健推斷,以及非凸與非光滑優(yōu)化等前沿方向上,他的研究不僅為機(jī)器學(xué)習(xí)從復(fù)雜數(shù)據(jù)中發(fā)現(xiàn)規(guī)律提供了新方法,也為生物醫(yī)學(xué)、經(jīng)濟(jì)學(xué)等諸多學(xué)科的數(shù)據(jù)分析提供了有效工具和嶄新的思路。
現(xiàn)實(shí)中的數(shù)據(jù)往往并不“干凈”:異常值、標(biāo)記錯誤、高杠桿點(diǎn)(high-leverage points)等現(xiàn)象隨處可見。這些異常數(shù)據(jù)的“破壞力”很大,有時即使只有一個極端的異常點(diǎn),也可能導(dǎo)致傳統(tǒng)估計(jì)和推斷方法完全失效。
你可能會想,干脆找出來扔掉就行了。但在現(xiàn)代大數(shù)據(jù)應(yīng)用中,人工直觀地識別異常點(diǎn)幾乎不可行,更何況參數(shù)估計(jì)、異常檢測與統(tǒng)計(jì)推斷本就是密切相關(guān)、難以割裂的聯(lián)合優(yōu)化問題,在監(jiān)督學(xué)習(xí)場景下尤其復(fù)雜。
如何在異常中發(fā)現(xiàn)尋常?正如佘軼原教授所說,數(shù)據(jù)科學(xué)的興起為穩(wěn)健統(tǒng)計(jì)帶來了新的機(jī)遇與挑戰(zhàn)。
一些傳統(tǒng)穩(wěn)健估計(jì)方法常在模型假設(shè)下將異常數(shù)據(jù)視為“雜音”而專注于抑制其影響。但現(xiàn)實(shí)中,這些異常未必是輕微擾動,反而可能承載關(guān)鍵的信息與規(guī)律。正如在犯罪調(diào)查中,真正幫助找到線索的往往正是看似異常的信息。
因此,在建模、估計(jì)與推斷過程中,同步量化評估每個數(shù)據(jù)點(diǎn)的異常風(fēng)險尤為重要。針對這一挑戰(zhàn),佘軼原教授創(chuàng)新性地構(gòu)建了穩(wěn)健損失函數(shù)與高維統(tǒng)計(jì)正則化之間的理論橋梁,通過融合稀疏約束與非凸優(yōu)化技術(shù)將異常檢測與參數(shù)估計(jì)統(tǒng)一于同一框架。在此基礎(chǔ)上,他提出了具備有限樣本理論保證的新方法和高效算法應(yīng)用于大數(shù)據(jù)分析。
在統(tǒng)計(jì)學(xué)家眼中,世界本身就充滿著不確定性,人類所獲取的數(shù)據(jù)也自然蘊(yùn)含隨機(jī)性與變異性。那么,到底是數(shù)據(jù)決定了我們的觀念,還是觀念主導(dǎo)了對數(shù)據(jù)的解讀?如今一些復(fù)雜模型所涌現(xiàn)出的驚人能力,某種程度上正是數(shù)據(jù)驅(qū)動的成果。而要徹底理解這些復(fù)雜機(jī)制的背后本質(zhì),更離不開統(tǒng)計(jì)學(xué)的深入研究。
面對現(xiàn)實(shí)數(shù)據(jù)的復(fù)雜性,我們依然渴望確定,在偶然中捕捉必然。這正是統(tǒng)計(jì)與數(shù)據(jù)科學(xué)令人著迷之處,正如佘軼原教授在入職自我介紹中所言——
尋幽入微,知常達(dá)變。
中國-博士人才網(wǎng)發(fā)布
聲明提示:凡本網(wǎng)注明“來源:XXX”的文/圖等稿件,本網(wǎng)轉(zhuǎn)載出于傳遞更多信息及方便產(chǎn)業(yè)探討之目的,并不意味著本站贊同其觀點(diǎn)或證實(shí)其內(nèi)容的真實(shí)性,文章內(nèi)容僅供參考。