作為全球頂級的數據挖掘會議,第27屆知識發現和數據挖掘會議(Knowledge Discovery and Data Mining, KDD)於2021年8月14~18日成功舉辦了線上會議。北京郵電大學GAMMA LAB團隊對本次大會的內容做了詳細的回顧和總結。
1. 大會簡介1.1 論文接收情況
作為數據挖掘的頂級會議,KDD對論文的評審一直非常嚴格,接收率基本不超過20%,今年亦是如此:
研究賽道(Research) 1541篇投稿,239篇被接收,接收率15.5%。
應用數據科學賽道(ADS) 705 篇投稿,155篇被接收,接收率22.0%。
1.2 人員參會情況
KDD的風格一直是學術和應用並重,因此每次舉辦KDD大會都會吸引來自不同地區的學術界、工業界人士參加,我們簡單的統計了今年KDD大會的人員註冊情況:
約有70多個地區2600人左右註冊會議,受到疫情影響,註冊人數略有下降。
亞洲力量崛起。中國註冊人數排名第2,亞洲地區包攬2-5名。
美國註冊人數依舊遙遙領先。
1.3 大會項目
儘管受到了疫情的影響,本屆大會依舊延續了KDD的傳統,以精彩的活動為特色,將不同社區的研究人員聚集在一起,交流領域的前沿問題、機遇和挑戰。
4個主題演講——由2021年圖靈獎得主Jeff Ullman教授主持
4個主題日活動——Health Day,Deep Learning Day,Trust Day,ESG Day
3項KDD挑戰賽——時序異常檢測挑戰賽、OGB大規模挑戰賽、城市大腦挑戰賽
20場應用數據科學專題講座,40個教程式講座和52個研討會
2. 研究趨勢
近年來,機器學習和數據挖掘領域的進展非常迅速,想要快速知悉前沿領域研究的進展,最好的方法就是從頂級會議的接收論文中對研究趨勢進行解讀和分析。為了方便大家閱讀,GAMMA LAB團隊對今年KDD大會的接收論文做了詳細的統計和分類:
2.1 總體趨勢
我們首先對KDD論文的關鍵詞和研究熱點進行可視化,從中可以看出今年會議的三大趨勢:
對於圖數據的研究是今年大會最火熱的方向;
工業界的研究重心依然集中於推薦、廣告、搜索和反欺詐等領域;
對於可信模型(公平、安全、可解釋)的研究成為了KDD大會的新興方向。
2.2 代表論文
我們從研究趨勢中選取了本次KDD大會的兩個重要研究方向,圖數據挖掘和可信模型(公平、安全、可解釋),進行介紹。
2.2.1 圖數據挖掘
圖神經網絡的性質與應用
性質:魯棒性,可遷移性,可解釋性受到研究者的關注。
《Certified Robustness of Graph Neural Networks against Adversarial Structural Perturbation》
《Adaptive Transfer Learning on Graph Neural Networks》
《Comparing to Ground Truth is Wrong: On Evaluating GNN Explanation Methods》
應用:範圍更廣,內容更加複雜。如軌跡檢測,公司識別等。
《A Graph-based Approach for Trajectory Similarity Computation in Spatial Networks》
《Scalable Heterogeneous Graph Neural Networks for Predicting High-potential Early-stage Startups》
圖神經網絡的基準
異質圖神經網絡基準:
《Are we really making much progress? Revisiting, benchmarking and refining the Heterogeneous Graph Neural Networks》
KDD Cup:
《OGB Large-scale Challenge (OGB-LCS)》
圖算子的研究與應用
圖算子理論
《The Generalized Mean Densest Subgraph Problem》
圖算子加速
《Accelerating Set Interections over Graphs by Reducing-Merging》
《MaNIACS: Approximate Mining of Frequent Subgraph Patterns through Sampling》
大規模圖算子
《An Efficient and Scalable Algorithm for Estimating Kemeny's Constant of a Markov Chain on Large Graphs》
《Global Neighbor Sampling for Mixed CPU-GPU Training on Giant Graphs》
2.2.2 可信模型
公平性
去偏差
《Federated Adversarial Debiasing》
《Contrastive Learning for Debiased Candidate Generation in Large-Scale Recommender Systems》
排序問題
《Individual Fairness for Graph Neural Networks: A Ranking based Approach》
《Maxmin-Fair Ranking: Individual Fairness under Group-Fairness Constraints》
因果學習
《Explaining Algorithmic Fairness Through Fairness-Aware Causal Path Decomposition》
安全性
隱私保護
《Privacy-Preserving Representation Learning on Graphs: A Mutual Information Perspective》
《Removing Disparate Impact on Model Accuracy in Differentially Private Stochastic Gradient Descent》
異常檢測
《ELITE : Robust Deep Anomaly Detection with Meta Gradient》
可解釋性
模型可解釋
《Why Attentions May Not Be Interpretable?》
《How Interpretable and Trustworthy are GAMs?》
數據可解釋
《Leveraging Latent Features for Local Explanations》
3. 最佳論文
研究賽道:頒發給了韓國首爾大學的Jun-gi Jang和U Kang,以表彰他們在張量分解領域做出的貢獻。他們提出了Zoom-Tucker,這是一種快速且節省內存的Tucker分解方法,它可以用來尋找任何時間範圍內的時間張量數據的隱藏因子。
應用數據科學賽道:頒發給了斯坦福大學的Serina Chang等人。他們設計了一種用於輔助Covid-19政策決策的工具。該工具使用大規模數據和流行病學模型來量化流動性變化對感染率的影響。
最佳學生論文:頒發給了來自維也納大學計算機科學學院的 Ylli Sadikaj 等人。他們在論文《Spectral Clustering of Attributed Multi-relational Graphs》中提出了一種針對具有節點屬性的多關係圖的降維技術,能夠整合來自屬性、關係類型和圖結構的所有可用信息,以實現對聚類結果的合理解釋。
4. 北郵 GAMMA Lab
北京郵電大學GAMMA LAB團隊在數據挖掘領域有濃厚的技術積澱,在本次KDD大會中也有亮點表現:
兩篇關於異質圖神經網絡的論文被接受:
異質圖對比學習:《Self-supervised Heterogeneous Graph Neural Network with Co-contrastive Learning》
異質圖的預訓練:《Pre-training on Large-Scale Heterogeneous Graph》
舉辦異質信息網絡分析與應用研討會(HENA):
《Heterogeneous information network analysis and applications (HENA)》
參與舉辦圖表示學習講習班,並做異質圖神經網絡的講習報告:
《Heterogeneous Graph Neural Network Concepts, Models and Applications》
5. 展望
最後我們對本次KDD大會的內容進行總結和展望:
深度學習帶來的暴力應用正在消退,對於模型可信能力的研究開始增多;性能並不再是唯一的評價指標,確保模型的公平、安全、可解釋亦成了目前研究的重點。
從研究賽道和應用數據賽道接受的論文中,可以發現學術界和工業界同時對因果學習、聯邦學習以及模型的可解釋性等方向產生了濃厚的興趣。
可以預見,單純利用暴力模型進行數據挖掘的做法會被淘汰,而具有高可信能力的數據挖掘模型會成為這一領域的主流研究方向。