清華大學研究團隊獲KDD 2020首屆時間檢驗應用科學獎
個人自動信息抽取
作者首先通過擴展“朋友之友(FOAF)”來定義研究者檔案,包含研究者的基本信息(如研究者的名字、照片、職位、工作單位等),研究者的聯(lián)系信息(如研究者的電話、傳真、通訊地址、Email 等),研究者的教育經(jīng)歷(如畢業(yè)學校、獲得學位的時間、每個階段所學專業(yè)以及所發(fā)表的論文)。
研究者個人信息抽取分三步:相關頁面識別、預處理和信息提取。
在相關的頁面識別中,對于每個研究者,通過 Google 搜索引擎的 API 獲得網(wǎng)頁列表,并判斷是否是研究者的主頁或者包含了較多的研究者個人信息的介紹性網(wǎng)頁。然后,使用支持向量機(SVM)作為分類模型對網(wǎng)頁內(nèi)容進行分類處理。
在預處理中,將文本進行標記處理,系統(tǒng)利用條件隨機場(CRF)作為標記模型,來確定最可能的對應標記序列,每個標簽對應一個定義的屬性。
作者使用規(guī)則歸納模型算法和SVM模型方法作為概要文件提取的基準,通過研究每種特征類型在研究者檔案提取中的作用,發(fā)現(xiàn)僅使用一種類型的功能無法獲得準確的性能分析結果。
圖2 :研究者個人主頁和理想的標注結果
圖2中的左側給出了一個典型的研究者個人主頁,其中包含研究者的姓名、照片、通信地址、Email地址、教育經(jīng)歷等信息,圖的右側顯示了最終想要的理想的標注結果。
分析數(shù)據(jù)發(fā)現(xiàn),個人信息的各個屬性之間有依賴關系,而且有的屬性之間有很強的依賴關系。
研究者重名排歧
對于網(wǎng)絡上不勝其數(shù)的同名作者,如何精確的定位一位作者成為一大難點,同名作者文章的排歧工作面臨每篇文章信息量有限和作者相關描述不確定性強的難點。
之前的研究工作中,采用監(jiān)督學習算法對每個排歧目標的數(shù)據(jù)進行學習和訓練,這種方法可擴展性差;無監(jiān)督學習方法受到可利用信息量的限制,排歧效果不太強。
針對這些問題,作者在文中提出了一個基于隱馬爾可夫隨機場(HMRF)的概率框架,該框架可以捕獲每篇論文之間的依賴關系,從而更加靈活地將各種知識以約束的形式放到算法中,從而很好地利用各種指導和數(shù)據(jù)來提高重名排歧的精度。
具體而言,利用隱馬爾可夫隨機場理論構造目標函數(shù),將整個問題轉化為最小化目標函數(shù)問題。目標函數(shù)主要包含兩個部分:
一是聚類的每個類別中數(shù)據(jù)點之間的距離,用來衡量每個聚類結果的緊密程度;
二是當前聚類結果所違背的所有約束的懲罰值之和。
整個算法的目標是找到內(nèi)部緊密而且盡量少違背約束的聚類結果,來作為同名排歧的結果。作者在文中通過大量的實驗數(shù)據(jù),證明這一方法在消除重名方面明顯優(yōu)于傳統(tǒng)方法。
圖3 :一個重名排岐的實例
圖 3 給出了一個重名排岐的實例。圖中每個點表示一篇論文,每條有向邊表示兩篇論文之間的不同類型的關系,這些關系即可以轉化為上述約束。兩個點之間的距離反應了它們在內(nèi)容上相似度。實線框表示論文屬于同一個作者(聚類類別)。
從圖中可以非常直觀地看出,僅根據(jù)內(nèi)容相似度不能取得很好的聚類效果,但是不同類型的關系對于區(qū)分不同的作者非常有效。例如,根據(jù)節(jié)點3和8之間的合作關系,很容易將它們分配到同一個類別。
異質網(wǎng)絡建模
學術網(wǎng)絡建模對于任何搜索或建議任務都是至關重要的。傳統(tǒng)上,信息通常是基于“詞袋(BOW)”模型來表示的。
AMiner 提供的核心服務是專家搜索,即根據(jù)用戶查詢的話題找出在相關領域的權威專家。因此,僅僅依靠關鍵詞進行專家匹配,幾乎無法返回有效的結果。而如果我們知道自然語言處理領域的權威會議是“ACL”等,根據(jù)研究者發(fā)表的會議信息,就可以很容易判斷出他是否是該領域的權威專家。
因此,作者提出了一個統(tǒng)一的主題模型 ACT,同時對研究者論文、作者和會議的主題進行分布建模,設計了一種可以有效地利用學術網(wǎng)絡的異質實體與關聯(lián)信息,來發(fā)現(xiàn)領域內(nèi)專家方法。
文章提出主題模型 ACT 對研究者異質信息網(wǎng)絡統(tǒng)一進行建模,從中估計出不同類型的實體,包括研究者、會議、關鍵詞以及論文在不同隱含話題上的概率分布。
圖4 構建話題模型生成研究者異構信息網(wǎng)絡
ACT1 模型:每位作者與主題上的多項式分布相關聯(lián),并且論文中的每個單詞和會議標記都是從抽樣的主題中生成的。
ACT2 模型:每個“作者-會議”對都與主題上的多項式分布相關聯(lián),然后從采樣的主題中生成每個單詞。
ACT3 模型:每位作者都與一個主題分布相關聯(lián),并且在為論文中的所有單詞標記采樣主題之后,生成會議標記。
有了這些概率分布,當用戶給定一個查詢詞,就可以推斷與之概率分布相近的專家,進而還可以推斷出相關的會議和論文等異構網(wǎng)絡中存在的各種實體類型。

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字