這屆智能客服為何如此優(yōu)秀?
轉(zhuǎn)載本文需注明出處:微信公眾號EAWorld,違者必究。
作為早期在國內(nèi)實現(xiàn)落地的AI應用場景,智能客服從2007年開始,就逐漸被企業(yè)應用,但這種智能客服大多采用預編程的方式解決客戶問題,呈現(xiàn)出過于死板,不能多輪對話等“偽智能”特點,現(xiàn)在我們可以稱其為第一代智能客服。最近幾年,隨著計算機硬件、大數(shù)據(jù)、云計算、深度學習等技術(shù)的發(fā)展,很多大型企業(yè),包括一些中小企業(yè)都升級到了新一代智能客服。
一套完整的智能客服系統(tǒng)一般包含語音識別(ASR)、自然語言理解(NLU)、對話管理(DM)、自然語言生成(NLG)、語音轉(zhuǎn)換(TTS)等五個主要的功能模塊(這里僅體現(xiàn)自然語言交互這種主要的人機交互方式),新一代智能客服系統(tǒng)最大的優(yōu)勢是能降低企業(yè)客服運營成本、提升用戶體驗。其具體框架結(jié)構(gòu)如下:
在這五大功能模塊中,比較重要的模塊是對話管理(DM)、自然語言理解(NLU)、自然語言生成(NLG),語音識別(ASR)與語音轉(zhuǎn)換(TTS)是人機語音交互時才會使用到的模塊。自然語言生成(NLG)由于其可控性較差,有時候生成的文本并不符合正常的語言邏輯,一般應用在對準確率要求不是太高的開放域?qū)υ捴?而對話管理(DM)模塊通常在多輪對話系統(tǒng)中才會用到,多輪對話系統(tǒng)作為人工智能領(lǐng)域的典型應用場景,也是一項極具挑戰(zhàn)的任務,不僅涉及多方面異構(gòu)知識的表示、抽取、推理和應用(如:語言知識、領(lǐng)域知識、常識知識等),還涉及包括自然語言理解(NLU),自然語言生成(NLG)在內(nèi)的其他人工智能核心技術(shù)(如:用戶畫像, 情感分析等)的綜合利用。
實現(xiàn)智能客服的方法,可以從最簡單的“關(guān)鍵字匹配”,到最前沿的深度學習“端到端生成”應答。分別應用到不同的場景:問答(QA)、任務(垂直領(lǐng)域)、閑聊。
我們可以將對話系統(tǒng)從分成兩層:
意圖識別層:識別語言的真實意圖,將意圖進行分類并進行意圖屬性抽取。意圖決定了后續(xù)的領(lǐng)域識別流程,因此意圖層是一個結(jié)合上下文數(shù)據(jù)模型與領(lǐng)域數(shù)據(jù)模型不斷對意圖進行澄清與推理的過程。
響應匹配層:對問題進行匹配識別及生成答案的過程。由于用戶問題的不可控特性,需要對用戶問題進行初步的類型劃分,并且依據(jù)問題類型采用不同的匹配流程和方法:
問答型:例如:“密碼忘了怎么辦?” ,可以采用基于知識圖譜構(gòu)建+檢索模型的匹配方式。
任務型:例如:“訂一張周五從北京到洛杉磯的機票。”,可以采用意圖決策+slots filling的匹配方式。
閑聊型:例如“你的名字叫什么?” ,可以采用檢索模型+一些Deep Learning相結(jié)合的方式。
意圖識別:
語言的本質(zhì)是為了傳遞人與人之間的信息(意圖),那么,我們可以定義出N種意圖分類。所以,一個語言模型就是一個多標簽的數(shù)學模型,把自然語言轉(zhuǎn)成具有結(jié)構(gòu)化的表達,一般具有以下三個步驟:
文本預處理:分詞、詞向量、詞義消解等。
樣本準備:抽取一些有用信息。
序列模型:語言模型,如CNN與LSTM組合的神經(jīng)網(wǎng)絡或者其他的一些網(wǎng)絡架構(gòu)。
理解用戶說話的意思,我們分為了三層:
第一層,是理解當前聊天處于哪一個話題,有沒有切換話題;
第二層,是理解具體的內(nèi)容,含有意圖與實體;
第三層,是理解當前發(fā)言的情感,跟蹤用戶的情緒變化。
1)話題模型
話題模型是一個分類模型,與后面的應答引擎是有對應的關(guān)系,根據(jù)不同的話題,進入不同的業(yè)務流程,所以模型的標簽的業(yè)務的分類。
2)意圖理解
作為人機語言交互的重要核心技術(shù)意圖理解也可看作是分類問題,為了能夠準確識別用戶當前的意圖,一方面需要綜合分析人機語言交互的上下文環(huán)境來決策用戶意圖,另一方面當意圖不清時還需要運用響應的話術(shù)來引導用戶澄清意圖,比如在訂票系統(tǒng)中“出發(fā)地、目的地、時間點、座位級別”等要素是離散地分布在一個會話中,在抽取保存這些關(guān)鍵信息的同時,還需要引導用戶給出關(guān)鍵要素點。
為了能使單個Token充分地表示文本的局部特征以及全局的文本特征,自然語言處理領(lǐng)域的相關(guān)從業(yè)者把大量的工作重心放在了NLU上,傳統(tǒng)模型的Pre-train手段就是語言模型,如ELMo模型就是以BiLSTM為基礎(chǔ)架構(gòu)、用兩個方向的語言模型分別Pre-train兩個方向的LSTM,后面的GPT、GPT2是用標準的、單向的語言模型來預訓練。現(xiàn)在有了更多的Pre-train方法,比如Bert就用了“MLM-NSP”的方式來預訓練,不過這是普通語言模型的一種變體;而XLNet則提出了更徹底的“Permutation Language Modeling”;還有UNILM模型,直接用單個Bert的架構(gòu)做Seq2Seq,可以將它作為一種Pre-train手段,又或者干脆就用它來做 Seq2Seq任務……
除了單向語言模型及其簡單變體掩碼語言模型之外,UNILM的Seq2Seq預訓練、XLNet的亂序語言模型預訓練,基本可以說是專為Transformer架構(gòu)定制的。其奧妙主要在 Attention矩陣之上。Attention實際上相當于將輸入的Token兩兩地做算相似度計算,這構(gòu)成了一個n2×n2大小的相似度矩陣(即Attention矩陣,n是文本長度,本文的 Attention均指Self-Attention),這意味著它的空間占用量是O(n2)量級,相比之下,RNN模型、CNN模型只不過是 O(n),所以實際上Attention通常更耗顯存。然而,有弊也有利,更大的空間占用也意味著擁有了更多靈活度,我們可以通過往這個 O(n2)級別的Attention矩陣加入各種先驗約束,使得它可以做更靈活的任務。而加入先驗約束的方式,就是對Attention矩陣進行不同形式的Mask。
在Attention矩陣的每一行事實上代表著輸出,而每一列代表著輸入,而Attention矩陣就表示輸出和輸入的關(guān)聯(lián)。所以,只需要在Transformer的Attention矩陣中引入下三角形形式的 Mask,并將輸入輸出錯開一位訓練,就可以實現(xiàn)單向語言模型。亂序語言模型跟語言模型類似,都是做條件概率分解,但是亂序語言模型的分解順序是隨機的。原則上來說,每一種順序都對應著一個模型,所以原則上就有n!個語言模型。而基于Transformer的模型,則可以將這所有順序都做到一個模型中去!也就是說,實現(xiàn)一種順序的語言模型,就相當于將原來的下三角形式的Mask以某種方式打亂。正因為Attention提供了這樣的一個n×n的Attention矩陣,我們才有足夠多的自由度去以不同的方式去Mask這個矩陣,從而實現(xiàn)多樣化的效果,在引入了魯棒性的同時也融入了上下文特征。
3)情緒識別模型
情緒識別模型同樣是一個分類模型,把用戶的發(fā)言分為了以下幾種不同級別的情緒:臟話、憤怒、懊惱、生氣、平和、贊揚等。同時可能還需要對用戶進行用戶畫像以及對用戶進行實時的情感分析來綜合判別用戶意圖,比如在導購類型的客服中經(jīng)常要用到相關(guān)技術(shù)。
響應匹配:
目前主流的智能匹配技術(shù)分為如下4種方法:
1,基于模板匹配;
2,基于檢索模型;
3,基于統(tǒng)計機器翻譯模型;
4,基于深度學習模型;
在實際落地場景中大多采用基于模板匹配,檢索模型以及深度學習模型為基礎(chǔ)的方法原型來進行分場景(問答型、任務型、閑聊型等)的會話系統(tǒng)構(gòu)建。
問答型場景一般解決方式為基于知識圖譜構(gòu)建+檢索模型匹配。相應的使用到的技術(shù)是知識圖譜構(gòu)建+檢索模型。模型的優(yōu)點是在對話結(jié)構(gòu)和流程的設計中支持實體間的上下文會話識別與推理準確率高。而缺點是知識圖譜的構(gòu)建是個耗時耗力的大工程,并且模型構(gòu)建初期可能會存在數(shù)據(jù)的松散和覆蓋率問題,導致匹配的覆蓋率缺失等問題,而且比傳統(tǒng)的QA Pair對知識維護上的成本高。
處理流程如下圖:
任務型場景一般的解決方式為意圖決策+slot filling的匹配。應用到的相關(guān)技術(shù)有意圖決策+slot filling。處理流程為首先按照任務領(lǐng)域進行本體知識的構(gòu)建,例如機票的領(lǐng)域本體知識場景如下:
在問答匹配過程中結(jié)合上下文模型和領(lǐng)域數(shù)據(jù)模型不斷在Query中進行slot屬性的提取,并循環(huán)進行本體意圖樹的不斷填充和修改,直到必選意圖樹填充完整后進行輸出。
閑聊型場景一般解決方式為檢索模型與Deep Learning結(jié)合。一般采用的技術(shù)為生成式模型+檢索式模型方式。相應的處理流程是先通過傳統(tǒng)的檢索模型檢索出候選集數(shù)據(jù),然后通過Seq2Seq Model對候選集進行重排,重排序后超過制定的閾值就進行輸出,不到閾值就通過Seq2Seq Model進行答案生成。
生成式模型的優(yōu)點是可以通過深層語義方式進行答案生成,答案不受語料庫規(guī)模限制,而缺點為模型的可解釋性不強,且難以保證一致性和合理性回答,可控性較差。
檢索模型的優(yōu)點為答案在預設的語料庫中,可控,匹配模型相對簡單,可解釋性強。相應的缺點為在一定程度上缺乏一些語義性,且有固定語料庫的局限性。

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字