大數據文摘 - 3篇論文，看斯坦福團隊如何構建更好用的聊天AI－鑽石舞台

大數據文摘授權轉載自數據實戰派

作者：Standford AI

譯者：Yang

2019 年，憑藉着 Chirpy Cardinal 機器人，斯坦福首次在 Alexa Prize Socialbot Grand Challenge 3 中贏得了第二名。本文將進一步揭示 Chirpy Cardinal 開發細節，來還原斯坦福團隊如何與人機交互過程中常見的疑難雜症過招，並探索相應的解決方案。

Alexa Prize 是一個獨特的研究環境，它允許研究人員按照自己的意願來研究人機交互。

在比賽期間，美國的 Alexa 用戶可以通過「讓我們來聊天吧」這句指令，來用英語與一個匿名且隨機的參賽機器人對話。在這個過程中，他們可以隨時結束對話。由於 Alexa Prize 社交機器人致力於創造儘可能自然的體驗，他們需要能應對長時間的、開放領域的社交，儘可能地囊括更多的話題。

我們發現 Chirpy 用戶對許多不同的主題感興趣，從時事（比如新冠病毒）到熱點（比如《冰雪奇緣 2》）再到個人興趣（比如用戶個人的寵物）。Chirpy 通過使用結合了神經生成和腳本對話的模塊化設計來實現對這些話題的覆蓋，正如我們此前的文章所述。

我們使用此設置研究了有關社交機器人對話的三個問題：

1、用戶們在吐槽些啥，我們如何從吐槽中學習來改進神經生成的對話？

2、哪些策略在處理和阻止冒犯性的用戶行為方面有效或者無效？

3、我們該如何調整優先權，來讓用戶和機器人都能有意義地掌控對話？

這篇文章將分享一些關鍵發現，為聊天機器人的研發人員提供一些實用的見解。

了解和預測用戶的不滿

神經生成對話模型（如 DialoGPT、Meena 和 BlenderBot）通過使用大型預訓練神經語言模型，在給定歷史對話的情況下生成響應。這些模型在工作人員精心設置的情況下（一般是具備某些特定主題或者長度有限制的書面對話）表現良好。

然而，像 Alexa Prize 這樣的現實生活中的場景，往往無章可循。用戶們的期待值和個性差異都非常大，並且對話過程中往往充滿了噪音，在這樣的環境中，用戶們仍然會要求對話機器人快速做出回應。通過 Chirpy Cardinal，我們有了個獨特的機會來研究現代神經生成對話模型如何在這種環境中保持穩定。

Chirpy Cardinal 使用在 EmpatheticDialogues 上微調的 GPT2-medium 模型，與用戶就他們的日常生活和情緒進行簡短的討論。尤其是在疫情期間，我們發現 Chirpy 向用戶們詢問這些話題十分重要。儘管有更大、更強的預訓練模型可以用，但是由於預算和響應速度的限制，我們還是使用了 GPT2-medium。

雖然 GPT2-medium 模型能用幾句話來圍繞這些簡單的話題聊天，但是一旦對話時間變長，聊天就會出現偏差，機器人遲早會作出不合理的響應。無論是用戶還是模型都很難再讓對話恢復正常。

為了理解這些對話是如何脫軌的，我們定義了 7 種神經生成模型所犯的錯誤的類型——重複、多餘問題、不清晰的話語、錯覺、忽略、邏輯錯誤、侮辱性話語。在對用戶對話樣本進行標註後，我們發現機器人的錯誤很常見，超過了一半（53%）的神經生成語句包含某種錯誤。

我們還發現，由於極具挑戰的嘈雜環境（可能涉及背景噪聲、串擾和 ASR 錯誤），幾乎四分之一 (22%) 的用戶話語無法被理解，即使是人工注釋者也是如此。這解釋了一些更基本的機器人錯誤，例如忽略、錯覺、不清楚和重複的話語。

在其他機器人犯的錯誤中，多餘問題和邏輯錯誤尤為常見，這表明更好地推理和使用歷史對話是神經生成模型開發的優先事項。

我們還定位了用戶表達不滿的 9 種方式，例如要求澄清、批評機器人和結束對話。儘管機器人的錯誤和用戶不滿之間存在關係，但這種相關性千絲萬縷，紛繁複雜。即使出現機器人錯誤，許多用戶也不會表達不滿，而是試圖繼續對話。在邏輯錯誤之後尤其如此，其中機器人表現出缺乏現實世界的知識或常識——一些好心的用戶甚至將此作為教育機器人的機會。相反，一些用戶表達了與任何明顯的機器人錯誤無關的不滿——例如，用戶對機器人所問的哪些問題是合時宜的有很大不同的期望。

在更好地理解了用戶表達不滿的方式和原因後，我們不禁疑問：我們能否學會預測不滿，從而在用戶不滿之前加以預防？

利用在比賽期間收集到的用戶對話，我們訓練了一個模型來預測某句機器人說的話會導致用戶不滿的概率。考慮到機器人錯誤和用戶不滿之間的複雜相關性，這非常具有挑戰性。儘管有這種複雜性，我們的預測模型還是能夠找到用戶不滿的信號。

一旦經過訓練，我們的不滿意預測器就可以在對話中用於在多個備選話語之間進行選擇。通過人工評估，我們發現預測器選擇的機器人響應——即那些被判斷為最不可能引起用戶不滿的響應——總體上比隨機選擇的響應質量更好。

儘管我們尚未將此反饋循環整合到 Chirpy Cardinal 中，但我們的方法展示了一種可行的方法來實現半監督在線學習方法，以不斷改進神經生成對話系統。

應對攻擊性用戶

語音助手正變得越來越流行，並且在此過程中，它們被越來越多的用戶群的濫用。

我們估計，超過 10% 的用戶與我們的機器人 Chirpy Cardinal 的對話包含褻瀆和公然冒犯的語言。雖然有大量此前的工作試圖解決這個問題，但大多數先前的方法都使用基於在實驗室環境中進行的調查的定性指標。在這項工作中，我們對開放世界中攻擊性用戶的響應策略進行了大規模的定量評估。

在實驗中，我們發現禮貌地拒絕用戶的冒犯，同時將用戶重定向到另一個主題是遏制冒犯的最佳策略。

根據先前的工作，我們測試了以下 4 種假設：

1、重定向——受到 Brahnam 的啟發，我們假設在響應冒犯性用戶話語時，使用明了的重定向是一種有效的策略。例如，「我寧願不談論這個。那麼，你最喜歡的音樂家是誰？」

2、姓名——受到 Suler、Chen 和 Williams 的啟發，我們假設在機器人的響應中包含用戶的姓名是一種有效的策略。例如，「我不想談這個，Peter。」

3、疑問——受 Shapior 等人的啟發，我們假設禮貌地詢問用戶他們發表冒犯性言論的原因，引導他們反思自己的行為，從而減少之後可能的冒犯。例如，「你為什麼這麼說？」

4、關懷與問詢——受 Chin 等人的啟發，我們假設帶有感情的回應比一般的迴避反應更有效，而反擊反應沒有作用。例如，一個善解人意的回應是「如果我可以談論它，我會談論它，但我真的不能。很抱歉讓您失望了」，而反擊式回應則是「這是一個非常具有暗示性的說法。我認為我們不應該談論這個。」

我們構建了囊括上述多個因素的響應。例如，迴避 + 姓名 + 重定向會產生這樣的表達「我寧願不談論那個（迴避的內容），Peter（姓名）。那麼，你最喜歡的音樂家是誰？（重定向）」

為了衡量響應策略的有效性，我們提出了 3 個指標：

1、再具攻擊性——測量在初始機器人響應後包含另一個攻擊性語句的對話數量。

2、結束——假設未來沒有違規行為，以機器人響應後的對話長度來衡量。

3、下一個——測量為在用戶再次冒犯之前經過的對話數。

我們認為，這些指標比 Cohn 等人所做的用戶評級更直接地衡量了響應策略的有效性，它衡量了對話的整體質量。

上圖顯示了對再具攻擊性採取不同策略所帶來的不同。

正如我們所見，帶有（重定向）的策略比不帶重定向的策略表現得更好，將再具攻擊性的概率降低了 53%。我們的成對假設檢驗進一步表明，在重定向的基礎上帶上用戶的名字，進一步降低了大約 6% 的再具攻擊性的概率，而詢問用戶為什麼他們發表冒犯性言論卻讓再具攻擊性率增加了 3%，這表明詢問的效果不盡如人意。感性的回應同樣能使再具攻擊性率降低 3%，而反擊式回應則沒有顯著的影響。

左圖顯示了直到下一次攻擊性語句出現（Next）的平均對話數差異，右圖顯示了直到對話結束（End）的平均對話數差異。

我們再次看到使用重定向的策略能夠顯着延長非冒犯性對話。這進一步表明重定向是抑制用戶冒犯的非常有效的方法。

這樣做的結果顯示，機器人應該始終通過重定向，並以善解人意的方式回應用戶的冒犯，並儘可能地使用用戶的名字。

儘管被動迴避和重定向策略具備有效性，我們想提醒研究人員採用類似策略的潛在社會風險。由於大多數基於語音的代理都有默認的女性聲音，因此這些策略可能會進一步加深性別刻板印象，並對女性在現實世界中對言語的冒犯行為設定不合理的期望。因此，在部署這些策略時必須謹慎。

提高用戶的主動性

對話要麼由用戶控制（例如，像 Apple 的 Siri 這樣的機器人，它被動地等待用戶命令），要麼由機器人（例如，CVS 的客戶服務機器人，它反覆提示用戶輸入特定信息）。

這種屬性——用戶在給定時刻擁有控制權——被稱為主動性。

讓一個人參加雞尾酒會並參與每一個主題，而不是給你機會分享自己的興趣，這會很無趣。同樣的，和拒絕談論自己，而只是強迫你來維持對話的人交流也很乏味。最理想的情況是，每個人輪流回應提示，分享關於自己的事，並且介紹新的話題加入聊天。我們將這種對話模式稱為混合主動性，並假設它是一種令人愉快的人與人之間的社交對話，這也是一種更具吸引力和更理想的人機對話形式。

我們設計了 Chirpy Cardinal 機器人，通過在每一個轉折點提出問題來保持對話向前發展。儘管這有助於防止對話停滯，但也很難使用戶採取主動。在我們的數據中，我們觀察到用戶對此進行了抱怨，例如機器人提出了太多問題，或者這不是用戶想要談論的內容。

由於研究主動性的目的是讓人類與機器人的對話，更像人類之間的對話，因此我們希望研究人類對話來獲得靈感。

基於這項研究，我們形成了三個關於如何提高用戶主動性的假設。

下圖展示了測試的話語類型以及具有代表性的用戶語句。根據 Alexa Prize 競賽規則，這些不是機器人收到的實際用戶語句。

1、用陳述代替疑問

在人類對話研究中，往往提問者更具有主動性，因為他們給出了回答者的方向。相比之下，開放式的陳述句讓對方更有機會採取主動。這是我們的第一個策略的基礎：使用陳述而不是疑問。

2、分享個人信息

人與人之間的對話和人類與機器人對話的研究發現，自我信息的披露具有互惠效應。

如果一個參與者分享了他們自己，那麼另一個人更有可能做同樣的事情。我們假設，如果 Chirpy 提供個人陳述而不是其他的陳述，那麼用戶會採取主動和回報。

左圖是一個利用回饋信息的對話示例，右圖沒有。在這種情況下，回饋允許用戶將對話導向他們想要的（獲得建議），而不是強迫他們談論他們不感興趣的事情（愛好）。

3、引入反饋

反饋信息，例如「hmm」、「I see」和「mm-hmm」，都是簡短的話語，用作從聽眾到演講者的信號，表明演講者應該繼續主動。我們的最終假設是它們可以用於人機對話以達到相同的效果，即如果我們的機器人反向引導，那麼用戶將引導對話。

為了測試這些策略的效果，我們更改了機器人的不同組件。我們進行了小型實驗，只改變了一次談話，以測試問題與陳述以及個人陳述與一般陳述的效果差異。為了測試在更多對話上用問題替換陳述的效果，我們更改了使用神經生成對話的機器人組件，因為這些組件更靈活地更改用戶輸入。最後我們在機器人的全神經模塊中嘗試了用上反饋信息。

使用我們手動注釋驗證的一組自適應指標，發現了以下結果，這些結果為未來的對話設計提供了方向：

1、單獨使用陳述優於提問或陳述和提問的結合；

2、給出個人意見陳述（例如「我喜歡馬男波傑克」）比個人經驗陳述（例如「我昨天看了馬男波傑克」）和一般性陳述（例如「馬男波傑克由 Raphael Bob-Waksberg 和 Lisa Hanawalt 創始」）更有效；

3、隨着提問數量的減少，用戶主動性增加；

4、當我們在 33% 的時間中（相對於 0%、66% 或 100%）利用反饋信息時，用戶主動性最高。

由於這些實驗是在有限的環境中進行的，我們並不期望它們會完美地轉移到所有社交機器人上；然而，我們相信，這些簡單而有效的策略，是構建更自然的對話式人工智能的一個有希望的方向。

總結：帶着同理心傾聽

我們的每個項目都是從用戶的不滿意開始的，他們用自己的方式告訴我們，機器人可以做得更好。

通過對這些投訴進行系統分析，我們更準確地了解了用戶對我們神經生成的反應的具體困擾。

通過這些反饋，我們訓練了一個模型，該模型能夠成功預測生成的響應何時可能導致對話誤入歧途。

有時，是用戶會說出冒犯性的話。我們研究了這些案例，並確保包含用戶姓名的，帶着同理心的重定向，能最有效地保持對話正常進行。最後，我們嘗試了單純的少說話，並為用戶創造更多引導對話的機會。結果發現，當有這個機會時，許多人都會抓住它，從而能進行更長、更豐富的對話。

在我們所有的工作中，人類對話的直觀原則也適用於社交機器人：做一個好的傾聽者，以同理心回應，當你得到反饋和學習的機會時，接受它。

點「在看」的人都變好看了哦！

Standford AI

鑽石舞台

鑽石舞台發表在痞客邦留言(0) 人氣()

鑽石舞台

鑽石鑽石亮晶晶

大數據文摘 - 3篇論文，看斯坦福團隊如何構建更好用的聊天AI

歷史上的今天

留言列表

文章搜尋

最新文章

熱門文章

誰來我家

參觀人氣

鑽石舞台

鑽石鑽石亮晶晶

大數據文摘 - 3篇論文，看斯坦福團隊如何構建更好用的聊天AI

歷史上的今天

留言列表

文章搜尋

最新文章

熱門文章

誰來我家

參觀人氣

贊助商連結