來源:上海新聞廣播 上海市場監管 深圳衛健委 北京新聞等

鑽石舞台 發表在 痞客邦 留言(0) 人氣()

人工智能是指一系列技術的集合,這些技術能夠以類似於人類邏輯和推理的方式跟蹤複雜問題。機器學習技術學習如何在大量數據的基礎上完成特定的任務。人工智能技術正在呈指數級發展,已經能夠對來自各種來源的大量數據進行分類和解釋,以執行各種任務,並幫助應對世界上許多最緊迫的挑戰。人工智能具有巨大的潛力來加速許多核領域的技術發展,從核醫學到水資源管理,再到核科學和工業。2021年,國際原子能機構主辦了核技術與應用人工智能技術會議,旨在提供一個國際性、跨領域的論壇,討論和促進在核科學、技術與應用、輻射防護、核安全和保障核查等領域的合作。目的是確定這些領域今後活動的優先次序以及原子能機構如何能夠支持這些活動的執行。這是首次召開此類會議,也是一次反思人工智能與核技術融合的倫理考慮的機會。本出版物提供了當前技術狀態的概述,概述了挑戰並確定了加速核應用、人工智能科學和技術的機會。原子能機構感謝起草和審查這份出版物的貢獻者所做的工作。負責這份出版物的原子能機構官員是物理和化學科學司的M. Barbarino。

鑽石舞台 發表在 痞客邦 留言(0) 人氣()

摘要

對於許多人工智能系統的應用領域來說,多目標連續決策問題是常見的。由於這些系統越來越多地被用於與人打交道或做出對人有影響的決策,因此它們的推理對終端用戶和利益相關者來說是很重要的,以促進信任和有效的人-Agent協作。然而,即使在使用馬爾科夫決策過程(MDP)等白盒決策模型時,最終用戶也很難理解解決順序決策問題背後的推理。這種理解性的挑戰是由於解決長視距問題存在爆炸式的潛在策略組合。多目標優化方面使問題進一步複雜化,因為不同的目標可能發生衝突,需要權衡推理。這些複雜的問題給終端用戶帶來了障礙,使他們無法知道Agent是否為特定環境做出了正確的決定,並且可能禁止他們在Agent錯誤的情況下進行干預。本論文的目標是開發一個可解釋的框架,使做出順序決策的Agent能夠向最終用戶傳達其目標和行為的緣由。
我們提出了一個用於MDP的可解釋規劃框架,特別是支持具有多個優化目標的問題域。我們提出以結果為導向的對比性解釋,其中對Agent策略的論證是以其對任務目標的預期後果為基礎的,放在所選擇的可行方案的背景下,以展示Agent的優化和權衡推理。我們的建模框架支持獎勵分解,並增強了MDP表示法,以使獎勵或成本函數的組成部分以領域級概念和語義為基礎,從而促進解釋的生成。我們的解釋生成方法計算策略層面的對比襯托,描述Agent決策中的拐點,即對分解的任務目標進行優化和權衡推理。我們通過將我們的可解釋規劃框架應用於三個規劃問題領域來證明它的適用性:基於航路點的導航、無人機任務規劃和診所調度。
我們設計並進行了人類受試者實驗,以根據可衡量的任務表現來評估解釋的有效性。我們把實驗中用戶的任務設計為:評估Agent的規劃決策,以確定它們是否是給定問題背景下的最佳決策。我們的實驗結果表明,我們提出的以結果為導向的對比性解釋方法明顯提高了用戶正確評估Agent的規劃決策能力,以及用戶對其評估的信心。
最後,我們研究了面向後果的對比性解釋範式的用戶指導方法的可行性。我們提出了一個理論框架和方法,將"為什麼不"的行為問題表述為規劃問題上的狀態-動作約束和線性時間邏輯約束,並得出滿意的策略,以解釋被詢問的行為對後續決策和任務目標的全部影響。
第一章 簡介
由於人工智能推理的算法複雜性和所使用的信息不為用戶所知,因此,由帶有人工智能(AI)組件的系統做出的自動決策對最終用戶來說往往是不透明的,難以理解。特別是順序決策過程,在這個過程中,隨着時間的推移連續採取多個依賴性行動,由於可能策略的組合爆炸,特別是涉及到不確定性下的推理時,對終端用戶的理解構成了重大挑戰。隨着人工智能系統越來越多地被用於許多領域,與人們一起工作或做出影響人們的決定,這些系統必須使其推理能夠被最終用戶和利益相關者理解。理解系統的目標和行為,相信系統為他們的任務做出了正確的決定,或者知道他們什麼時候沒有做出正確的決定,這對於讓人們信任並有效地使用這些人工智能系統或與之合作至關重要。本論文的目標是開發一個可解釋性框架,使做出順序決策的Agent能夠將其目標和行為的理由傳達給終端用戶。
對於許多順序決策或規劃的應用領域,經常有多種實現目標的方法,這些方法可能在一些重要的品質上有所不同,如執行時間和各種性能和成本的衡量標準。這樣的順序決策問題涉及到特定領域數量屬性的優化[78]。對於這類應用領域的終端用戶或利益相關者來說,一個重要的可理解性類型[61]是:為什麼Agent的決策是最優的?這個問題有幾個方面。正在使用的順序決策框架、領域模型、任務目標(即目標和優化目標)以及解決問題的算法都在選擇最優決策方面起作用。因此,問題的多個方面可以得到解釋。在本論文中,我們特別關注領域模型和任務目標方面,以馬爾可夫決策過程(MDP)作為順序決策框架。我們研究了與算法無關的方法,向用戶解釋為什麼MDP規劃Agent的策略是最優的,與Agent的決策模型有關。也就是說,我們的方法是根據Agent的MDP模型來解釋他們的最優策略,與解決MDP的具體算法無關。我們的目的是向用戶解釋產生規劃解決方案的推理,這些解決方案對他們來說可能是不明顯的,基於Agent的決策模型所做的,而不是基礎規划算法如何實現的。
我們認為,對比性解釋對於回答為什麼一項計劃或策略是最優的至關重要,因為最優性從根本上說是一種比較性屬性。對比性解釋的思想源於這樣一種社會現象:當人們要求對某一事件,即事實("為什麼會發生P?")進行解釋時,他們往往要求相對於某種對比情況,即箔("為什麼會發生P而不是Q?")進行解釋[69, 70]。
在可解釋的人工智能規劃中,現有的工作採用對比性解釋來進行推理調和(意味着幫助用戶的推理過程更好地理解規劃者的決策)[18],主要集中在單個行動層面的對比性襯托。這些工作通常旨在回答 "為什麼這個行動在這個計劃中?"和 "為什麼不是這個其他行動?"的問題。[36]. 然而,為了回答 "為什麼這個策略是最優的?"的問題,我們認為在單個行動層面的對比性襯托是不夠的。對於用戶來說,要理解為什麼一個策略是最優的,知道在某個狀態下選擇另一個行動會有一個較低的值(即Q(s, a0 )值,或其分解成分,對於在狀態s下的另一個行動a0)可能是不夠的。較低的值可能是沒有向用戶解釋的後續狀態和行動的結果。此外,有許多可能的後續狀態和行動的集合,Agent可以選擇,這將導致不同的策略值。如果解釋將對比性的襯托作為單獨的行動,這些替代性的決定就沒有得到解決。相反,我們認為應該探索導致較低策略值的行動組合,以便為用戶提供更多關於一個策略為什麼是最優的洞察力。關鍵的挑戰是如何從一個指數級的大空間中找出適當的行動組合作為對比性的襯托。
在這篇論文中,我們研究了什麼是構成策略最優的有效對比性解釋,以及如何自動生成這種解釋的問題。我們專注於解釋馬爾科夫決策過程規劃,對其而言,即使規劃模型是一個白盒,決策的長跨度順序性和概率性仍然使Agent的推理難以被用戶理解。我們的工作特別有動力針對涉及多個獎勵或成本目標的問題域,因為它們反映了規劃的許多現實應用[78]。問題的多目標優化性質增加了用戶需要理解的Agent推理的複雜性。
我們在本論文中研究的解釋的主要目標是使用戶能夠評估規劃Agent的決定對於用戶的目標和偏好來說是否是最優的,這些目標和偏好可能與Agent的目標和偏好不同。我們關注這一目標的原因有兩個方面。首先,在為規劃問題設計獎勵或成本函數時,將Agent和用戶的目標和偏好統一起來是一個困難的問題[37, 59]。特別是,當規劃目標有多個組成部分時,可能會發生錯位。能夠幫助用戶發現這種(錯誤的)排列的解釋可能是有影響的。第二,為解釋建立一個以任務為導向的目標,可以為衡量擬議的解釋方法的有效性提供一個更客觀的評價方法。
我們研究如何使用對比性解釋作為一種機制來描述Agent的規劃目標如何將其決策引向某種策略而不是其他策略。與可解釋人工智能文獻中常用的對比性解釋的定義不同,我們不關注因果差異條件或與不同情況相關的屬性的非因果差異。相反,我們的主要想法是關注Agent決策中的拐點,使其選擇某種策略而不是其他一些合理的選擇。也就是說,我們關注的是Agent改變其優化軌跡以平衡競爭性任務目標的點。為了從一個指數級的大空間中找出一套可管理的信息對比襯托--在行動組合層面上,我們利用規劃問題的多目標性質來解釋。通過獎勵分解,我們確定了一個帕累托有效策略的子集作為候選的對比性襯托。我們的對比性解釋方法的主要思想是描述獎勵或成本值的組成部分如何在帕累托效率子空間中驅動優化決策的拐點,以及如何進行權衡以調和競爭的任務目標。我們對這種類型的對比性解釋的論點是雙重的。首先,它忠實於規划算法的基本數學方法,即計算多目標獎勵或成本函數的最優價值函數。其次,它支持本論文中所激勵的解釋的目標,即幫助用戶認識到Agent的目標和偏好與他們的目標和偏好之間的一致或不一致。
1.1 論文聲明
本論文的論述是:
我們可以通過面向結果的對比性解釋來提高馬爾科夫決策過程(MDP)規劃Agent對終端用戶的透明度和可理解性,即他們如何推理尋找最優策略。我們提出的方法允許用戶從不同序列決策對各種任務目標的影響以及競爭目標之間的權衡角度來理解規劃原理。我們提出的解釋機制使最終用戶能夠評估基於規劃的Agent的目標和他們自己的目標之間的一致性,並有可能從用戶的角度解決Agent的意外決定。
接下來,我們闡述一下論文聲明。
這篇論文的重點是針對最終用戶的馬爾科夫決策過程(MDP)規劃的推理協調問題(即幫助用戶的推理過程更好地理解規劃者的決定[18]),特別是對於涉及多個優化目標的問題領域。也就是說,我們的目標是產生解釋,說明為什麼一個Agent的策略是關於任務目標和先驗偏好的最佳選擇。我們將我們的方法設計為算法無關和基於模型。也就是說,我們的方法是根據MDP模型來解釋Agent的最優策略,與解決MDP的具體算法無關。我們提出了以結果為導向的對比性解釋,其中對策略的論證是以其對任務目標的預期後果為基礎的,放在選定的可行替代方案的背景下,以證明Agent的優化和權衡推理。
利用獎勵分解,我們的方法通過對獎勵或成本函數的各個組成部分的價值函數的約束進行重新規劃,計算出一小套替代策略作為對比性的襯托,這與問題的任務目標相對應。價值約束的設置是為了解決帕累托前沿的拐點上的替代策略,這些拐點表明Agent的權衡決定,以調和競爭的任務目標。我們的方法制定了解釋,描述了在行動組合層面上不同的對比性襯托如何影響與Agent策略相比的任務目標。
本論文表明,使用以結果為導向的對比性解釋可以提高終端用戶對規劃原理的理解,其衡量標準是他們評估Agent的決策是否與用戶自己的目標和對任務的偏好相一致的能力,這可能與Agent的目標和偏好不同[59]。我們在本論文中提出,這種解釋為終端用戶提供了關於Agent決策的可操作性的見解。也就是說,用戶可以相信Agent已經做出了正確的決定,或者他們可以確定Agent有可能出錯的地方並進行相應的干預。
此外,我們研究了對我們方法的擴展,允許用戶直接查詢Agent策略中的意外決定。我們探索了一種用戶引導的、以結果為導向的對比性解釋方法,以 "為什麼不 "查詢的形式使用用戶的輸入來引導搜索對用戶的具體問題有參考價值的對比性襯托。為此,我們提出了一個理論框架和方法,將 "Why-Not "查詢制定為規劃問題上的狀態-行動約束和線性時間邏輯(LTL)約束,並解決滿足的策略,以解釋被查詢行為對後續決策和任務目標的全部影響。使用這個解釋框架的重要考慮因素是:對於滿足被查詢的時間模式的對比性箔,計算出的策略對於原始MDP問題中的狀態抽象來說可能是非馬爾可夫的。必須承認Agent原始推理中的馬爾科夫獎勵假設和用於生成用戶查詢的對比性襯托的非馬爾科夫方法之間的差異。儘管如此,我們認為,允許對比性襯托來挑戰Agent的正式規劃框架中的假設,對於用戶理解和評估他們對Agent的任務所期望的最優性標準是有參考價值的。這項調查是一個概念驗證。它的主要目標是探索在我們面向結果的對比性解釋範式中超越獨白的可行性,並納入複雜的用戶查詢,以確定更相關的對比性襯托,從而實現更好的推理協調。
1.2 貢獻
在這篇論文中,我們做出了以下貢獻:
1.我們為馬爾科夫決策過程(MDP)規劃設計了一種算法無關的、基於模型的可解釋規劃方法[94]。我們的解釋目標是提供推理調節,說明為什麼一個策略對於任務目標和規劃Agent的先驗偏好來說是最優的。我們提出了一種方法來產生面向結果的對比性解釋。我們的方法由兩部分組成:
(a) 一個支持獎勵分解的建模框架,並增強了MDP表示法,使獎勵或成本函數的組成部分在領域級概念和語義中有了基礎,以促進解釋的生成。
(b) 一種計算策略層面的對比襯托的方法,它描述了Agent在分解任務目標的優化和權衡推理方面的決策拐點。我們的方法通過對分解的任務目標的價值函數進行硬性和軟性約束的重新規劃來計算對比性箔。我們將約束性規劃問題表述為混合整數線性規劃(MILP)問題。特別是,我們制定MILP問題來解決滿足價值函數的硬約束的確定性策略[28]。我們使用懲罰方法[23]和非線性懲罰函數的分片線性近似[25]在MILP表述中用於軟約束。
2.我們通過將我們的方法應用於三個規劃問題領域來證明我們提出的可解釋規劃框架的適用性:基於航點的室內機器人導航、無人駕駛飛行器(UAV)任務規劃和門診調度。我們展示了每個問題域如何在我們的可解釋規劃表示中建模,並討論了我們的方法對不同問題實例產生的解釋的例子。
3.我們設計並進行了一個人體實驗,以評估基於可測量的任務表現的解釋的有效性。特別是,我們將用戶的任務設計為:評估Agent的規劃決策,以確定它們是否是給定問題背景下的最佳決策。我們的實驗結果表明,我們提出的以後果為導向的對比性解釋方法明顯提高了用戶正確評估Agent的規劃決策的能力,以及用戶對他們的評估的信心。
4.我們研究了面向後果的對比性解釋範式的用戶指導方法的可行性。提出了一個理論框架和方法,將 "為什麼不 "的行為問題表述為規劃問題上的狀態-動作約束和線性時間邏輯(LTL)約束,並解決滿足的策略,以解釋被詢問的行為對後續決策和任務目標的全部影響。為了解決具有LTL約束的MDP,我們利用現有的問題制定方法[82]來構建產品MDP,其中包含了由LTL屬性生成的確定性拉賓自動機(DRA),而產品MDP的獎勵或成本函數是根據DRA的接受條件來定義。對於原始MDP問題中的狀態抽象,通過這種方法計算的對比性箔的策略可能是非馬爾科夫的。

鑽石舞台 發表在 痞客邦 留言(0) 人氣()

本書介紹了信號處理的基本原理和技術,從信號和系統理論的基本思想到真實世界的應用。學生被介紹到現代信號處理的強大基礎,包括希爾伯特空間的基本幾何,傅里葉變換的數學,以及採樣、插值、逼近和壓縮的要點。作者討論了現實世界的問題和使用這些工具的障礙,以及適應他們的方法,以克服有限和本地化的問題,不確定性的限制,和計算成本。它包括超過160個家庭作業問題和超過220個工作示例,專門設計用於測試和擴展學生對信號處理基礎的理解,並伴隨着廣泛的在線材料,旨在幫助學習,包括Mathematica®資源和交互式演示。

鑽石舞台 發表在 痞客邦 留言(0) 人氣()

最近老看到網友催周董發新歌,結果你們猜他在幹嘛?

在秀恩愛!10條IG里,有9條是他老婆昆凌。

鑽石舞台 發表在 痞客邦 留言(0) 人氣()


點擊上方關注我

鑽石舞台 發表在 痞客邦 留言(0) 人氣()


武漢墨光即將在09月26日-30日推出第十一期《ASAP 光學系統軟件雜散光分析與控制》線上培訓。為了方便大家更加了解本次培訓的課程內容,以下是本次培訓的課程大綱及詳情介紹:
培訓大綱

雜散光術語

鑽石舞台 發表在 痞客邦 留言(0) 人氣()

2022


鑽石舞台 發表在 痞客邦 留言(0) 人氣()

1.什麼是冰滴咖啡?

鑽石舞台 發表在 痞客邦 留言(0) 人氣()

AOKKA的咖啡豆應該不少朋友喝過,他們是一家咖啡烘焙品牌,烘焙工廠在上海。如果感覺不太熟悉,那他們的前身澳帝焙,應該就有印象了吧。

鑽石舞台 發表在 痞客邦 留言(0) 人氣()