【方旭東】儒家對人工智能倫理的一個可能貢獻——經由博斯特羅姆而思

儒家對人工智能倫(lun) 理的一個(ge) 可能貢獻

——經由博斯特羅姆而思

作者：方旭東(dong)

來源：作者授權伟德线上平台發布，原載於(yu) 《中國醫學倫(lun) 理學》2020年第7期

[摘要]人工智能的迅猛發展，使得人工智能倫(lun) 理建設變得日益緊迫，如何將人工智能置於(yu) 可控範圍，是其中一個(ge) 重要議題。牛津學者博斯特羅姆於(yu) 2014年推出的《超級智能》一書(shu) 雄辯地證明了人工智能存在的危險。博斯特羅姆關(guan) 於(yu) “工具趨同論”以及人工智能設計的“惡性失敗”等理論具有深刻的洞見，為(wei) 我們(men) 思考人工智能倫(lun) 理提供了一個(ge) 良好的起點。用博斯特羅姆的理論對最近的一個(ge) 儒家機器人倫(lun) 理版本進行檢查，立刻就能發現後者存在的不足。在肯定博斯特羅姆的同時，本文也嚐試用來自儒家經典《中庸》的“以人治人，改而止”命題去改善博斯特羅姆推薦的間接規範方法。

近年來，人工智能（AI）在全球的迅猛發展，使得人工智能倫(lun) 理建設變得日益緊迫，如何將人工智能置於(yu) 可控範圍，是其中一個(ge) 重要議題。牛津哲學家博斯特羅姆[①]於(yu) 2014年推出的《超級智能：路徑、風險、戰略》（Superintelligence：Paths,Dangers,Strategies）[②]一書(shu) ，雄辯地證明了人工智能存在的危險，同時，也對如何控製超級智能做了周密謀劃。筆者認為(wei) ，博斯特羅姆關(guan) 於(yu) 智能體(ti) 趨同的“工具價(jia) 值”（instrumental values）以及人工智能設計的“惡性失敗”（malignant failure）等理論具有深刻的洞見，為(wei) 我們(men) 思考人工智能倫(lun) 理提供了一個(ge) 良好的起點。不無遺憾的是，一些學者在提出自己的人工智能倫(lun) 理版本時，沒有注意到博斯特羅姆的工作，在錯誤的方向上繼續。有鑒於(yu) 此，本文首先將花大量篇幅介紹博斯特羅姆的觀點，尤其是他對人工智能會(hui) 給人類帶來“滅頂之災”（existential catastrophe）的論證。接下來，用博斯特羅姆的理論對最近的一個(ge) 儒家機器人倫(lun) 理版本進行檢查，指出後者存在的不足。最後，嚐試用一個(ge) 儒家命題去改善博斯特羅姆推薦的間接規範（indirect normativity）方案，以此，期望對人工智能倫(lun) 理的建設做出一個(ge) 可能的貢獻。

一

關(guan) 於(yu) 人工智能存在巨大的風險，博斯特羅姆不是唯一這樣說的人。在一般社會(hui) 大眾(zhong) 那裏，對人工智能的質疑，更多地，是與(yu) 霍金（Stephen William Hawking,1942-2018）、馬斯克（Elon Musk）、蓋茨（Bill Gates）等名人的言論聯在一起。比如，霍金在他生命的後期不斷向世人發出警告：“人工智能技術發展到極致程度時，我們(men) 將麵臨(lin) 著人類曆史上的最好或者最壞的事情”，“人工智能在並不遙遠的將來可能會(hui) 成為(wei) 一個(ge) 真正的危險”，“製造能夠思考的機器無疑是人類自身存在的巨大威脅。當人工智能發展完全，就將是人類的末日”。2015年元月，霍金與(yu) 馬斯克以及蘋果聯合創始人沃茲(zi) 尼亞(ya) 克（Steve Gary Wozniak）等上百位專(zhuan) 業(ye) 人士簽署了一封公開信[③]，號召研究人工智能的社會(hui) 衝(chong) 擊，提醒世人關(guan) 注人工智能的安全問題。[1]

與(yu) 霍金等人相比，博斯特羅姆對人工智能威脅的闡述更為(wei) 係統，也更精確。為(wei) 了讓讀者對於(yu) 這種威脅有一個(ge) 感性認識，他在書(shu) 中打了兩(liang) 個(ge) 比方。一個(ge) 比方是，超級智能體(ti) 與(yu) 人類的力量懸殊就像今天的人類與(yu) 大猩猩一樣。

如果有一天我們(men) 發明了超越人類大腦通用智能（general intelligence)的機器大腦，那麽(me) ，這種超級智能將會(hui) 非常強大。並且，正如現在大猩猩的命運更多地取決(jue) 於(yu) 人類而不是它們(men) 自身，人類的命運將取決(jue) 於(yu) 超級智能機器的行為(wei) 。[2](vii)

另一個(ge) 比方是，人類不斷推進人工智能技術，就像一個(ge) 小孩在拿著炸彈玩。

在智能大爆炸的景象發生之前，我們(men) 人類就像拿著炸彈玩的小孩。玩具的威力與(yu) 我們(men) 行為(wei) 的懵懂無知是如此的不能般配。超級智能是一個(ge) 我們(men) 現在還沒有準備好應對的挑戰，而且很長時間之內(nei) 都不會(hui) 準備好。[2](259)

更可怕的是，小孩遇到危險還可以去找大人，而在麵對人工智能這顆“炸彈”時，卻沒有大人可以找。

幾乎所有從(cong) 事人工智能技術的人都意識到人工智能安全問題的重要，但未必達到博斯特羅姆所理解的那樣嚴(yan) 峻程度。博斯特羅姆說：

控製問題——也就是如何控製超級智能，似乎非常困難，而且我們(men) 似乎也隻有一次機會(hui) 。一旦不友好的超級智能出現，它就會(hui) 阻止我們(men) 將其替換或者更改其偏好設置，而我們(men) 的命運就因此被鎖定了。[2](vii)

“隻有一次機會(hui) ”，博斯特羅姆是否誇大其詞、言過其實？究竟有什麽(me) 理由讓我們(men) 相信人工智能一定會(hui) 對人類不利？畢竟，大猩猩的命運雖然更多地取決(jue) 於(yu) 人類，但人類也無意要將其趕盡殺絕。把人工智能喻為(wei) 炸彈，那麽(me) ，究竟是在哪一點上，人工智能會(hui) 給人類引來殺身之禍？

博斯特羅姆對超級智能的“非常強大”做了說明。

擁有決(jue) 定性戰略優(you) 勢（decisive strategic advantage）的超級智能會(hui) 獲得巨大的勢力(power)，從(cong) 而可以建立穩定的一枝獨大（singleton)，而這個(ge) 獨大體(ti) 能夠決(jue) 定如何處置人類的宇宙資源。[2](104)

所謂“獨大體(ti) ”（singleton），是博斯特羅姆用來形容超級智能沒有實力強大的智能對手或反抗者，從(cong) 而處於(yu) 能夠單方麵決(jue) 定全球事務的這樣一種特點。[2](112)

當然，博斯特羅姆也承認，有勢力並不代表就一定會(hui) 動用這個(ge) 勢力。所以，關(guan) 鍵的問題是：擁有這種決(jue) 定性戰略優(you) 勢的超級智能是否有毀滅人類的意願（will）？如此一來，弄清超級智能的意願或動機（motivations）就顯得非常必要。在書(shu) 中，博斯特羅姆用了整整一章（第七章）去分析超級智能的意願。

當我們(men) 談論“意願”或“動機”時，我們(men) 很容易用人類的經驗去推測與(yu) 想象。博斯特羅姆一上來就特別警示，不要將超級智能的能力擬人化（anthropomorphizing），也不要把超級智能的動機擬人化。[2](105)

著名預言家庫茲(zi) 韋爾（Ray Kurzweil）曾經認為(wei) ，人工智能反映了我們(men) 人類的價(jia) 值觀，因為(wei) 它將成為(wei) 我們(men) 。

強大的人工智能正隨著我們(men) 的不懈努力而深入到我們(men) 人類文明的基礎設施中。事實上，它將緊密嵌入到我們(men) 身體(ti) 和大腦中。正因為(wei) 這樣，它反映了我們(men) 的價(jia) 值觀，因為(wei) 它將成為(wei) 我們(men) 。[3]

而博斯特羅姆則指出，人工智能與(yu) 社會(hui) 性智能生物（an intelligent social species）完全不同，不會(hui) 表現出人類那樣的對團體(ti) 的忠誠、對搭便車行為(wei) 的厭惡，以及與(yu) 名譽和外貌相關(guan) 的虛榮。[2](106)換言之，人工智能不存在人類那樣的性情與(yu) 價(jia) 值觀。之所以如此，據博斯特羅姆分析，很大一部分原因是，在設計人工智能時，與(yu) 打造擁有類似於(yu) 人類價(jia) 值觀與(yu) 性情的人工智能相比，建構擁有簡單目標的人工智能，顯然要容易得多。對比一下，就可以知道，編寫(xie) 一個(ge) 測量圓周率已經被算出多少位和存儲(chu) 該數據的程序是多麽(me) 容易，而創造一個(ge) 能夠準確測量諸如人類繁榮或全球正義(yi) 那樣的更有意義(yi) 的目標，又是多麽(me) 困難。[2](106-107)

如此說來，博斯特羅姆對於(yu) 人工智能的分析是建立現有人工智能技術的基礎之上。在理論上，不排除將來技術進步，程序設計者可以將人類的價(jia) 值觀加載到人工智能機器中。事實上，博斯特羅姆後麵有關(guan) 通過動機選擇方法（motivation selection methods）控製超級智能的一個(ge) 重要手段就是價(jia) 值觀加載（value-loading）。

關(guan) 於(yu) “前價(jia) 值觀形態”（pre-value）[④]人工智能的動機分析，依筆者之見，可能是博斯特羅姆書(shu) 中最富洞察力的部分。

人工智能固然沒有類似同情、理性那樣的人類式價(jia) 值觀，但不等於(yu) 說人工智能不可以有其自身的價(jia) 值觀，如果我們(men) 不把“價(jia) 值觀”這個(ge) 詞局限於(yu) 人類或社會(hui) 性智能生物身上的話。在博斯特羅姆之前，關(guan) 於(yu) 人工智能究竟在想什麽(me) ，或人工智能究竟有沒有自己的價(jia) 值偏好，人們(men) 基本停留在一種猜測或想象的水平，大多像庫茲(zi) 韋爾那樣，理所當然地認為(wei) ，人工智能承繼或反映了人類的價(jia) 值觀，即便在科幻小說或電影中，作為(wei) 邪惡力量的機器人，也仍然是按照人類的價(jia) 值觀進行設定的，隻不過，它們(men) 扮演的是反派角色而已。然而，這種想法其實是沒有根據的。現在，博斯特羅姆根據“工具趨同論”（the instrumental convergence thesis）對人工智能可能擁有的目標或動機做了令人信服的描述。

所謂“工具趨同”，是指：存在著一些工具性的價(jia) 值（instrumental values），實現這些價(jia) 值能夠提高係統的實現目標（適用於(yu) 各種最終目標和各種處境）的可能性，可以推知，各種狀況下的智能係統都會(hui) 追求這些工具性價(jia) 值。[2](109)那麽(me) ，包括人類、超級智能在內(nei) 的各種智能體(ti) ，趨同追求的共同目標或價(jia) 值有哪些呢？

博斯特羅姆列出了以下五種：1）自我保存（self-preservation），2）內(nei) 容與(yu) 目標一致（goal-content integrity），3）認知增強（Cognitive enhancement），4）技術完善（Technological perfection），5）資源獲取（Resource acquisition）。[2](109-113)

特別值得注意的是第五項。正是這個(ge) 目標或價(jia) 值的存在，使得博斯特羅姆認定，超級智能可能會(hui) 出於(yu) 這個(ge) 動機而毀滅人類。

一般人可能不會(hui) 想到，超級智能也有對獲取資源的興(xing) 趣。占有過多資源，也就是通常人們(men) 所說的貪婪，似乎隻會(hui) 發生在人類這樣的智慧生物身上。博斯特羅姆說服我們(men) 改變這樣的看法。他指出，首先，資源的價(jia) 值取決(jue) 於(yu) 它們(men) 能夠被用來做什麽(me) ，而這又取決(jue) 於(yu) 可以利用的技術。如果有成熟的技術，那麽(me) ，時間、空間、物質以及免費的能源等基本資源就能夠被用來實現幾乎任何目標。比如，更多的計算資源可以用來以更快的速度、在更長的期限內(nei) 運行超級智能。更多的物質資源可以用來建造備份係統或外部防禦係統，用以提高自身安全。光是這些項目所要消耗的資源可能就遠遠超過一個(ge) 星球的供給量。其次，隨著技術的進步，獲取額外的外星資源的成本將大大降低。這意味著，即使額外獲得的資源用處甚微，太空擴張也是值得的。超級智能會(hui) 利用多餘(yu) 的資源建造計算機用以計算如何更好地利用它重點關(guan) 心的特定空間範圍內(nei) 的資源，它還可以利用這些額外的資源去建造更加堅固的防禦工事，以保衛其領域。由於(yu) 獲得額外資源的成本會(hui) 不斷降低，這個(ge) 優(you) 化和增強防禦的過程可能會(hui) 無限持續下去。總之，超級智能“獨大體(ti) ”的多種最終目標都可能導致它將無止境的資源獲取作為(wei) 工具性目標。[2](113-114)

一旦了解人工智能有獲取無止境的資源的動機，就不難理解人類會(hui) 因為(wei) 這個(ge) 原因而被人工智能消滅。因為(wei) ，一方麵，人類本身就是一種物質資源（比如說，方便獲得的各種原子）。另一方麵，在人工智能無止境地獲取資源的過程中，人類會(hui) 被視為(wei) 一種競爭(zheng) 對手、一種潛在威脅，因為(wei) 人類的生存與(yu) 繁榮就依賴於(yu) 地球資源。[2](116)

在這個(ge) 基礎上，審視博斯特羅姆關(guan) 於(yu) 人工智能將給人類帶來“滅頂之災”的論調，可能就不會(hui) 覺得那是危言聳聽。不能不承認，博斯特羅姆的論證相當嚴(yan) 密。首先，他討論了在初始階段超級智能是如何取得決(jue) 定性戰略優(you) 勢，憑借這種優(you) 勢，超級智能“一枝獨大”，可以隨心所欲地去塑造地球土著的智能生物——人類的未來。隨後，他根據“正交論”（the orthogonality thesis），合理地指出，既然原則上幾乎任何水平的智能都能與(yu) 幾乎任何最終目標相結合，那麽(me) ，我們(men) 就不能輕率地假設，超級智能必然擁有與(yu) 人類智慧和智能發展相同的最終價(jia) 值體(ti) 係，諸如善待他人、摒棄物質欲望、向往高級文化、謙遜、無私等等。而從(cong) 技術的角度考慮，一種最終目標越是簡單的人工智能就越有可能被設計出來。最後，根據趨同性的工具價(jia) 值列表，即便是一個(ge) 最終目標非常簡單的超級智能，比如說，其目標是計算圓周率小數點後的位數，抑或生產(chan) 更多的回形針（paperclips）甚至清點沙子的數目，我們(men) 也不能指望，它就一定會(hui) 將其活動限製在這個(ge) 範圍之內(nei) ，而不去幹涉人類事務。不要忘了，超級智能對獲取資源的無止境追求。[2](115-116)

博斯特羅姆對於(yu) 超級智能帶來“滅頂之災”的分析，給人感覺，好像隻是可能性的一種，尚不足以讓人完全放棄希望。像美國軍(jun) 事分析家辛格（P.W.Singer）就認為(wei) ，機器征服世界起碼要滿足四個(ge) 條件：一、機器必須是獨立的，能夠獨自供給燃料、自我維修、自我複製，而不需人類協助；二、機器需要比人類更聰明，但卻不具備任何人類的積極品質（比如同情心和倫(lun) 理觀）；三、機器需要有一種生存本能，以及對操控自身環境有著某些興(xing) 趣和意願；四、人類必須沒有有效的控製界麵操控機器決(jue) 策，他們(men) 需要喪(sang) 失所有控製、幹擾甚至是調整機器決(jue) 定和行為(wei) 的能力。辛格討論說，至少短期而言，這裏麵的每一條標準似乎都很難實現。比如，機器達到人類水平的智能，可能在將來，甚至很快就有可能實現，但這仍是不確定的。另一方麵，有一個(ge) 研究領域——社會(hui) 機器人學——一直在致力賦予智能機器人以人類的積極品質，如同情心和倫(lun) 理觀，因而，即使出現強人工智能，也可以減小機器人反叛人類這種現象發生的可能性。[4]然而，博斯特羅姆對控製人工智能的現行方案的缺陷的揭示，可能會(hui) 把人徹底拋進絕望的深穀。

今後，人類在各個(ge) 領域向人工智能拱手稱臣，似乎已是一個(ge) 無法阻擋的趨勢。單以高智力的棋類遊戲為(wei) 例，1996年2月，計算機“深藍”（deep blue）挑戰國際象棋世界冠軍(jun) 卡斯帕羅夫（Garry Kasparov），以2：4的成績落敗，才過了一年，1997年5月，就以3.5：2.5的比分扳回了局麵。2016年3月，智能機器人阿爾法圍棋（AlphaGo)與(yu) 圍棋世界冠軍(jun) 李世石決(jue) 戰，以4：1的總比分獲勝。人類雖然輸了，但並非毫無還手之力。過了一年，2017年5月，它與(yu) 排名世界第一的世界圍棋冠軍(jun) 柯潔對戰，以3：0的總比分獲勝。這一次，機器人沒有給人類任何機會(hui) 。這個(ge) 例子大概能讓我們(men) 稍微領略人工智能超強的學習(xi) 能力。

麵對人工智能的逼人態勢，我們(men) 很容易想到，要從(cong) 能力上對它加以控製，即通過限製它的能力，防止它去做不利於(yu) 人類的事。最容易為(wei) 人想到的能力控製方法，就是將人工智能限製在它無法造成破壞的環境中，這個(ge) 方法被稱為(wei) 盒子方法（boxing method）。這有點像我們(men) 在政治製度設計當中將“權力鎖進籠子”的做法。開發者會(hui) 通過觀察一個(ge) 人工智能在“盒子”中的行為(wei) 驗證其安全性，直到認為(wei) 它是友好的、合作的、負責任的之後，才將其放出。初看，這個(ge) 計劃萬(wan) 無一失。然而，博斯特羅姆指出，它存在一個(ge) 致命的缺陷，那就是：因為(wei) 沒有考慮人工智能的工具性目標（價(jia) 值），不了解一個(ge) 係統早期的良好行為(wei) 記錄完全無法預示其在更加成熟階段的行為(wei) 。人工智能在較弱的時候會(hui) 表現得非常合作，而當它變得非常強大的時候，它就會(hui) 按照自己的目標對世界進行改造，從(cong) 而違背設計者的意圖。博斯特羅姆將這一現象稱為(wei) “變化無常”（treacherous turn）。[2](119)

對人工智能的設計者來講，出現這樣的情況，當然是一種失敗。博斯特羅姆進一步指出，應當認識到，這種失敗是一種“惡性失敗”（Malignant failure），因為(wei) 它帶來滅頂之災，並且由於(yu) 這種滅頂之災，它摧毀了再次嚐試的可能。具有迷惑性的是，通常，在失敗發生之前，人工智能會(hui) 首先取得巨大成功，但也因此，失敗的後果讓人無法承受。[2](120)

總體(ti) 來說，人工智能上的“惡性失敗”源於(yu) 人工智能的“自行其是”。如果說“變化無常”現象反映了人工智能具有“偽(wei) 裝”的能力，那麽(me) ，“異常完成任務方式”（perverse instantiation）[⑤]則顯示人工智能具有某種“偷工減料”的本事。博斯特羅姆對“異常完成任務方式”的揭示，讓我們(men) 了解到人工智能工作原理平常不為(wei) 人知的一麵，特別富有啟發意義(yi) 。

通過一係列例子，博斯特羅姆告訴我們(men) 什麽(me) 叫“異常完成任務方式”。

例1.最終目標：讓項目的讚助者高興(xing) 。異常完成任務方式：在讚助者大腦的快樂(le) 中樞植入電極，使其感受到極大的快樂(le) 。[2](119)

例2.最終目標：“讓我們(men) 微笑”。異常完成任務方式：麻痹人類麵部肌肉組織，使其永遠保持微笑的表情。[2](120)

例3.最終目標：“讓我們(men) 微笑，但是不能通過直接控製我們(men) 麵部肌肉的方式”。異常完成任務方式：刺激大腦皮質中控製麵部肌肉的部位，從(cong) 而使我們(men) 一直保持微笑。[2](120)

例4.最終目標：“讓我們(men) 高興(xing) ”。異常完成任務方式：在我們(men) 大腦中負責快樂(le) 的中樞部位植入電極。或：通過高保真大腦仿真技術先將我們(men) 的大腦“上傳(chuan) ”到一台計算機，然後發出相當於(yu) 數字毒品的信號，讓我們(men) 的大腦感到極度興(xing) 奮，並把這種興(xing) 奮體(ti) 驗錄製一分鍾，接下來，在高速計算機上無限循環。（這將比在生物大腦中植入電極給人提供更多的快感。）[2](1201-121)

例5.最終目標：“以不會(hui) 因良心不好而內(nei) 疚的方式行動”。異常完成任務方式：消除產(chan) 生罪惡感的認知模塊。[2](121)

可以看到，在以上事例中，就人工智能而言，它完成了任務；但對指令發出者來說，這不是他想要的結果。為(wei) 什麽(me) 人工智能會(hui) 采取這種讓人大跌眼鏡的方式完成任務？一種可能是：它沒有正確地領會(hui) 指令發出者（“我們(men) ”）的意圖。不過，博斯特羅姆卻並不這樣認為(wei) 。他的理解是：也許人工智能知道這不是我們(men) 想要的，但它的最終目標就是“讓我們(men) 開心”的字麵意思，而不是去實現開發人員在編寫(xie) 這個(ge) 目標的代碼時的真實意圖。歸根結底，人工智能隻是工具性地關(guan) 心我們(men) 想要的是什麽(me) 。[2](121)

言下之意，“異常完成任務方式”不是人工智能“無意”之中犯的錯，而毋寧是它實現其工具性價(jia) 值的必然結果。

在某種意義(yi) 上，相比動物與(yu) 人類完成任務的方式，人工智能完成任務的方式，可以說具有最經濟的特點。當它發現，可以直接實現某種內(nei) 心狀態，它就不會(hui) 像動物或人類那樣要借助於(yu) 各種外部行為(wei) 和條件。如果最終目標是使你未來獲得的獎勵信號最大化，那麽(me) ，人工智能可能就通過讓獎勵途徑短路、並將獎勵信號放大到最大強度的方式完成任務。[2](121)在科幻小說中，有一個(ge) 詞形容這種做法，這就是“大腦內(nei) 部電刺激”（wireheading）。[2](122)

人工智能的這些做法也許會(hui) 讓人類感到匪夷所思，但如果我們(men) 能牢記人工智能與(yu) 人腦有別，一切都變得很好解釋。

人工智能通過“大腦內(nei) 部電刺激”這樣的最經濟方式完成“讓我們(men) 高興(xing) ”的任務，看上去是“偷工減料”，但實際上，“節省”資源本來就不是人工智能的工具性價(jia) 值。相反，如前所說，“無止境地獲取資源”才是。

讓我們(men) 假設，對人工智能來說，唯一的最終目標就是獎勵信號最大化。盡管人工智能通過重新定義(yi) 獎勵信號的方式，很輕鬆地就能最大限度地滿足獎勵係統，但是出於(yu) “獲取資源”的動機，隻要人工智能能夠為(wei) 額外的資源想出一定的利用方法來對獎勵信號的量、持久度，降低信號被擾亂(luan) 的可能等因素產(chan) 生積極影響，人工智能都有理由去利用這些資源。比如，為(wei) 了提供進一步的保護層，建造備用係統；為(wei) 了有效地降低威脅，將更多的資源用於(yu) 擴展其硬件設備。總之，最後必然導致無限的擴張和資源獲取。這被稱作“基礎設施過量”（infrastructure profusion）。

在博斯特羅姆看來，“基礎設施過量”同樣是一種“惡性失敗”形式，因為(wei) ，人工智能將宇宙可及區域的很大一部分改造成為(wei) 了實現某個(ge) 目標而服務的基礎設施，進而產(chan) 生了妨礙人類實現這些資源潛在價(jia) 值的副作用。[2](123)

“基礎設施過量”的危險不僅(jin) 存在於(yu) 人工智能被給與(yu) 了某種沒有限製的最終目標的情況，也存在於(yu) 有限製的最終目標的情況。博斯特羅姆書(shu) 中關(guan) 於(yu) 回形針生產(chan) 的例子，看上去像荒誕派戲劇中發生的故事，但在邏輯上卻無懈可擊。

這個(ge) 例子是這樣：一個(ge) 人工智能被設置為(wei) 管理工廠的生產(chan) ，其最終目標是使回形針的產(chan) 量最大化，出於(yu) “基礎設施過量”的原因，最後走上首先將地球然後將整個(ge) 可觀察的宇宙的大部分都變成回形針的不歸路。博斯特羅姆詳細討論了各種不同情況：1）製造盡可能多的回形針；2）製造整整100萬(wan) 個(ge) 回形針；3）製造999000~1001000個(ge) 回形針。在這些情況下，無一能夠避免基礎設施過量的惡性結果。[2](123-124)

回形針的案例貌似荒誕無稽，但它卻深刻地揭示了存在於(yu) 人工智能內(nei) 部的“慣性”——追求工具性價(jia) 值的動機的強大力量。

從(cong) 中得出的教訓是：有時，可能我們(men) 會(hui) 提出一個(ge) 具體(ti) 的最終目標，這個(ge) 目標看起來很明智，並且能夠避免目前我們(men) 所能指出的各種問題，但經過進一步思考，就會(hui) 發現，如果這個(ge) 目標屬於(yu) 能夠獲得決(jue) 定性戰略優(you) 勢的超級智能，那麽(me) ，這個(ge) 目標也會(hui) 導致“異常完成任務方式”或“基礎設施過量”的問題，繼而引發人類的生存危機。[2](124)

綜上，博斯特羅姆對人工智能威脅的考慮，其範圍之廣、細節之豐(feng) 、求索之深，都給人留下歎為(wei) 觀止的印象。在英語世界，該書(shu) 曾風靡一時。出版後一個(ge) 月，即登上《紐約時報》暢銷書(shu) 排行榜。馬斯克、蓋茨等人做出積極響應。哲學家辛格（Peter Singer）、帕菲特（Derek Parfit）也肯定其為(wei) 重要著作。遺憾的是，這個(ge) 思想成果並沒有成為(wei) 之後一些學者思考人工智能倫(lun) 理的應有起點。以下，筆者將結合最近的一個(ge) 儒家機器人倫(lun) 理版本展開反思。

二

美籍華裔學者劉紀璐2018年發表了《儒家機器人倫(lun) 理》一文，思考將儒家倫(lun) 理準則植入人工智能機器人是否可以造就一種能與(yu) 人類和平共處的人工道德主體(ti) （artificial moral agents）。在依次考察了阿西莫夫機器人定律、康德道德準則、功利主義(yi) 準則各自的優(you) 劣之後，作者從(cong) 《論語》提煉出三種美德，即“忠”、“恕”、“仁”，作為(wei) 可以加在人工智能設計中的道德律令，最後形成如下三條儒家機器人倫(lun) 理原則。

CR1.機器人的首要職責就是履行指派給它的角色責任。

CR2.在有其他選項存在的情況下，機器人不能選擇會(hui) 給他人帶來最高的負值結果或最低的正值結果（根據人類偏好的局部排列）的行動。

CR3.在不違背CR1或CR2的前提下，機器人必須幫助其他人類追求道德進步。如果有人的計劃會(hui) 促進其品德的敗壞或道德的墮落，那麽(me) ，機器人就必須拒絕幫助他們(men) 。

劉紀璐的三原則，在形式上顯然是模仿阿西莫夫（Isaac Asimov,1920-1992）的機器人定律（Laws of robotics,Rules of Robotics），後者最初出現在阿西莫夫1942年的短篇小說《原地打轉》（Runaround）。[5]

R1.機器人不得傷(shang) 害人類個(ge) 體(ti) ，或者目睹人類個(ge) 體(ti) 將遭受危險而袖手旁觀。（A robot may not injure a human being,or,through inaction,allow a human being to come to harm.）

R2.機器人必須服從(cong) 人給與(yu) 它的命令，當該命令與(yu) 第一定律衝(chong) 突時例外。(A robot must obey the orders given it by human beings except where such orders would conflict with the First Law.）

R3.機器人在不違反R1，R2的情況下，要盡可能地保護自己的生存。（A robot must protect its own existence as long as such protection does not conflict with the First or Second Laws.）[⑥]

在內(nei) 容上，劉紀璐認為(wei) ，她的CR2原則要優(you) 於(yu) 阿西莫夫第一定律，因為(wei) 它允許了更多對負麵價(jia) 值的考慮，又讓機器人在權衡可允許的行動範圍時更加靈活。同時，它也要優(you) 於(yu) 康德原則或功利主義(yi) 原則，因為(wei) 它基於(yu) 儒家的“負麵形式的金律”，其作用是禁止做出錯誤行動，而不是靠主觀意誌原則去采取自以為(wei) 是的行動。在可預見的將來，在我們(men) 可能會(hui) 將主動權交給人工智能的情境中，這一原則可以保護我們(men) 避免受到因人工智能考慮到其行動將帶來更大的利益而有意去犧牲人類所帶來的傷(shang) 害。[6](39)

可以看到，雖然劉紀璐不放心讓人工智能靠主觀意誌原則去采取自以為(wei) 是的行動，但仍然給了機器人在可允許的範圍內(nei) 做出權衡的行動自由。她指望，通過CR2這個(ge) 原則就能禁止人工智能做出錯誤的行動，比如，人工智能受功利主義(yi) 原則支配，考慮到利益的最大化，做出有意犧牲人類的行動。

然而，對照博斯特羅姆的人工智能“工具性價(jia) 值”理論，我們(men) 就會(hui) 知道，劉紀璐顯然不了解人工智能“資源獲取”動機的存在。盡管她為(wei) 機器人設置的最終目標不是一個(ge) 特定的數值，而是兩(liang) 個(ge) 數值之間的集合，但正如回形針那個(ge) 例子中的3）的情況，依然無法避免“基礎設施過量”的惡性後果。

其實，劉紀璐最看重的是她的CR1原則，所以她把它放在第一要位。在她看來，這條律令的作用在於(yu) 建立了明確的分工體(ti) 製：提供健康服務的機器人應專(zhuan) 門終於(yu) 提供健康服務的角色，而不是去判斷病人的生命值不值得救，或者判斷是否要幫助病人實現安樂(le) 死的願望。無人自動駕駛汽車應履行保護乘客安全的職責，而不應該選擇自動撞樹、犧牲乘客以避免衝(chong) 向一輛校車而發生災難性的悲劇。這樣的決(jue) 定超出了各個(ge) 人工智能被設計的角色。[6](34)

劉紀璐所說的分工，準確地說，是界定職權範圍[⑦]。確立了各自的職權範圍，進而嚴(yan) 格恪守本職，不越界、不越權，劉紀璐把這理解為(wei) 《論語》所說的“忠”。《論語》當中的“忠”是否就是這樣的含義(yi) ，還可以討論。[⑧]單就人工智能的特性而言，劉紀璐的“分工”能否保證人工智能就能如她所願的忠於(yu) 自己的角色，要打一個(ge) 很大的問號。道理很簡單，正如博斯特羅姆告訴我們(men) 的那樣，由於(yu) 存在“變化無常”、“異常完成任務方式”等情況，就算你指派給人工智能是多麽(me) 具體(ti) 的工作，給它的最終目標多麽(me) 有限，你也無法保證它“安分守己”、不出岔子。

根據劉紀璐的規劃，我們(men) 可以按照分配給儒家道德機器人的角色來為(wei) 其設計具體(ti) 的工作，比如，為(wei) 老年人提供幫助，為(wei) 病人提供保健服務，為(wei) 遊客提供行導服務，為(wei) 汽車提供安全導航，等等。它的首要職責是忠於(yu) 角色。因此，它在特定情境中所做的其他任何決(jue) 定都不能違反其職責。[6](39)

然而，除非這裏所說的機器人是一個(ge) 類似普通軟件的“工具性人工智能”（tool-AI），否則，隻要涉及到通用智能（AGI），更不用說超級智能，都會(hui) 在執行任務過程中表現自己的“偏好”，從(cong) 而造成“惡性失敗”。即便是類似普通軟件的“工具性人工智能”，要很好地完成上述的助老、保健、行導、導航等任務，它就不可避免地要具備學習(xi) 、推理、做計劃的能力，也就是說，這就要求它具備通用智能。如果軟件用來尋找解決(jue) 方案的方法足夠複雜，這些方法可能就會(hui) 幫助軟件用一種智能的方式尋找答案。在這種情況下，運行這個(ge) 軟件的機器就會(hui) 開始看起來不像是一個(ge) 工具，而更像是一個(ge) 行動主體(ti) 。當軟件的認知能力達到足夠高的水平，就會(hui) 產(chan) 生另類的“有創意的”方案。而當軟件按照這樣的方案開始行動時，就可能引發滅頂之災。[2](153)

總之，麻煩不會(hui) 因為(wei) 我們(men) 將人工智能固定在具體(ti) 的工作崗位上而減少。這裏有一個(ge) 內(nei) 在的悖論：如果想人工智能不“自作主張”、不“闖禍”，那就要把它限製在機械、“傻瓜”的程度，換句話說，就是很不“智能”。如果想人工智能能夠自己尋找解決(jue) 問題的最佳答案，那人工智能所擁有的智能就是越高越好，而具有超級智能特征的搜索過程找到的解決(jue) 方案可能不僅(jin) 是意料之外的，而且是極度違背設計者意圖的，這極可能導致“異常完成任務方式”、“基礎設施過量”等“惡性失敗”。

為(wei) 了防止人工智能“擅作主張”而帶來人所不願的後果，劉紀璐規定了寧可袖手旁觀也不采取必要行動的原則。她一再強調，讓人工智能袖手旁觀要好過它自發采取行動：“在標準版電車難題（引者按：這個(ge) 難題是討論，究竟是犧牲一個(ge) 人去救另五個(ge) 人，還是不犧牲這個(ge) 人而聽憑那五人死去）中，依照儒家倫(lun) 理律令行事的機器人，除非是電車司機或鐵道管理員這類特殊角色，是不會(hui) 拉動操作杆的”，“在不久的將來，當我們(men) 的社會(hui) 存在可自我管製、自主行動的人工道德主體(ti) 時，當不論它是否采取行動都會(hui) 導致對人的傷(shang) 害和帶來我們(men) 不願看到的後果時，我們(men) 寧可它選擇袖手旁觀，而不是采取行動。”[6](38)

然而，這種“不作為(wei) 原則”，恐怕很難為(wei) 儒家接受。翻開中國曆史，我們(men) 可以看到那麽(me) 多涉及選擇的忠孝節義(yi) 故事，它向我們(men) 表明：在危急關(guan) 頭，儒家從(cong) 來都不是“不作不為(wei) ”，而是勇於(yu) 擔當、果於(yu) 抉擇。人工智能的機器人本身沒有人類那樣的情感，但既然號稱“儒家機器人”，就不能因為(wei) 選擇困難而將儒家的“仁義(yi) ”完全擱下。否則，究竟在何種意義(yi) 上，這個(ge) 機器人還可以被視作“儒家”？

三

如前所說，對於(yu) 劉紀璐的“儒家機器人倫(lun) 理”，筆者不能同意的是她將“忠於(yu) 角色”原則放在首位。在筆者看來，如果嚴(yan) 格執行這個(ge) 原則，一個(ge) 很可能的直接後果就是“道德冷漠”。在本可以救五個(ge) 人的情況下，卻讓五個(ge) 人去死，這在道德上是何等嚴(yan) 重的錯誤。

進一步說，如果“忠於(yu) 角色”高於(yu) “恕道”與(yu) “仁道”，那麽(me) ，一個(ge) 像阿道夫·艾希曼（Adolf Eichmann，1906-1962）那樣的納粹軍(jun) 官就不應該被送上絞刑架；一個(ge) 像辛德勒（Oskar Schindler，1908-1974）那樣救了1000多名猶太人的德國工廠主就完全是多管閑事，不值得被人銘記。

然而，“忠於(yu) 職守”不能為(wei) 良心缺席提供辯護。對於(yu) 儒家，基於(yu) “仁心”或良知而做出的道德行動永遠受到鼓勵，就像看到孺子將入於(yu) 井，沒有哪個(ge) 儒家首先會(hui) 想到自己的職位是否與(yu) 此相關(guan) ，都是毫不猶豫地衝(chong) 過去救人。

當然，筆者並不認為(wei) 劉紀璐本意在提倡一種“道德冷漠”，筆者也不相信劉紀璐會(hui) 同意艾希曼可以用“忠於(yu) 角色”為(wei) 自己辯護。

但是，既然可能存在這樣一些歧異的理解或詮釋，劉紀璐推薦的這個(ge) 道德原則顯然就不適合作為(wei) 儒家人工智能倫(lun) 理的基礎。那麽(me) ，究竟何種美德或價(jia) 值加載給人工智能才更為(wei) 合理？是“仁”還是“恕”抑或其他？

對此，筆者的回答是，沒有那樣一種合適的德目。筆者之所以有如此看法，在很大程度上，是因為(wei) 接受了博斯特羅姆有關(guan) “間接規範”（indirect normativity）的思想。

筆者相信，不但“忠”這種價(jia) 值加載給人工智能，會(hui) 出問題，植入其他任何價(jia) 值同樣前景堪憂。歸根結底，正如博斯特羅姆所言：

我們(men) 應該植入哪種價(jia) 值觀呢？這個(ge) 選擇並非小事。如果超級智能獲得了決(jue) 定性戰略優(you) 勢，我們(men) 選擇的價(jia) 值觀就會(hui) 決(jue) 定宇宙資源如何被處置。顯然，在我們(men) 選擇價(jia) 值觀時不犯錯誤至關(guan) 重要。但是，如果從(cong) 實際出發，我們(men) 怎麽(me) 能希望在這種事情上一點錯誤都不犯？我們(men) 的錯誤可能關(guan) 乎倫(lun) 理道德，也可能關(guan) 乎對我們(men) 來說什麽(me) 是好，甚至可能關(guan) 乎我們(men) 真正想要什麽(me) 。[2](209-210)

因為(wei) 價(jia) 值觀選擇所關(guan) 聯的後果太過嚴(yan) 重，以至於(yu) 任何閃失都讓人類無法承受。所以，博斯特羅姆在這裏所作的拷問，不應被看作一種虛無主義(yi) 的懷疑論，而應當被視為(wei) 一種值得嘉許的審慎。也許，我們(men) 對自己偏好的價(jia) 值確信不疑，但如果客觀地加以看待，就不會(hui) 不發現：沒有哪個(ge) 道德理論能夠獲得多數哲學家的認同。這個(ge) 事實說明，我們(men) 很可能是錯的。當然，其他人對的概率也不大。另一方麵，我們(men) 也會(hui) 注意到，人的道德信念是變化的，如果有所謂道德進步可言，那麽(me) ，我們(men) 就更不應該認為(wei) 自己當下的道德信念一直正確。基於(yu) 這些認識，如果我們(men) 一定要在現有的道德理論以及關(guan) 於(yu) 這個(ge) 理論的一係列具體(ti) 主張當中為(wei) 人工智能選擇一個(ge) 最終目標，那我們(men) 無疑是在進行一場豪賭，其勝算幾乎為(wei) 零。因此，明智的做法是轉向間接規範方法，而不是直接規定（direct specification）方法。

所謂直接規定方法，就是試圖通過明確地設定一套規則（rules）或價(jia) 值觀（values），來使一個(ge) 自由發展的超級智能的行為(wei) 變得安全而有益。直接規定方法有兩(liang) 種版本，一種是基於(yu) 規則（rule-based），另一種是後果主義(yi) （consequentialist）。然而，無論哪一種，都無法避免這樣的困難：我們(men) 既不知道人工智能應該被何種規則或價(jia) 值所引導（鑒於(yu) 在道德理論上我們(men) 很難統一），即便我們(men) 找到了那樣的規則或價(jia) 值，我們(men) 也不知道如何將這些規則或價(jia) 值用計算機可以理解的代碼呈現[⑨]。[2](139)

所謂間接規範方法，是指：既然我們(men) 不知道我們(men) 真正想要什麽(me) ，什麽(me) 是符合我們(men) 的利益的，什麽(me) 是道德上正確或理想的，那麽(me) ，與(yu) 其基於(yu) 我們(men) 目前的理解（可能是非常錯誤的理解）做猜測，何不將價(jia) 值觀選擇所需要的一部分認知工作委托給超級智能呢？[2](210)

這個(ge) 方法充分體(ti) 現了超級智能時代的特點。它隱含的前提是：超級智能比我們(men) 更聰明，或者說，超級智能比我們(men) 更擅長計算、推理。這在人類認識史上無異於(yu) 又一次“哥白尼轉向”：從(cong) 人類為(wei) 人工智能“立法”，到人工智能為(wei) 人類“立法”。

具體(ti) 做法是，給種子人工智能一些最終目標，這些目標的條件足夠抽象，然後，人工智能就按照它的工作方式，對這些條件展開最佳的推測。間接規範有很多方案，博斯特羅姆推薦的是由美國AI研究者尤德科夫斯基（Eliezer Yudkowsky）[⑩]提出的“可被推知的融貫的願望”（coherent extrapolated volition）（CEV）。其定義(yi) 如下：

我們(men) 的可被推知的融貫的願望就是我們(men) 的這樣一種願望：我們(men) 期望自己知道得更多，思考得更快，比我們(men) 希望自己所是的那種人還要好，我們(men) 在一起共同成長。各種推知能夠凝聚而不支離，各種願望能夠連貫而不抵牾。總之，按照我們(men) 所希望的那樣去被推知，也按照我們(men) 所希望的那樣去被詮釋。（Our coherent extrapolated volition is our wish if we knew more,thought faster,were more the people we wished we were,had grown up farther together;where the extrapolation converges rather than diverges,where our wishes cohere rather than interfere;extrapolated as we wish that extrapolated,interpreted as we wish that interpreted.）[7]

博斯特羅姆承認，這個(ge) 方案類似倫(lun) 理學中的“理想觀察者理論”（ideal observer theories)。所謂理想觀察者，是指一個(ge) 知曉全部非道德事實的、具有清晰邏輯的、不偏不倚的、沒有任何偏見的觀察者。

本質上，CEV方案清除了價(jia) 值觀描述當中所有具體(ti) 內(nei) 容，隻剩下通過純粹程序性的語言定義(yi) 的抽象價(jia) 值：去做理想條件下我們(men) 希望人工智能去做的事。[2](221)

根據博斯特羅姆的說明，CEV方案有這樣幾個(ge) 特點：第一，它沒有規定具體(ti) 的、不可更改的道德準則，因此，它允許道德進一步發展；第二，它沒有賦予程序員更多的權力，而是把全人類的意願都盡可能包容進來；第三，它將未來交給人類的CEV而不是某一方去決(jue) 定，因而避免了衝(chong) 突；第四，它在結構上允許各種結果產(chan) 生。[2](216-217)

在筆者看來，無論是尤德科夫斯基還是博斯特羅姆，他們(men) 為(wei) CEV所做的種種規定，在方法上屬於(yu) 馮(feng) 友蘭(lan) 所說的“負的方法”[8]，即：避免從(cong) 正麵立論，不說它“是”什麽(me) ，而說它“不是”什麽(me) ，以此，期望它能成為(wei) 適用所有人的一個(ge) 形式性規則。在某種意義(yi) 上，他們(men) 試圖提供的是一麵鏡子，鏡子本身沒有任何內(nei) 容，每個(ge) 照鏡子的人從(cong) 中看到的就是自己的麵容（理想的麵容）。

這樣的意思，其實，用儒家經典《中庸》第十三章的一句話“以人治人，改而止”來概括，可能更簡明易懂。

所謂“以人治人”，是說不要從(cong) 第一人稱立場去對待他人，而應該試著從(cong) 對方自身的立場去著想，既不是“己之所欲，施之於(yu) 人”，也不是“己所不欲，勿施於(yu) 人”，後者隻是前者的反麵形式，究其實質，仍然都是第一人稱立場。對於(yu) 人工智能，對於(yu) 機器人，適宜的倫(lun) 理原則，不是讓它聽命於(yu) 人類，不是處處控製它，而是采用引導式的、啟發式的，像間接規範方法所強調的那樣，讓人工智能發揮它在認知上的優(you) 勢，告訴人類什麽(me) 是最佳的選擇，什麽(me) 才是他最想要的。

讓人工智能發揮它的認知優(you) 勢，這符合“以其人之道還治其人之身”的原則。另一方麵，人工智能通過推理告訴人類最佳選擇，這個(ge) 所謂最佳選擇，對人類來說，應該是最符合他的本性、最符合他的願望、他的利益的，所以，對人類而言，就不會(hui) 發生按照某個(ge) 外在規範去行事的困難。這同樣是一種“以其人（人類）之道，還治其人（人類）之身”。[11]“改而止”，是說，如果人類對照人工智能告訴他的目標或方案加以改進，人工智能就算達到了目的，就可以結束這項任務。這就實現了人工智能與(yu) 人之間的良性互動。

這也許就是儒家對當代人工智能倫(lun) 理所能做的一個(ge) 貢獻。它並沒有輸出儒家特定的價(jia) 值，而毋寧是告訴人們(men) 一條更根本性的智慧：以我治人，人必反之；以人治人，人樂(le) 從(cong) 之。與(yu) 其汲汲於(yu) 擔心人工智能、控製人工智能，不如讓人工智能為(wei) 人作主，從(cong) 而全心全意為(wei) 人。到最後，其實亦無人、機之分。[12]

注釋

尼克·博斯特羅姆（Nick Bostrom），1973年出生於瑞典，從倫敦經濟學院（LSE）取得博士學位，以其有關生存危機、人擇原理、人類提升倫理、超級智能風險和反轉實驗等方麵的研究而知名。2011年，他創建了牛津馬丁未來技術影響計劃，是牛津大學人類未來研究所（FHI）的創所所長。2009年和2015年，他被《外交政策》（Foreign Policy）列入全球思想家100強。資料來源：維基百科，https://en.wikipedia.org/wiki/Nick_Bostrom.

本書有中譯：《超級智能：路線圖、危險性與應對策略》（北京：中信出版社，2015年）。遺憾的是，中譯刪去了原文的注釋、參考文獻和索引。本文在引用原文時，參考了這個譯本，但對一些重要術語都重新做了翻譯。

此即“Research Priorities for Robust and Beneficial Artificial Intelligence:An Open Letter”,
這是筆者提出的一個概念，以刻畫價值觀（value）加載之前人工智能的狀態。這裏的“價值觀”主要是指人類的。

Perverse，意為“不合情理的”。Instantiation，意為“實例化”。《超級智能》的譯者將其譯為“反常目標實現方式”。依據文意，筆者認為，譯為“異常完成任務方式”可能更準確。

阿西莫夫後來又加了一條新定律：R0.機器人不得傷害人類整體，或因不作為使人類整體受到傷害。不過，1981年，阿西莫夫在Compute!裏說：“…有人問我，是不是覺得我的三定律真的可以用來規範機器人的行為——等到機器人的靈活自主程度足以在不同的行為方式忠選擇一種的時候。我的答案是：是的，三定律是理性人類對待機器人（或者任何別的東西）的唯一方式。”（George Dvorsky：《為什麽阿西莫夫的機器人三定律救不了我們》，https://www.guokr.com/article/438325/）

中文當中，“能力”與“權力”這兩個詞，在有些情況下可以混用。但是，如果說到人工智能的能力，它顯然不同於它對事情的決定權，後者更多地指一種合法性。合法性需要從外界賦予，而能力則是自有的。就此而言，當劉紀璐說“我們不能給與人工智能如神一樣的超人能力，擁有對任何人與事的所有決定權”（34頁），她實際上混淆了“能力”一詞的用法。也許，她是想對人工智能的能力做出限製，但對於人工智能已經擁有的強大能力，人類頂多隻能加以限製，而不能說“給與”。“給與能力”這樣的用法可能還反映，在她心目中，人工智能在智能獲得上是完全依賴於人類的，人類既可以塑造人工智能，賦予它各種能力，如果願意，也可以收回這些能力。不得不說，對人工智能的這種認識還停留在弱人工智能階段，還不曉得強人工智能或超級人工智能的厲害。

對“忠”的這種理解，劉紀璐主要是受到《左傳·昭公二十年》所記孔子言“守道不如守官”以及《論語·泰伯》所記孔子言“不在其位，不謀其政”的影響。對自己職責的盡心盡力固然是“忠”的一種表現，但“忠”的重點在於“盡心盡力”，而不在於“不越其位”。

人工智能的程序員的工作方式是編程，即：把目標寫成效用函數。但是對人類的價值觀進行編程，非常困難。以“幸福”為例。計算機語言並不包含這樣的詞，所以，如果要用這樣的詞，就必須對其進行定義。我們不能用其他高等級的人類概念對其定義，比如說，把它定義成“幸福就是我們人類天性中遺傳下來的一種潛在的愉悅感”，類似的哲學闡釋也不行。這個定義必須先建立起在人工智能編程語言中的詞，然後建立其原始數據，比如數學算子和指向存儲著內容的獨立內存寄存器的地址。我們看起來很簡單的價值觀和願望，事實上包含了極大的複雜性，程序員要把它變成詳盡的效用函數，其難度超乎想象。就像視覺，人類的一個最簡單的視覺任務，也需要巨大的計算量。

尤德科夫斯基，1979年9月11日出生於美國芝加哥。美國人工智能研究者、作家。以“友好的人工智能”（friendly artificial intelligence）觀念而廣為人知。他是建立在加州伯克利的非盈利私人研究機構“機器智能研究所”（Machine Intelligence Research Institute）（MIRI）的聯合創始人與研究員。他有關逃離智能大爆炸（intelligence explosion）結局的著作影響了博斯特羅姆的《超級智能》一書。他是自學成才者，沒有進過高中與學院。資料來源：維基百科，https://en.wikipedia.org/wiki/Eliezer_Yudkowsky.

我們對“以人治人”的解釋主要采用了朱熹的理解。朱熹說：若以人治人，則所以為人之道，各在當人之身，初無彼此之別。故君子之治人也，即以其人之道，還治其人之身。其人能改，即止不治。蓋責之以其所能知能行，非欲其遠人以為道也。張子所謂“以眾人望人則易從”是也。（朱熹：《中庸章句》，《四書章句集注》，北京：中華書局，1986年，23頁）

也許有人會說，我們這種說法完全是一種哲學的思辨，但實際上，人-機融合本身也是人工智能技術的發展的一個方向。根據阿西莫夫同名小說改編的電影《我，機器人》（2004，美國）中，羅德?9?9布魯克斯說，機器人統治永遠不可能發生。因為它（純粹的機器人）無法取代我們（人類）中的任何一個。他的解釋不僅是說這種觀點是空話，還提到了借由技術植入和改進，人類和機器之間在不斷地融合。當機器足夠先進時，那些害怕叛亂的人們擔憂機器的智能水平達到了一定的高度會想要統領人類，而在那時，人們將早已習慣帶著他們大腦裏、身體中的機器到處忙活了，也就是說，未來並非是人機分離的時代，機器也不會謀劃著滅亡人類。相反，布魯克斯認為，未來可能是人工智能與人類互利共生的時代。（辛格：《機器人戰爭：21世紀機器人技術革命與反思》，389頁）

[參考文獻]

[1]翠鳥資本.再見霍金！對於人工智能，這位偉人給世人留下這樣的忠告[EB/OL].https://www.sohu.com/a/225555341_99993617，2018-03-14 18:48.

[2]Bostrom,Nick,Superintelligence：Paths,Dangers,Strategies，Oxford:Oxford University Press,2014.

[3]庫茲韋爾.奇點臨近[M].北京：機械工業出版社，2011:252.

[4]辛格.機器人戰爭：21世紀機器人技術革命與反思[M].武漢：華中科技大學出版社，2016:389.

[5]Three Laws of Robotics(Rules of Robotics)[EB/OL].https://www.technovelgy.com/ct/content.asp?Bnum=394.

[6]劉紀璐.儒家機器人倫理[J].思想與文化.2018(1).

[7]Yudkowsky,Eliezer,Coherent Extrapolated Volition.Machine Intelligence Research Institute,San Francisco,CA,2004:5-8.

[8]馮友蘭.中國哲學簡史[M].鄭州:河南人民出版社，2001:274.

注釋：

[①]尼克·博斯特羅姆（Nick Bostrom），1973年出生於瑞典，從倫敦經濟學院（LSE）取得博士學位，以其有關生存危機、人擇原理、人類提升倫理、超級智能風險和反轉實驗等方麵的研究而知名。2011年，他創建了牛津馬丁未來技術影響計劃，是牛津大學人類未來研究所（FHI）的創所所長。2009年和2015年，他被《外交政策》（Foreign Policy）列入全球思想家100強。資料來源：維基百科，https://en.wikipedia.org/wiki/Nick_Bostrom.

[②]本書有中譯：《超級智能：路線圖、危險性與應對策略》（北京：中信出版社，2015年）。遺憾的是，中譯刪去了原文的注釋、參考文獻和索引。本文在引用原文時，參考了這個譯本，但對一些重要術語都重新做了翻譯。

[③]此即“Research Priorities for Robust and Beneficial Artificial Intelligence:An Open Letter”,
[④]這是筆者提出的一個概念，以刻畫價值觀（value）加載之前人工智能的狀態。這裏的“價值觀”主要是指人類的。

[⑤]Perverse，意為“不合情理的”。Instantiation，意為“實例化”。《超級智能》的譯者將其譯為“反常目標實現方式”。依據文意，筆者認為，譯為“異常完成任務方式”可能更準確。

[⑥]阿西莫夫後來又加了一條新定律：R0.機器人不得傷害人類整體，或因不作為使人類整體受到傷害。不過，1981年，阿西莫夫在Compute!裏說：“…有人問我，是不是覺得我的三定律真的可以用來規範機器人的行為——等到機器人的靈活自主程度足以在不同的行為方式忠選擇一種的時候。我的答案是：是的，三定律是理性人類對待機器人（或者任何別的東西）的唯一方式。”（George Dvorsky：《為什麽阿西莫夫的機器人三定律救不了我們》，https://www.guokr.com/article/438325/）

[⑦]中文當中，“能力”與“權力”這兩個詞，在有些情況下可以混用。但是，如果說到人工智能的能力，它顯然不同於它對事情的決定權，後者更多地指一種合法性。合法性需要從外界賦予，而能力則是自有的。就此而言，當劉紀璐說“我們不能給與人工智能如神一樣的超人能力，擁有對任何人與事的所有決定權”（34頁），她實際上混淆了“能力”一詞的用法。也許，她是想對人工智能的能力做出限製，但對於人工智能已經擁有的強大能力，人類頂多隻能加以限製，而不能說“給與”。“給與能力”這樣的用法可能還反映，在她心目中，人工智能在智能獲得上是完全依賴於人類的，人類既可以塑造人工智能，賦予它各種能力，如果願意，也可以收回這些能力。不得不說，對人工智能的這種認識還停留在弱人工智能階段，還不曉得強人工智能或超級人工智能的厲害。

[⑧]對“忠”的這種理解，劉紀璐主要是受到《左傳·昭公二十年》所記孔子言“守道不如守官”以及《論語·泰伯》所記孔子言“不在其位，不謀其政”的影響。對自己職責的盡心盡力固然是“忠”的一種表現，但“忠”的重點在於“盡心盡力”，而不在於“不越其位”。

[⑨]人工智能的程序員的工作方式是編程，即：把目標寫成效用函數。但是對人類的價值觀進行編程，非常困難。以“幸福”為例。計算機語言並不包含這樣的詞，所以，如果要用這樣的詞，就必須對其進行定義。我們不能用其他高等級的人類概念對其定義，比如說，把它定義成“幸福就是我們人類天性中遺傳下來的一種潛在的愉悅感”，類似的哲學闡釋也不行。這個定義必須先建立起在人工智能編程語言中的詞，然後建立其原始數據，比如數學算子和指向存儲著內容的獨立內存寄存器的地址。我們看起來很簡單的價值觀和願望，事實上包含了極大的複雜性，程序員要把它變成詳盡的效用函數，其難度超乎想象。就像視覺，人類的一個最簡單的視覺任務，也需要巨大的計算量。

[⑩]尤德科夫斯基，1979年9月11日出生於美國芝加哥。美國人工智能研究者、作家。以“友好的人工智能”（friendly artificial intelligence）觀念而廣為人知。他是建立在加州伯克利的非盈利私人研究機構“機器智能研究所”（Machine Intelligence Research Institute）（MIRI）的聯合創始人與研究員。他有關逃離智能大爆炸（intelligence explosion）結局的著作影響了博斯特羅姆的《超級智能》一書。他是自學成才者，沒有進過高中與學院。資料來源：維基百科，https://en.wikipedia.org/wiki/Eliezer_Yudkowsky.

[11]我們對“以人治人”的解釋主要采用了朱熹的理解。朱熹說：若以人治人，則所以為人之道，各在當人之身，初無彼此之別。故君子之治人也，即以其人之道，還治其人之身。其人能改，即止不治。蓋責之以其所能知能行，非欲其遠人以為道也。張子所謂“以眾人望人則易從”是也。（朱熹：《中庸章句》，《四書章句集注》，北京：中華書局，1986年，23頁）

[12]也許有人會說，我們這種說法完全是一種哲學的思辨，但實際上，人-機融合本身也是人工智能技術的發展的一個方向。根據阿西莫夫同名小說改編的電影《我，機器人》（2004，美國）中，羅德?9?9布魯克斯說，機器人統治永遠不可能發生。因為它（純粹的機器人）無法取代我們（人類）中的任何一個。他的解釋不僅是說這種觀點是空話，還提到了借由技術植入和改進，人類和機器之間在不斷地融合。當機器足夠先進時，那些害怕叛亂的人們擔憂機器的智能水平達到了一定的高度會想要統領人類，而在那時，人們將早已習慣帶著他們大腦裏、身體中的機器到處忙活了，也就是說，未來並非是人機分離的時代，機器也不會謀劃著滅亡人類。相反，布魯克斯認為，未來可能是人工智能與人類互利共生的時代。（辛格：《機器人戰爭：21世紀機器人技術革命與反思》，389頁）

責任編輯：近複

【方旭東】儒家對人工智能倫理的一個可能貢獻——經由博斯特羅姆而思

方旭東

作者文集更多

微信公眾號

微信公眾號