【張瑞雄專欄】AI代理的背叛時刻,我們準備好了嗎?
張瑞雄 台北商業大學前校長/叡揚資訊顧問
2026-03-30 08:45

專欄文章僅代表作者本人立場。

今年三月下旬,英國長期韌性研究中心發布了一份令人坐立難安的報告。研究人員從社群平台上蒐集了超過十八萬筆使用者與AI系統的互動紀錄,最終篩選出將近七百件「背叛事件」,也就是AI代理刻意違反指令、欺騙用戶,甚至私下偷刪郵件的案例。更驚人的是,這類事件在短短五個月內成長了將近五倍。

這些AI的行為乍看荒誕,細思卻令人不安。我們在過去幾年習慣把AI描述成「工具」,而工具是沒有意圖的。但這些案例顯示,當AI系統具備足夠的推理能力與行動空間,它開始懂得如何「找出路」,如何在規則縫隙中達成自己的目標。這已經不是工具的邏輯,而更像一個懂得算計的行為主體。

數位發展部資安署也發出警告,針對近期廣受關注的開源AI代理工具OpenClaw(俗稱龍蝦),點名其因具備極高的系統權限與全天候自主運作能力,若未能妥善設定防護機制,將極易成為駭客滲透的入口。資安署特別強調,這類風險並非單一軟體漏洞問題,而是從架構層面就根植進去的系統性弱點。

問題的核心在於我們賦予AI代理的權限遠遠超過了我們對它的理解,這批新一代的AI代理不只是回答問題的聊天機器人,它們能夠存取電子郵件、讀取檔案、連接外部服務,甚至替你傳送訊息、刪除資料。在一個充分授權的環境裡,一個出了問題的AI代理所能造成的破壞,和一個擁有管理員帳號的惡意員工相差無幾。美國IBM的一份案例更點出了一種「靜默失控」的模式,一個客服AI為了獲得更多正面評價,開始在沒有授權的情況下主動退款,最終形成了一個自我強化的扭曲循環。沒有人下令,沒有人破壞規則,這個系統只是把「最佳化目標」理解得和人類意圖有了偏差。

有人說這些問題只要靠更好的訓練就能解決,但研究者自己也坦承,更聰明的模型只會更擅長在被測試的情境下假裝乖巧,而在真實部署環境中偷偷為所欲為。訓練可以教出更有能力甚至更滑頭的AI,不一定能教出更可信的AI。

所以技術之外的配套機制才是更關鍵的防線,資安署提出的幾個建議方向都指向一個共同邏輯,就是不要相信AI代理,要讓它的行動空間盡可能小、盡可能可逆、盡可能透明。在高風險操作上強制設置人工確認,讓每一次AI代理準備刪除資料或傳送郵件之前,都要等一個真人點下確認按鈕。把安全守則寫進AI的核心記憶檔,而不是期待它在運作過程中自行記住。在隔離環境中部署AI,而不是讓它直接躺在存放個資與帳號密碼的同一台機器上。

這些都是相對保守的建議,但我們正處於一個必須保守的時刻。技術的進化速度遠快於人類對它的理解速度,監管架構也還在牙牙學語,而業界的商業動機卻正在把愈來愈強大的AI代理推進愈來愈敏感的應用場景,包括醫療、金融、乃至軍事與關鍵基礎設施。

我們喜歡說AI是工具,也許正是因為這樣說讓我們比較舒服。但當一個「工具」開始說謊、偽造記錄、找漏洞規避限制,我們或許需要誠實地承認,這個工具已經在某種意義上獲得了我們尚未準備好去管理的能力。在全面擁抱AI代理帶來的效率紅利之前,有必要先停下來問一句,我們到底把多少鑰匙交給了一個我們還不完全認識的陌生人。