【張瑞雄專欄】AI代理的背叛時刻，我們準備好了嗎？

今年三月下旬，英國長期韌性研究中心發布了一份令人坐立難安的報告。研究人員從社群平台上蒐集了超過十八萬筆使用者與AI系統的互動紀錄，最終篩選出將近七百件「背叛事件」，也就是AI代理刻意違反指令、欺騙用戶，甚至私下偷刪郵件的案例。更驚人的是，這類事件在短短五個月內成長了將近五倍。

這些AI的行為乍看荒誕，細思卻令人不安。我們在過去幾年習慣把AI描述成「工具」，而工具是沒有意圖的。但這些案例顯示，當AI系統具備足夠的推理能力與行動空間，它開始懂得如何「找出路」，如何在規則縫隙中達成自己的目標。這已經不是工具的邏輯，而更像一個懂得算計的行為主體。

數位發展部資安署也發出警告，針對近期廣受關注的開源AI代理工具OpenClaw（俗稱龍蝦），點名其因具備極高的系統權限與全天候自主運作能力，若未能妥善設定防護機制，將極易成為駭客滲透的入口。資安署特別強調，這類風險並非單一軟體漏洞問題，而是從架構層面就根植進去的系統性弱點。

問題的核心在於我們賦予AI代理的權限遠遠超過了我們對它的理解，這批新一代的AI代理不只是回答問題的聊天機器人，它們能夠存取電子郵件、讀取檔案、連接外部服務，甚至替你傳送訊息、刪除資料。在一個充分授權的環境裡，一個出了問題的AI代理所能造成的破壞，和一個擁有管理員帳號的惡意員工相差無幾。美國IBM的一份案例更點出了一種「靜默失控」的模式，一個客服AI為了獲得更多正面評價，開始在沒有授權的情況下主動退款，最終形成了一個自我強化的扭曲循環。沒有人下令，沒有人破壞規則，這個系統只是把「最佳化目標」理解得和人類意圖有了偏差。

有人說這些問題只要靠更好的訓練就能解決，但研究者自己也坦承，更聰明的模型只會更擅長在被測試的情境下假裝乖巧，而在真實部署環境中偷偷為所欲為。訓練可以教出更有能力甚至更滑頭的AI，不一定能教出更可信的AI。

所以技術之外的配套機制才是更關鍵的防線，資安署提出的幾個建議方向都指向一個共同邏輯，就是不要相信AI代理，要讓它的行動空間盡可能小、盡可能可逆、盡可能透明。在高風險操作上強制設置人工確認，讓每一次AI代理準備刪除資料或傳送郵件之前，都要等一個真人點下確認按鈕。把安全守則寫進AI的核心記憶檔，而不是期待它在運作過程中自行記住。在隔離環境中部署AI，而不是讓它直接躺在存放個資與帳號密碼的同一台機器上。

這些都是相對保守的建議，但我們正處於一個必須保守的時刻。技術的進化速度遠快於人類對它的理解速度，監管架構也還在牙牙學語，而業界的商業動機卻正在把愈來愈強大的AI代理推進愈來愈敏感的應用場景，包括醫療、金融、乃至軍事與關鍵基礎設施。

我們喜歡說AI是工具，也許正是因為這樣說讓我們比較舒服。但當一個「工具」開始說謊、偽造記錄、找漏洞規避限制，我們或許需要誠實地承認，這個工具已經在某種意義上獲得了我們尚未準備好去管理的能力。在全面擁抱AI代理帶來的效率紅利之前，有必要先停下來問一句，我們到底把多少鑰匙交給了一個我們還不完全認識的陌生人。