(取自Cohere X)
Aidan Gomez的個人經歷與Cohere的創立
Sarah:今天我們很高興邀請到Aiden Gomez,Cohere公司的CEO。Cohere是一家2024年估值超過50億美元的公司,提供基於AI的語言模型和企業解決方案,Aiden在2019年創立了Cohere公司,在此之前,他曾在Google Brain實習,並且是2017年具有里程碑意義的論文《Attention Is All You Need》的共同作者。
Aidan Gomez:很高興來到這裡!
Sarah:也許我們可以從你的個人背景聊聊。你是如何從在加拿大長大,到後來參與撰寫全球最重要的技術論文之一的呢?
Aidan Gomez:很多都是運氣和機緣巧合。其實我恰好在Geoffrey Hinton教授教學的多倫多大學,他簡直是個傳奇。幾乎所有在那裡的電腦科學專業的學生都希望能進入AI領域。所以在某種意義上,我覺得自己是被AI「培養」起來的,一畢業就進入了一個真正看見未來並且想要去創造的環境。從那裡開始,都是一連串的幸運偶然。
我設法在Google Brain拿到了一個實習機會,跟Lukasz Kaiser一起工作。後來我才知道,那份實習本來是只面向博士生的。當時他們為我這個實習生舉辦告別派對,Lukasz問我:「Aiden,你還有幾年博士課程要修?」我回答說:「我要回去讀大三。」他一愣,說:「我們不招本科生的實習生。」所以,我覺得這一切都是非常幸運的錯誤,最終才讓我進入了那個團隊。
Sarah:那是什麼讓你決定創辦Cohere的呢?
Aidan Gomez:實際上我在不同地方工作過,我在山景城和Transformer團隊一起工作,然後回到多倫多大學,開始和Hinton教授一起工作,之後又去了柏林,開始和Jakob(另一個Transformer論文的作者)合作,接著在倫敦開始了我的博士研究。
同時,我也在遠程參與Pathways項目,這是一個比超級電腦還要龐大的訓練平台,這個項目的想法是將多個超級電腦連接起來,創造一個新的、更大的運算單元用來訓練模型。那時GPT-2剛剛發表,我們很清楚技術的發展軌跡,這樣的模型表面上是互聯網或網頁的模型,但肯定會帶來一些非常有趣的東西。於是我打電話給Nick和其他的朋友們,我說「我們應該弄清楚怎麼打造這些東西」。
Cohere的使命與企業市場的應用
Sarah:你能簡單地描述一下Cohere的使命是什麼嗎?然後再講講你們的模型和產品吧!
Aidan Gomez:我們的使命是通過幫助其他組織採用技術,使他們的員工更高效,或者轉型他們的產品和服務,從而創造價值。所以我們非常專注於企業市場,我們不會做ChatGPT的競爭對手,而是想要打造的是一個平台和一系列產品,幫助企業採納這項技術,並將其變得有價值。
Sarah:你認為Cohere的成功在多大程度上依賴於核心模型,或者說在平台建設和市場推廣方面的投資有多重要?
Aidan Gomez:兩者都很重要。首先模型是基礎,如果一個模型無法滿足客戶的需求,那麼就沒有後續的一切。所以,模型至關重要,它是公司核心,但在企業領域,客戶支持、可靠性、安全性這些也都是關鍵。因此,我們在這兩個方面都做了大量投資。
在過去的18個月裡,隨著越來越多的企業開始使用我們的模型,我們會觀察企業想要實現的目標,也看到了他們常犯的錯誤。這些經驗很有幫助,儘管有時候也令人沮喪,看著同樣的錯誤一遍遍發生。但有一個巨大的機會可以幫助企業避免這些錯誤,並讓他們一開始就能夠正確實施。所以,這就是我們正在努力的方向。
Sarah:請更具體一些,比如,哪些錯誤最讓你感到沮喪?你們的產品如何能解決這些問題?
Aidan Gomez:首先是企業常犯的錯誤。所有語言模型都對prompt非常敏感,即數據呈現的方式。每個模型都有自己獨特的特點,你和一個模型的對話方式,可能不適用於另一個模型。
所以當建構一個帶有外部數據庫的RAG(檢索增強生成)系統時,如何將檢索到的結果呈現給模型非常重要,數據在數據庫中的存儲方式也很關鍵,格式也很重要,這些細節往往被人忽視。很多人高估了模型的能力,認為它們像人類一樣智能,這導致了很多失敗。人們嘗試實現RAG系統,卻不瞭解如何正確實現其中的獨特細節,最終失敗。
我們的產品有兩種策略。一是讓模型更加穩健,模型應該適應不同的數據呈現方式。二是更加結構化地給用戶交付,而不只是一個模型。比如,創建更嚴謹的API,明確規定如何使用模型,像這樣的設計可以減少失敗的可能性,讓這些系統對用戶來說更加可用。
Sarah:能給我們一些關於企業中用例的概述嗎?
Aidan Gomez:這個應用非常廣泛,幾乎涵蓋了所有產業,常見的用例之一是問答系統,比如與文檔互動。
例如,如果你有一家製造公司,你可能想為工程師或在生產線上的員工建立一個問答機器人,整合各種工具手冊、診斷手冊、零件手冊等,讓工人與機器人聊天來獲取資訊,而不是翻開成千上萬頁的書籍去找答案。類似的,企業也會為普通員工建立問答機器人,整合IT常見問題、HR文檔、公司相關資訊,提供一個集中式的聊天介面,讓員工可以快速獲取答案。
除此之外,一個很好的例子是醫療產業。醫療公司通常有患者的長期健康記錄,這些記錄包括患者與醫療系統的所有互動,從去藥店到不同的科室檢查、醫生就診,甚至跨越數十年,這是一個龐大的醫療歷史記錄。通常,當患者打電話預約時,他們會告訴接待員:「我的膝蓋痛,需要預約。」醫生則需要翻閱過去的病歷,看看之前是否有類似的記錄,可能會遺漏一些兩年前的情況,因為他們只有15分鐘的時間來審閱病歷。
但我們可以做的是,將整個病歷和患者這次就診的原因一起輸入系統,根據上下文生成一個簡要彙報,這樣不僅可以顯著加快醫生審閱的速度,而且能捕捉到醫生在短時間內無法發現的關鍵資訊。醫生在每次會診前不可能翻閱20年的病歷,但模型可以做到,而且能在不到一秒鐘內完成這一過程。
Sarah:你是如何看待企業最終的狀態呢?當然沒有真正的「終點狀態」,你認為一個穩定的平衡狀態是什麼?即企業如何在專門的AI驅動應用提供商與內部建構的基於AI平台和API的訂製應用程式之間進行選擇?
Aidan Gomez:最終會是一個混合模式。你可以將它想像成一個金字塔,金字塔的底部是每個組織都需要的東西,就像一個通用的聊天機器人為每個員工回答問題。然後隨著金字塔向上,內容會越來越專門化,針對的是公司本身或者它所處行業的特定產品或服務,隨著你向上推,這些需求就越不可能找到現成的解決方案來解決。所以,最終還是得自己建構,我們鼓勵組織採取一個涵蓋整個金字塔的策略。
比如我們曾與一家保險公司合作,他們專注於大型工業開發項目,但是我發現我對這個領域一無所知。事實上,他們的工作是,當礦業公司或其他項目發佈一個投標請求(RFP)時,保險公司會派精算師參與這個RFP,進行大量的研究,瞭解該地區的土地、潛在風險等,然後這變成了一個「競速」,誰先響應就更有可能中標。
所以,關鍵是時間,這些精算師多快能提出一個經過充分研究的提案?於是我們和他們合作,建構了一個類似研究助理的工具,將精算師常用的所有知識來源,通過RAG整合進去,最終給他們提供了一個聊天機器人。這大大加速了他們響應RFP的速度,幫他們贏得了更多的投標,推動了他們的業務成長。
我們建構的是橫向技術,像是一個CPU,你無法知道所有應用場景,因為它的應用非常廣泛,實際上能夠真正提供深刻洞察和競爭優勢的關鍵,是傾聽客戶,瞭解他們需要什麼、什麼能讓他們領先。所以,我們很多工作就是成為他們的思維夥伴,幫助他們集思廣益,提出對他們戰略性有幫助的項目和創意。
Sarah:普遍來講,你認為企業採用你們公司的技術的最大障礙是什麼?
Aidan Gomez:最大的障礙是信任,尤其是在金融等受監管產業中,安全性是一個大問題。醫療數據通常不會儲存在雲端,或者即便在雲端,也不能離開他們的VPC(虛擬私有雲端)。因此,數據的管理非常嚴格,極其敏感。而Cohere的獨特優勢在於,我們沒有將自己鎖定在某一生態系統中,而是可以靈活地部署到本地,如果客戶需要,可以部署在VPC內外。無論客戶需求如何,我們都能觸及更多數據(甚至是最敏感的數據),並提供更有價值的解決方案。所以,安全性和隱私保護可能是最大的問題。
除此之外,還有知識的差距。建構這些系統的知識是新的,因為即便是最有經驗的人,也不過有幾年經驗,但這是一個時間問題,最終開發人員會越來越熟悉如何使用這些技術,這可能還需要兩到三年時間,才能真正普及開來。
Sarah:企業技術也會經歷傳統的「炒作週期」嗎?對於大多數技術來說,通常會經歷一個「失望低谷」的階段,人們對某項技術充滿期待,但最終發現它比預期更難應用,或者成本更高。那麼,AI是否也會經歷這樣的過程呢?
Aidan Gomez:是的,確實會看到一些這樣的現象。但老實說,核心技術仍在穩定地進步,每隔幾個月就有新的應用被解鎖,所以我們還沒有進入那個「失望低谷」,我們還處於非常早期的階段,即使我們今天沒有訓練出任何新的語言模型,依然有大量的企業「復興」工作要做。
曾經有人質疑,「是不是炒作過度?這項技術真的有用嗎?」但現在它已經進入了幾億人的手中,已經在生產環境中應用,並且正在把這些技術交付給世界,價值已經非常明確。
Sarah:在我們談論模型和專業化時,你有沒有為客戶提供在內部使用的一些框架,幫助他們決定應該投資哪種版本的技術?比如,我們有預訓練、後訓練、微調、檢索等傳統方式,如何告訴客戶如何理解並專業化應用這些技術?
Aidan Gomez:這取決於應用場景。例如,我們與富士通(日本最大的系統集成商)合作,建構了一個日語語言模型,如果沒有預訓練的介入,是無法有效地為模型添加日語能力的。所以在這種情況下必須從頭開始,對於一些更具體的需求,比如改變模型的語氣,或者改變它如何格式化某些內容,可以通過微調來完成,即從最終的模型狀態開始。
因此,這裡存在一個漸進的過程,我們通常建議客戶從最便宜、最簡單的方式開始,也就是微調,然後逐步向後推進。所以先進行微調,然後再進入後訓練階段,比如SFT(監督微調)、RLHF(基於人類回饋的強化學習)。
Sarah:從最便宜的方式逐步推進確實是有道理的,任何企業客戶投資於預訓練(pre-training)這件事,可能會顯得更具爭議性。一些專家會說:沒有人應該去做這個,企業在計算和數據規模、數據策劃工作量,以及進行預訓練所需的人才方面的投入根本沒有競爭力,你對此有何看法?
Aidan Gomez:如果是一個大企業,並且擁有大量數據,比如數百億個數據標記(tokens),那麼預訓練確實是一個可以拉動的槓桿,而對於大多數中小企業和新創公司來說,預訓練毫無意義。
但如果是一個大型企業,這應該是一個認真考慮的選項,問題是到底需要做多少預訓練,並不是說必須從頭開始進行一場5000萬美元的訓練,而是可以做一個較小的訓練,比如500萬美元,類似繼續預訓練(continuation pre-training)工作,這也確實是我們提供的一項服務。
Sarah:聊聊當前技術領域的情況,以及這對Cohere意味著什麼。你曾經提到過,「去年模型沒有市場」。如何看待這個觀點,特別是與競爭的開源模型的崛起相比?
Aidan Gomez:要建構一個有用的模型,確實有一個最低的支出門檻。隨著技術的發展,訓練模型所需的算力變得更便宜了,數據的獲取在某些方向上變得更便宜,但在其他方面卻變得越來越困難且昂貴。比如,合成數據的成本已經大幅下降,但專家數據的獲取變得越來越難且更加昂貴,如果你願意等六個月或一年的時間來開發技術,就可以以一個低得多的成本來完成,而不是像那些前沿實驗室一樣支付巨額費用。
這也是Cohere的一個關鍵策略:不需要率先建構技術,而是找到一種大幅降低成本的方法,並專注於那些真正對客戶有價值的部分,向企業市場提供符合他們需求、且價格合理的產品。
同時,我們仍然需要投入大量資金,與普通新創公司相比,我們需要支付超級電腦的費用,而這些費用每年可能高達數億美元。因此,這是一項資本密集型的工作,但並不是資本低效。
公司未來發展與AI、AGI趨勢
Sarah:我們可以談談未來的預測。在scaling law方面,你們處於什麼階段?你預計在接下來的幾年裡能力提升會有多少?
Aidan Gomez:我們已經走得相當遠了,現在正開始進入曲線的平穩部分。我們已經超過了通過簡單與模型互動來判斷它有多聰明的階段,所謂的「感覺測試」已經逐漸失去了效用。所以,現在需要做的是請專家在非常具體的領域,如物理、數學、化學、生物學等,來評估這些模型的品質,因為普通人現在無法區分模型生成的差異。
技術仍然有很大的提升空間,但這些提升將主要體現在專業領域。對於企業和他們希望自動化的常規任務,或者他們想要建構的工具來說,技術已經足夠好了,或者稍微訂製一下就能達到目標。因此我們現在所處的階段是,有了一些新的解鎖,特別是在推理方面。線上推理技術一直是模型的短板,它們之前沒有內在的獨立思維過程。而現在我們開始有了能夠進行推理的模型,當然,OpenAI是第一個將其投入生產的公司,但Cohere也已經做這個工作一年了。
Sarah:現在在整個生態系統中,這一點可能被低估了,從資本支出模式(CapEx)轉向消費模式(consumption model)來進行改進。這並不是說它們是完全不同的概念,但當客戶不需要為一個昂貴的訓練過程支付大筆費用,也不必經歷延遲時,他們將會更願意投入資金去解決問題。
Aidan Gomez:是的,這一點還沒有被充分意識到,人們還沒有真正評估推理時間計算(inference time compute)對智慧的影響,甚至在晶片層面也有影響,比如要建構什麼樣的晶片、數據中心建設時應該優先考慮什麼。如果我們有了推理時間運算的能力,它不需要像密集互聯的超級電腦那樣的架構,依靠節點分散式處理就能做到很多事情。這是一個新的範式,改變了這些模型能做什麼,以及它們是如何做到的。
Sarah:你剛才提到了普通人不會花太多時間去思考「推理」到底是什麼,能給大家提供一些直觀的理解嗎?比如,推理能力讓我們能夠更好地解決哪些類型的問題?
Aidan Gomez:任何涉及多步驟的問題都會受益於推理能力。例如,某些多任務學習問題可以通過記憶來解決,這也是我們目前讓模型做的事情,比如解多項式方程就應該通過多步驟的方式來解決,這是人類解題的方式,我們一直在訓練模型記憶輸入輸出對,並通過像「思維鏈」這樣的技巧來逼出來推理行為,但真正的問題是,下一代模型將從一開始就具備推理能力,這才是自然的。
我們過去訓練的模型是基於網路上的內容,而網路上的文檔其實是推理過程的輸出,但推理過程本身是隱性的、不可觀察的。人類寫文章時,背後經過了數週的思考、修改和刪減,這一切推理過程是不可見的,所以第一代語言模型缺乏內在的「自我對話」能力是可以理解的。
而現在,我們通過人類數據和合成數據,正在有意識地收集人們的內心思維,要求人們將其思維過程說出來,並進行轉錄,然後訓練這些數據,以模仿問題解決的過程。我對這一點非常興奮,雖然現在這項技術仍然非常低效且脆弱,類似於早期的語言模型,但在接下來的兩三年內,這項技術將變得異常強大,並解鎖一整套新的問題解決能力。
Sarah:我還是想問一下:Cohere是如何看待AGI(人工通用智慧)的?這對你們重要嗎?
Aidan Gomez:AGI對很多人來說意味著不同的東西,我相信我們會建造出真正智慧的機器。但是,AGI的概念已經被混淆了,它不是一個二元的、離散的概念,而是一個連續的過程。
Sarah:在產業中有一種定義認為,即使你有一個連續的函數,你也可以在某個點設置一個斷點,即這個時候的智慧可以替代任何受過教育的成年專業人士。
Aidan Gomez:這像一個客觀的清單,即當你勾選了所有這些框之後,你就達到了那個標準,我覺得總能找到反例,這是一個持續的過程。我不認同的是,會有種AGI是超級智慧和自我提升引發的「終結者」,最終消滅我們所有人。
我們將是創造豐盈的那一方。我們不需要等待某個神明出現為我們做這件事,而是可以用我們正在建構的技術去實現它。如果你說的是我們會建構AGI,也就是非常有用、通用的技術,能夠做很多人類能做的事情,並能靈活地適應不同領域,那我的回答肯定的。如果你指的是我們會造出「神」那樣的存在?不,絕對不會。
Sarah:你認為目前的LLMs在某些領域根本就不適合做預測嗎?比如像物理仿真這種領域,序列到序列模型能做得到嗎?
Aidan Gomez:可能是的,因為物理學本質上就是一系列狀態和轉移概率,所以可能可以通過序列建模來很好地建模。但是,我確信肯定有一些領域有更適合的模型。如果深入到特定領域,就可以利用該領域的結構,從而去除一些Transformer架構中的不必要的通用性,進而得到更高效的模型。
世界上確實存在不可簡化的不確定性,像是建構一個更好的模型也無法幫你解決這些真正隨機或不可觀察的事情。因此,在我們學會如何觀察這些事情之前,它們將永遠無法被有效建模。Transformer是一個非常通用的架構,許多事情都可以表述為序列,而這些模型就是序列模型。所以如果你能把事情描述成一個序列,Transformer就能很好地辨識其中的規律。但是我也確信,肯定有一些例子可以證明序列建模在某些情況下非常低效。
Sarah:最後一個問題。你之前提到的推理時運算的規模,但市場上並沒有真正認識到它帶來的巨大變化,現在還有其他市場上沒有定價的因素嗎?
Aidan Gomez:關於模型商品化的觀點有些誤解,我並不認為模型正在商品化。你看到的只是價格競爭,大家免費提供、虧本提供、零利潤提供,所以看到價格下降就認為價格下降意味著商品化。
實際上,世界當前正在進行一場徹底的技術重構,這個過程將持續接下來的10到15年,就像我們需要重新鋪設地球上的每一條道路一樣,而現在只有四五家公司知道如何製造混凝土。可能今天他們中的一些會免費提供混凝土,但隨著時間推移,能夠做到這一點的參與者會越來越少。只是因為眼前有一個巨大的任務,而市場上為了推動成長和展現投資回報的壓力,將把事態推向某個方向。現在,處於虧損或免費提供這種非常昂貴的技術的狀態是一個不穩定的現狀。
Sarah:Aiden,非常感謝你和我們一起做這個訪談!
本文為AI新智界授權刊登,原文標題為「AI獨角獸Cohere創始人:我們不做ChatGPT的競爭對手;幫助企業採納這項技術,並將其變得有價值」