[情報] Claude 3.5 Sonnet新增操作電腦能力

看板 Tech_Job
作者 jackliao1990 (j)
時間 2024-10-23 17:19:51
留言 0 ( 0推 0噓 0→ )
https://www.ithome.com.tw/news/165639 陳曉莉 Anthropic更新Claude 3.5 Sonnet,新增操作電腦能力 Anthropic更新中階模型Claude 3.5 Sonnet,打造了一個API讓Claude能夠感知電腦介面 並與之互動 AI模型開發業者Anthropic周二(10/22)更新了Claude 3.5 Sonnet,新版Claude 3.5 Sonnet首度開放使用者測試其電腦操作能力,也特別改善了程式碼撰寫及工具使用任務, 並宣布將在10月底釋出Claude 3.5 Haiku。 Claude Sonnet為Anthropic所開發的中階模型,著重在取得智力與速度的平衡,Claude Haiku則是最小也最低階的模型,主打即時回應,而最大的模型Claude Opus則是用來處理 更複雜的任務,目前Anthropic僅發表Sonnet 3.5及Haiku 3.5,並未提及Opus 3.5。 為了訓練Claude使用電腦,Anthropic打造了一個API以讓Claude能夠感知電腦介面並與之 互動,開發人員即可整合該API,要求Claude將指令(例如:利用我電腦上的資料來填入 表格)轉成電腦命令(檢查試算表,移動游標以開啟瀏覽器,導航至最相關的頁面,以及 填入表格等)。 Anthropic說,現代的大量工作都是透過電腦進行的,令AI能夠像人類一樣與電腦互動, 將解鎖這一代AI助手無法處理的大量應用。這幾年AI有許多重要的發展,像是執行複雜邏 輯推理的能力,以及查看與理解圖像的能力,而下一個重要領域則是使用電腦,讓AI模型 可直接按照指示使用各種軟體,而不必再透過特製的軟體與電腦互動。開發人員可利用此 一功能來自動化重複的流程,建置與測試軟體,或是執行諸如研究等開放式任務。 有一個OSWorld標準是用來評測模型使用電腦的能力,在理解螢幕截圖(Screenshot)上 ,Claude 3.5 Sonnet取得了14.9%的成績,雖然尚遠不及人類水準(70~75%),卻已高於 第二名Cradle BAAI的7.8%,以及OpenAI GPT-4 Vision的7.7%,倘若可以執行更多的步驟 ,Claude 3.5 Sonnet還能達到22%。 不過,Anthropic坦承Claude目前操作電腦的能力並不完美,人們可以輕鬆執行的滾動、 拖曳或縮放對Claude而言都是挑戰,在實驗中,它還停止了正在長時間運作的螢幕錄製, 導致所有內容都不見。 目前包括Asana、Canva、Cognition、DoorDash、Replit與The Browser Company都已在測 試Claude 3.5 Sonnet的電腦執行能力,其中,線上程式開發平臺Replit利用它來建置 Replit Agent的新功能,可在開發人員建置應用程式的過程中,自動檢查並評估應用程式 的表現。 除了操作電腦的能力之外,Claude 3.5 Sonnet在許多評測都有長足的進步,包括GPQA、 MMLU Pro、HummaEval、MATH、AIME 2024、MMMU、SWE-bench Verified及TAU-bench等, 除了MATH略遜Gemini 1.5 Pro之外,其它評測都勝過Gemini 1.5 Pro、Gemini 1.5 Flash 、GPT-4o與GPT-4o mini。 在與撰寫程式相關的HummaEval及SWE-bench Verified評測中,Claude 3.5 Sonnet分別奪 得了93.7%及49%的成績,高過前一個版本的88.1%與40.6%。 另一個TAU-bench是用來測試AI代理工具於真實世界場景中的表現,衡量能否處理複雜且 多步驟的任務,並與使用者進行自然對話,Claude 3.5 Sonnet在零售領域的表現達到 69.2%,在航空領域的表現為46%,高於前一版的62.6%與36%。 至於速度最快的Claude 3.5 Haiku特別擅長撰寫程式碼,它在HummaEval的得分為88.1%, 而在評估解決實際軟體問題能力的SWE-bench Verified上得分亦有40.6%。 Anthropic表示,Claude 3.5 Haiku具備低延遲,更好的指令遵循能力,以及更準確的工 具使用,非常適合面向使用者的產品、專門的子代理任務,以及從大量資料生成個人體驗 的服務,例如購買歷史紀錄、定價或庫存紀錄等。 不管是Claude 3.5 Sonnet或Claude 3.5 Haiku都可藉由API、Amazon Bedrock及Google Cloud的Vertex AI存取,只是Claude 3.5 Haiku尚未上線,而且初期僅支援文字,之後才 會支援圖像輸入。 心得:連先幫AI輸入資料和手動測試程式碼都不需要了 沒人類工程師的事了 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.128.110.1 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Tech_Job/M.1729675194.A.C43.html

最新文章

[徵求] 台北 饗食天堂餐券
e-coupon a131131
2024-10-23 17:28:36
[贈送] 土城 小碗及玻璃杯等
give kobis
2024-10-23 17:27:04
[創作]泥娃娃
stock laerarsu
2024-10-23 17:25:47
[贈送] 行政學 企管法學緒論等
gov_owned grace0412
2024-10-23 17:19:39
[徵求] 星宇3000元折扣碼
e-coupon elgaes
2024-10-23 17:10:35
[請益] 客變格局請益
home-sale kkkkkkkelly
2024-10-23 17:10:20
[贈送] 台中 泡泡紙緩衝包材
give ant1234
2024-10-23 17:10:03
[交易] 全家點數20萬點
e-coupon maxav
2024-10-23 17:09:47
[交易] OpenPoint 4200 1:1
e-coupon akins
2024-10-23 17:08:35
[問題] 個人信貸
loan kgisthebest
2024-10-23 17:07:14