当地时间10月22日,Anthropic的Claude 3.5迎重磅升级!
Claude 3.5 Haiku 和升级款的 Claude 3.5 Sonnet 都来了。Claude 3.5 Sonnet 不仅编程能力更强,还带来全新功能computer use(计算机使用), Claude 现在支持像人类一样操作计算机,可以遵循用户的命令在计算机屏幕上移动光标,点击相关位置,并通过虚拟键盘输入信息,模拟人们与自己计算机的交互方式。
升级版 Claude 3.5 Sonnet 现在就可以使用了。computer use测试版也开放使用。
进化后的Claude 3.5 Sonnet堪称最强推理模型。它在各个方面得到了全面显著的提升,尤其是业界领先的编码能力。
甚至,Claude现在能够像人类一样操作计算机,不仅可以查看屏幕、移动光标,还可以单机按钮、键入文本!
目前,Claude 在以与人相同的方式使用计算机的模型中处于最先进水平——也就是说,通过查看屏幕并根据屏幕内容采取行动。在一个旨在测试开发人员让模型使用计算机的评估(OSWorld)中,Claude 目前获得了 14.9% 的分数。这远未达到人类水平的技能(通常为 70-75%),但远高于同一类别中排名第二的 AI 模型获得的 7.7%。
Anthropic开发者关系主管表示,计算机使用是全新人机交互范式的第一步。同时也是,AI模型应该具备的全新基础能力。
为什么要训练AI操作电脑?Anthropic表示,在过去几年里,强大的AI开发已经达到了许多里程碑,比如执行复杂逻辑推理,以及识别和理解图像的能力。而下一个突破点,就是AI操作电脑了!如果模型不必通过专门定制的工具进行交互,而是按指示就能使用所有软件,这一定代表着未来的方向。
在下面这个demo中,Anthropic研究员给Claude提出了一个极有难度的挑战:
我的朋友要来旧金山,我想明天早上和他一起在金门大桥看日出。我们将从太平洋高地出发。你能帮我们找到一个绝佳的观赏地点,查看一下开车时间和日出时间,然后安排一个日历活动,让我们有足够的时间到达那里吗?
Claude自行打开了Google,开始了搜索。
金门大桥和用户居住地有多远呢?Claude会自己打开地图查找距离。
开发者展示出Claude如何操控了自己的笔记本电脑,丝滑地完成了一个网站编程任务。
首先,Claude在小哥的Chrome浏览器中导航到了Claude.ai,并且让Claude为自己创造了一个90年代主题的个人主页。
只见它自己输入网址,键入提示,向另一个Claude发出请求。
假设我们需要填写一份来自蚂蚁设备公司的供应商请求表,但需要填写的数据散步在电脑的各个角落,Claude能帮我们完成吗?
只见它开始截取操作者的屏幕截图,并且很快发现:蚂蚁设备公司并不在表格中。
这时,它立刻切换到CRM系统中,去搜索这个公司。找到后,它开始滚动页面,查找填表所需的所有信息,然后提交了表格。这也就意味着,我们工作中许多不得不做的繁琐事项,都可以交由Claude代劳了!
在各项行业基准测试中,升级版Claude 3.5 Sonnet性能得到了全方位提升。特别是,智能体编码、工具使用任务中取得显著突破。
在编码能力方面,它在SWE-bench Verified测试中,性能从33.4%大幅提升至49.0%。
这超越了所有公开可用的模型——包括OpenAI o1-preview等推理模型和专为智能体编码设计的专门系统。
凭借快速的处理速度、改进的指令执行能力和更准确的工具使用,Claude 3.5 Haiku非常适合面向用户的产品、专门的辅助任务,以及从海量数据中生成个性化体验。
AI操作电脑能力代表了一种全新的人工智能开发方法。
迄今为止,LLM开发者一直在努力使工具适应模型,创造特殊的环境,让AI使用专门设计的工具来完成各种任务。
虽然Claude已经达到了当前的最高水平,但它的操作仍然相对缓慢且容易出错。我们日常使用电脑时的许多操作,如拖拽、缩放等,Claude都还无法做到。
此外,Claude目前观察屏幕的方式类似于快速翻阅一本画册,通过连续截图并拼接在一起,而不是观察连续的视频流。这意味着它可能会错过一些短暂的动作或通知。
有趣的是,Anthropic在录制Demo时,还遇到了一些有趣的小插曲。
比如,在一次演示中,Claude不小心点击停止了一个长时间运行的屏幕录制,导致所有录像都付诸东流。
而在另一次编码演示中,Claude则突然「走神」,开始饶有兴趣地浏览起黄石国家公园的照片。
总之,Claude如今的表现让人对未来充满期待:AI操作电脑的能力将神速进步,那一天,软件开发小白都能轻松使用它。
每日经济新闻综合公开资料
还没有评论,来说两句吧...