6月20日周四,OpenAI竞争对手Anthropic发布了公司迄今为止性能最强大的AI模型Claude 3.5 Sonnet。 在覆盖阅读、编程、数学和视觉等领域的多项性能测试中,Claude 3.5 Sonnet的性能略胜一筹,吊打GPT-4o等一众竞争对手的AI模型,且优于自家旗舰模型Claude 3 Opus。当然,也有些测试不能完全反映AI在现实运用的情况,偏小众和个例。
Anthropic的产品负责人Michael Gerstenhaber自信表示道:“对企业来说,重要的是AI是否能帮助他们满足业务需求,而不是AI在性能测试中是否具有竞争力,从这个角度来看,我相信Claude 3.5 Sonnet将领先于我们现有的任何其他产品,也领先于行业中的任何其他产品。”
定价方面,新模型定价与前代3 Sonnet模型相同,即每输入百万token为3美元,每生成百万token为15美元,并具有20万个token的上下文窗口,约合15万个单词。Token是数据的细分单元,例如单词“fantastic”中的“fan”、“tas”和“tic”。
现在,用户可以通过Anthropic的网页客户端和iOS应用免费试用新模型,而订阅了Claude Pro和Claude Team的用户将享受5倍的速率限制。此外,新模型也在Anthropic的API以及亚马逊Bedrock和谷歌云的Vertex AI等托管平台上上线。
今年晚些时候,公司还将推出更大更好的模型,如Claude 3.5 Haiku和Claude 3.5 Opus。后者配备有网络搜索和偏好记忆等功能。
最强视觉模型、速度提升两倍、幽默感增加、内容迭代功能
和前一代模型Claude 3 Opus相比,新模型在多个方面实现了性能上的提升。Anthropic在一篇博客中写道:“它在把握细微差别、幽默和复杂指示方面有显著进步,在以自然、合理的语气撰写高质量内容方面也十分出色。此外,它还可以编写、编辑和执行代码。”
例如,与3 Opus相比,Claude 3.5 Sonnet在理解复杂指令和细微差别方面更为出色,甚至能够更好地把握幽默概念,尽管AI在幽默感方面通常表现不佳。
对于需要快速响应的应用程序,如客户服务聊天机器人,3.5 Sonnet的处理速度是Claude 3 Opus的两倍,成本只有其五分之一。
视觉分析方面,3.5 Sonnet能够更准确地解读图表和图形,并能从存在失真和视觉伪影的“不完美”图像中转录文本。
除了新模型的推出,Anthropic还推出了新功能“Artifacts预览版”,这是一个工作空间,允许用户能够编辑和迭代AI模型生成的内容。
想象一下,你在使用一个AI助手来帮你写代码。当你向AI提出你的要求后,AI会生成一段代码。在Artifacts功能中,这段代码不仅仅是显示给你,而是会以一种可以操作和修改的形式出现在你的界面上,就像是一个“工件”或是一个“草稿”。
接下来,你可以对这段代码进行迭代——也就是说,你可以修改它,增加新的功能,或者和 AI 助手“Claude”交流,告诉它你的修改意见或新的需求。AI 会根据你的反馈再次生成代码,你则可以继续这个过程,直到代码达到你的期望,可以被实际运行。
这个过程就像是你和AI一起合作,不断地打磨和完善最终的产品。Artifacts提供了一个平台,让你能够更容易地与AI模型互动,并且对生成的内容进行有效的管理和优化。
目前Artifacts处于预览阶段,Anthropic计划在未来为其增加新功能,比如支持与大型团队协作和知识库存储。
此外,媒体称,Claude 3.5 Sonnet虽然是一个先进的AI模型,但它并不完美,仍然可能会犯错。尽管如此,它的能力可能足以吸引开发者和企业转向Anthropic的平台。毕竟,这才是对Anthropic最重要的。
模型改进部分归功于训练数据,但来源不明
Anthropic的产品负责人Michael Gerstenhaber表示,这些改进归功于模型架构的调整和新的训练数据(包括AI生成的数据)。至于具体是哪些数据带来了这些增强?Gerstenhaber没有透露详细信息。
出于保护商业机密和避免法律挑战的考虑,训练数据的具体细节尚未公开,但Claude 3.5 Sonnet和公司以往AI模型一样,经过了大量文本和图像的训练,并通过人类测试人员的反馈,试图让模型与用户的意图“保持一致”,希望以此防止模型生成有害或有问题的文本。
体验入口:https://www.anthropic.com/news/claude-3-5-sonnet (遗憾的是,中国不支持,需要魔法上网)
|