从MMLU到GLUE,人工智能世界从不缺少 LLM 基准。在严格评估 GPT-4 和 Claude 等人工智能模型,以确定哪一个模型可以为给定任务生成更准确的输出。通常,该任务围绕一些相当具体的事情展开,例如解决小学数学问题或用 Python 编码。虽然这些类型的测试产生了用于对 LLM 进行排名的宝贵性能指标,但对于只需要了解 AI 工具是否可以处理现实世界的日常工作的商业用户来说,它们并不是特别有启发性。
在 Salesforce AI Research,我们认识到这一不足是企业用户采用企业 AI 的严重障碍。为了弥补这一关键差距,我们与 AI Frontier 团队合作开发了世界上第一个专为 CRM 中的生成式 AI 应用程序构建的 LLM 基准。简而言之,这个基准代表了首次尝试采用真正科学的方法来验证大型 AI 模型是否适用于实际业务任务——我希望这种方法很快会在企业界普及。
量化企业价值
人们对人工智能的关注主要集中在其超人的多功能性上,这种多功能性通常以深奥的极端方式表现出来——法学硕士能够让宇航员骑在马背上,就像通过州律师资格考试一样容易。虽然这些无疑是令人印象深刻的壮举,但企业客户更关 菲律賓 telegram 心的是重点部署,这些部署旨在以快速、经济高效、可分析的方式推动其业务发展。
不幸的是,尽管法学硕士基准库不断增长,几乎涵盖了所有可以想象到的任务——写论文、理解数学问题,甚至抽象推理——但仍然没有明确的方法来回答对企业客户最重要的问题:法学硕士在企业环境中的表现如何,尤其是在像 CRM 这样敏感和关键任务的应用程序环境中?这是一个盲点,让决策者陷入困境。毕竟,如果模型不能可靠地向客户发送电子邮件,那么它的 LSAT 分数或烹饪技能有多大用处?