来源:SenseAI 深思圈
“大型企业为防止 AI 出现错误进行检测需要投入极大的成本,同时现阶段缺乏标准的 LLM 测试框架。因此对 LLM 的评估不可扩展且效果欠佳。这也导致企业在部署 AI 产品时表现出了谨慎的态度。Patronus AI 希望通过打造 LLM 的自动化评估和安全平台,让企业安全地部署 AI 产品,进而推动 Gen-AI 的大范围采用。“
Sense 思考
我们尝试基于文章内容,提出更多发散性的推演和深思,欢迎交流。
? 企业级大模型应用痛点:transformer 自回归式对下文的预测实质是概率模型,对生成内容不确定性的评估是模型能力验证的关键。同时,学术型指标评估无法适配企业级领域应用,需要更产品化的多模型自动测评平台。
? 如何在生产内容中平衡准确性与不确定性,将 LLM 能力长板放大到业务需求场景,是模型测评平台以及企业级 Gen-AI 应用的艺术。
本篇正文共 2115 字,仔细阅读需大约 5 分钟
用户正在以前所未有的速度采用生成式 AI。ChatGPT 是有史以来增长最快的消费类产品:在发布的前两个月内就吸引了 1 亿多用户。今年,AI 一直是人们关注的焦点。但同时,企业在面对快速部署 AI 产品时表现出了谨慎的态度。他们担心大语言模型可能造成的错误。不幸的是,现阶段评估和检查语言模型的工作难以扩展且效率低下。Patronus 致力于改变这一现状,他们的使命是提高企业对生成式 AI 的信心。
Patronus AI 的创始背景
Patronus 两位创始人 Rebecca 和 Anand 认识将近 10 年。在芝加哥大学一起学习计算机科学后,Rebecca 加入 Meta AI(FAIR)负责 NLP 和 ALGN 相关研究,而 Anand 在 Meta Reality Labs 开发了早期的因果推断和实验基础。在 Meta,两人亲身经历了评估和解释机器学习输出的困难——Rebecca 从研究角度,Anand 从应用角度。
当 OpenAI CTO 米拉·穆拉蒂去年 11 月在 Twitter 上宣布 ChatGPT 发布时,Anand 在 5 分钟内就将消息转发给了 Rebecca。他们意识到这是一个转型时刻,企业肯定会快速将语言模型应用到各种场景中。因此,当 Anand 听说他哥哥就职的投资银行 Piper Sandler 禁止内部访问 OpenAI 时,他感到非常惊讶。在未来的几个月里,他们多次听到传统企业正非常谨慎地推进这项技术。
他们意识到,尽管 NLP 技术取得了重大进步,但离真正的企业应用还有很大差距。所有人都认同生成式 AI 非常有用,但没有人知道如何以正确的方式使用它。他们认识到,在未来几年,AI 评估和安全将成为最重要的问题。
团队与融资情况
Patronus 在 23 年 9 月 14 日宣布获得了来自 Lightspeed Venture Partners 的 300 万美元种子轮融资,Factorial Capital、Replit CEO Amjad Masad、Gokul Rajaram、Michael Callahan、Prasanna Gopalakrishnan、Suja Chandrasekaran 等也参与了投资。这些投资者在投资和运营企业安全和 AI 领域的标杆公司方面拥有丰富的经验。
Patronus 的创始团队来自顶尖的 ML(机器学习)应用和研究背景,包括 Facebook AI 研究院(FAIR)、Airbnb、Meta Reality Labs 和量化机构。他们在顶级 AI 会议上发表过 NLP 研究论文(NeurIPS、EMNLP、ACL),设计并推出了 Airbnb 的第一个会话式 AI 助手,在 Meta Reality Labs 开创了因果推断,退出了马克·库班支持的量化对冲基金,在快速增长创业公司退出了 0→1 产品。
Patronus 的顾问是 Contextual AI 的 CEO 和斯坦福大学的兼任教授 Douwe Kiela,他也是 HuggingFace 的前研究主管。Douwe 在 NLP 领域做出了开创性的研究,特别是在评估、基准测试和 RAG 方面。
Patronus AI 要解决的问题
当前的大语言模型评估不可扩展且效果欠佳,原因如下:
手动评估速度慢、成本高。大型企业需要花费数百万美元聘请成千上万的内部测试人员和外部顾问,以手动检查 AI 中的错误。要部署 AI 产品的工程师需要花费数周时间手动创建测试集和检查 AI 输出。
大语言模型的不确定性本质使预测故障变得困难。大语言模型是概率性系统。由于其输入范围不受限制(在上下文长度限制内),提供了广泛的攻击面。因此,发生故障的原因将非常复杂。
目前还没有标准的大语言模型测试框架。软件测试已经深度集成到了传统工程工作流中,有单元测试框架、大型质检团队和发布周期等,但企业还没有为大语言模型开发出类似的流程。连续、可扩展的评估、识别并记录大语言模型错误以及性能基准测试对于产品化使用大语言模型至关重要。
学术基准无法反映真实世界的情况。企业目前在学术基准(如 HELM、GLUE、SuperGLUE 等)上测试大语言模型,但这些基准无法反映真实的使用场景。学术基准趋于饱和,并存在训练数据泄露问题。
AI 失败的长尾现象非常严重,最后的 20%极具挑战性。对抗性攻击已经表明,大语言模型的安全问题远未解决。即使通用预训练语言模型展示了强大的基础能力,仍存在大量未知的失败情况。Patronus 在对抗模型评估和鲁棒性方面做了大量开创性的研究,但这只是开始。
Patronus AI 的使命
Patronus AI 的使命是提高企业对生成式 AI 的信心。
Patronus AI 是业内首个面向大语言模型的自动化评估和安全平台。客户使用 Patronus AI 大规模检测大语言模型错误,从而安全地部署 AI 产品。
该平台自动执行:
评分:评估实际场景中的模型性能和关键指标,如 hallucination 和安全性。
生成测试:自动生成大规模对抗测试集。
基准测试:比较模型,帮助客户确定特定用例的最佳模型。
Patronus 希望频繁评估以适应不断更新的模型、数据和用户需求。最终目标是获得一个可信度标识。没有公司希望看到他们的用户对意外的失败感到不满,甚至出现负面新闻并引发监管问题。
此外,Patronus 正在寻找值得信赖的第三方评估机构,用户需要一个无偏见的独立视角。Patronus 希望大家将其视为 AI 界的穆迪(Moody’s)。
目前 Patronus 的合作伙伴包括领先的 AI 公司 Cohere、Nomic 和 Naologic。此外,几家金融服务公司等知名的传统行业公司也在与 Patronus AI 洽谈进行试点。
Do not go gentle into that good night,
Rage,
rage against the dying of the light.
——Dylan Thomas (1954)
参考资料
https://www.patronus.ai/blog/patronus-launch