首页 » 博客 » 运用法学硕士作为法官的挑战 – | 矢量空间对话

运用法学硕士作为法官的挑战 – | 矢量空间对话

德米特里奥斯·布林克曼

你不会想用 GPT 4 这样昂贵的模型来评估,因为这样成本会增加,而且效果不好。如果你在评估回复上花费更多,还不如做点别的,比如找个人来生成回复。—— Sourabh
Agrawal

UpTrain AI 首席执行官兼联

合创始人 Sourabh Agrawal 是一位经验丰 行业电邮清单 富的企业家和人工智能/机器学习专家,拥有多元化的背景。他的职业生涯始于高盛,在那里他为金 矢量空间对话 融市场开发了机器学习模型。后来,他加入了博世/梅赛德斯的自动驾驶团队,专注于用于场景理解的计算机视觉模块。2020 年,Sourabh 开始创业,创办了一家人工智能健身初创公司,拥有超过 15 万名用户。在他的职业生涯中,他遇到了评估人工智能模型(尤其是生成式人工智能模型)的挑战。为了解决这个问题,Sourabh 正在开发 UpTrain,这是一款开源的 LLMOps 工具,旨在评估、测试和监控 LLM 应用程序。UpTrain 通过执行根本原因分析、识别故障中的常见模式以及提供自动化的解决方案建议,提供评分并提供洞察,从而增强 LLM 应用程序的性能。

您可以在Spotify、Apple Podcast、Podcast addictions 和 Castbox上收听本集 。您也可以在YouTube上观看本集。

最重要的要点:

为什么实时评估对于维护聊天机器人交 我们的课程仍在招生中 互的完整性以及防止诸如推广竞争对手或做出虚假承诺等问题至关重要?开发人员采用哪些策略来最大限度地降低成本,同时最大限度地提高模型评估的有效性,尤其是在处理 LLM 时?这些可能只是业内人士正在问自己的众多问题中的一部分。不必担心!Sourabh 将为您一一解答。

观看完整对话,深入了解错综复杂的 AI 聊天机器人评估世界。探索确保聊天机器人质量并在各项指标上持续改进的细微之处。

以下是本集的关键主题:

评估聊天机器人的有效性:探索系统方法来评估各个阶段的聊天机器人质量,包括检索准确性、响应生成和用户满意度。
实时评估的重要性:深入了解为什么对聊天机器人进行持续和实时评估对于维护完整性和确保其按设计运行而不会促进不良行为至关重要。
受损系统指标:了解识别表明系统可能容易“越 销售线索 狱”的行为的重要性,以及可通过 API 集成来应对这些行为的方法。
成本效益评估模型:讨论采用较小的模型进行评估以降低成本而不影响分析深度,重点关注故障案例和根本原因评估。
定制评估指标:强调定制评估标准以满足特定用例要求的必要性,包括探索适用于不同场景的不同指标。
趣味事实:Sourabh 讨论了 Uptrend 的使用,这是一种创新的 API,它为各种数据检查提供分数和解释,有助于在评估 AI 模型时做出合乎逻辑且明智的决策。

 

Sourabh 的更多语录:

有些情况,比如说与安全相关的,对吧?比如你想检查用户是否试图越狱你的 LLM。在这种情况下,你可以在生成 LLM 的同时进行评估,因为仅基于用户查询,你就可以检查用户意图是越狱,还是实际使用你的产品来达到特定的模型目的。—— Sourabh
Agrawal

“你必须把答案分解成单个

事实,看看每个事 矢量空间对话 实是否与问题相关。然后取某种比例来计算最终分数。这样一来,所有出现的偏见,比如自我中心偏见(LLM 更倾向于自己的结果),都可以在很大程度上得到缓解。”
——Sourabh Agrawal

“一般来说,我们看到的是,检索到的上下文越好,模型就越好。”
——Sourabh Agrawal

文字记录:

Demetrios:Sourabh,我是 Uptrain 的,你在这里。我想你有一些想分享的内容,但我也想问你几个问题,因为我们即将深入探讨一个我非常关心的话题,而且我认为最近这个话题出现得很多,那就是如何用法学硕士(LLM)来评判。这个话题最近非常热门。甚至有人说这是2024年的热门话题。我希望你能深入探讨一下。我们直接开始吧,兄弟。当你谈到用LLM来评估你所使用的关键指标时,有哪些关键话题?这是如何运作的?你能详细解释一下吗?

Sourabh Agrawal:是的

首先,非常感谢您的邀请,不用担心出现任何问题。我估计我还没见过哪个演示或演讲完全没有出现任何技术问题。这肯定会发生。很高兴来到这里,也很高兴能谈谈法学硕士(LLM)的评估。正如您所说,这确实是一个热门话题,确实如此。对。

Sourabh Agrawal:LLM、聊天、GPT、GPT 4 等等的发展方向是,人们开始构建所有这些原型,对吧?评估它们的方式就像目测一样,相信你的直觉,跟着感觉走。我想他们确实采用了创业公司的方法,将产品推向生产环境,然后打破常规。但人们已经意识到,这种方法不可扩展,对吧?我的意思是,确实如此。它非常主观。开发人员是查看所有回复的人,他可能有一天会喜欢这个,也可能有一天会喜欢别的。他们不可能只浏览十多个回复就完事了。现在,生产用例的独特之处在于它们需要持续改进。你需要不断改进它们,你需要不断改进你的提示或检索、嵌入模型、检索机制等等。

Sourabh Agrawal:所以这就意味着你

必须使用一种更具可扩展性的技术,你必须使用法学硕士(LLM)作为评判标准,因为它具有可扩展性。你可以进行 API 调用,如果该 API 调用提供了高质量的结果,那么你就可以模仿人类的行为,或者以某种方式增强人类的能力,真正充当他们的副驾驶。

Demetrios:是的。所以,当我考虑使用 LLM 作为评判标准并深入研究时,我脑海中浮现的一个问题是,我们什么时候使用这些 API 调用?不是在我们寻找输出的那一刻。是不是只是为了看看这个输出是否真实?在我们将其显示给用户之前,我们会先从用户那里得到一些反馈,然后再将其打包。所以这意味着某些用例会被自动丢弃,对吗?比如,如果我们考虑,好吧,我们要使用 LLM 作为评判标准,以确保我们能够减轻幻觉,或者我们评估得更好,如果我理解正确的话,这不一定是我们当下就能做到的。所以,您能更详细地解释一下吗?在实践中,它实际上是如何实现的?