另一个优化是“Few Shot”。简而言之,这涉及为模型提供示例以帮助其更好地理解任务。也就是说,在文档处理场景中,除了指令之外,还可以向模型添加一个示例,例如B. 提供发票和要提取的数据。
下面我们描述不同信息提取方法的优缺点以及可能出现的问题和解决方案。
通过精准查询,可以精准确定目标信息。可能出现的问题:
当没有信息时,很难让模型什么也不说。
模型生成虚假或不相关信息的幻觉风险。
解决方案:从Aleph Alpha解释
缺点:
效率低且成本高,因为每个属性都有一次运行冗余输入。
提取JSON中的许多关键字
优势:
语言模型可以同时提取多条信息。
问题:
幻觉。
解决方案:从Aleph Alpha解释
提取许多关键字或表格作为表格
优势:
语言模型可以以表格形式一次性提取大量信息。
问题:
幻觉。
解决方案:从Aleph Alpha解释
缺点:
后处理可能会更复杂一些,例如当需要使用正则表达式(正则表达式)来处理提取的数据时。
总的来说,从文本中提取关键词和信息的方法的选择取 旅行社电子邮件列表 决于具体的要求和资源。通过测试和比较不同的方法,您可以找到并优化最适合您的应用的方法。
关于单个或多个关键词提取的结论
但是,建议将许多术语提取为 JSON 或表格,因为这样通常可以将每页的成本保持在大约一两美分甚至更便宜。
Aleph Alpha 发光解释
Explain 是 Aleph Alpha 的一项新功能,旨在解决大型语言模型 (LLM) 幻觉问题。当法学硕士不知道如何准确回答询问时,他们往往会编造信息或撒谎。 Explain 为这个问题提供了一个解决方案,允许用户识别 LLM 生成的信息是否来自文本。
评估和迭代
为了有效地优化提示,建议拥有一个由 10 到 30 个文档组成的小型、多样化的数据集。自然地集成到小型管道中,这允许快速迭代和初始测试,从而更容易识别问题并调整提示,而无需花费大量时间。一旦在较小数据集上的评估产生了满意的结果,建议将测试扩展到更大的数据集(50+),以检查模型在更现实的条件下的性能。需要强调的是,我们经常谈论使模型适应某个领域或对其进行微调。
然而,在实践中,这通常是不必要的,因为可以使用说明和示例使模型更接近上下文和领域,而无需对其进行微调。微调可能会出现问题,因为它通常花费 10,000 到 250,000 欧元,并且必须由大型语言模型 (LLM) 提供商托管,这意味着额外的推理成本。这在可扩展性和成本方面都不太有利。因此,通过说明和示例优化提示应被视为更有效且更具成本效益的替代方案。