数据预处理

suchona.kani.z · Post by **suchona.kani.z** » Wed Jan 29, 2025 4:32 am

下面我将介绍自动摘要的数据预处理。正如本博客文章的第二部分中已经描述的，我想将整个文本分成单独的文本块。首先，我将清理文本（主要是删除换行符，但可能还有更多）并将文本拆分为句子。我们已经在下图中看到，我的分割成单个句子的代码很容易出错，因为它会在每个点之后进行剪切（请参见右下角的红线）。此类错误将在进一步的数据处理中传播，并且绝对应该在之前的 EDA（探索性数据分析）中识别出来，以便不仅可以建议优化，而且可以针对特定问题明确解决和评估。

图4：文本分割过程

接下来我想将最终的文本块放在一起。为此，我按照 Isaac Tham 的方法，将信息分为五个“句子”，每个句子都有一个句子重叠，以提供一些上下文（参见第 84 行和第 85 行）。我如何在整个文本中执行此操作如第 91 行所示（非常简单）。

图 5：文本分块过程

对于此示例文档，我们获得具有给定参数的 16 个文本块（参见下左图）。然后我嵌入这 16 个文本块（参见下图右侧）。Aleph Alpha 的嵌入大小为 5,120。

图 6：文本分块过程

聚类
对于聚类，我使用相对简单的 KNN，让我简单地帮助您找出轮医疗保险线索电子邮件列表廓分析的最佳选择。我将在另一篇博客文章中更详细地介绍如何更好地做到这一点。轮廓分析得出 k = 2。

图 7：最佳簇数

然后为每个文本块创建摘要，并将其合并到最终结果中（参见图 6）。在图 6 中，我们看到每个文本块的关联集群（第 2 列）和中间摘要（第 3 列）。下面以第 5 行的转换为例。

图 8：最佳簇数

创建摘要
通过这些初步工作，我们现在可以在最后一步中创建实际的摘要。图9中的结果输出后面有以下提示：

### 说明：请用一句话总结输入内容。
### 输入：{{document}}
### 响应：
这是一个相对简单、未优化的提示，因为这里的重点是转换路径。通过此提示，我得到了 k = 2 个集群，即文本片段和中间摘要，然后是两个摘要，可以在图 9 的控制台中看到。

图 9：最终总结

在本系列的第一篇博客文章中，我们研究了“迷失在中间”的现象（请参阅博客，第 1 部分）。出于兴趣，我想使用 Aleph Alpha 的解释功能再次探索这一点（见下图）。我们还可以在这里看到，集群 1 的最终摘要主要基于输入文本的第一部分。

图10：再次审视“迷失在中间”

在下图中，我使用另一个提示来创建引导摘要。关键问题和结果如图 11 所示（参见控制台）。

图 11：引导总结

整个代码可以在这里下载和试用

示例文档也位于存储库中，所使用的提示也是如此（请参见下图中间）。您所要做的就是使用自己的代币，您可以自己尝试一下。

图 13：主要文件

总结与展望
在这个博客系列（顺便说一下，不是机器摘要）中，我试图在机器摘要中呈现转型之旅以及其间的所有问题。我仍然很浅薄，但我们将更深入地研究我们在以下博客中没有更详细地讨论的各个步骤，并通过更具代表性的研究来讨论它们。在那之前，我建议阅读由 Huan Yee Koh、Jiaxin Ju、Ming Liu 和 Shirui Pan 于 2022 年撰写的《长文档摘要的实证调查 – 数据集、模型和指标！》。在我看来，这份出版物非常干净和全面。她提出正确的问题，并以科学严谨的态度追寻这些问题。

您想了解更多关于 adesso 世界中令人兴奋的话题吗？那么请看一下我们之前发布的博客文章。

同样有趣的是：

智能信息收集：用于获取企业知识的对话代理
欧洲大型语言模型快速入门：Aleph Alpha 的 Luminous
大语言模型自动文档处理简介
通过 R 使用 Aleph Alpha Luminous 机器生成文本摘要
通过 R 使用 Aleph Alpha Luminous 机器生成的文本摘要，第 2 部分
图像 Lilian Do Khac
作者莉莲·杜卡克

Lilian Do Khac 参与数据驱动决策支持人工智能解决方案的构思和实施。值得信赖的人工智能需求在这里发挥着重要作用。她不仅从 IT 实施的角度，而且作为一名科学家，活跃在这一领域。

类别：人工智能
标签：阿莱夫·阿尔法人工智能接口
阿斯达夫
我们的博客文章一览
在我们的技术博客中，我们将带您踏上令人兴奋的 adesso 世界之旅。您可以在我们之前的博客文章中找到其他有趣的主题。

至所有博客文章

阿斯达夫
我们的 adesso 博客时事通讯
您想定期收到我们的 adesso 博客更新吗？然后只需订阅我们的时事通讯，您将通过电子邮件方便地收到我们技术博客的最新文章。