研究人员发现，用于训练 AI 的 400 TB 数据集具有 API 密钥和有效凭证

nurnobi90 · Post by **nurnobi90** » Sun Mar 02, 2025 8:46 am

研究人员发现，用于训练 AI 的 400 TB 数据集具有 API 密钥和有效凭证
安全研究人员发现，开发大型语言模型 (LLM) 的公司使用的某些数据集包括 API 密钥、密码和许多其他形式的凭据。

大型语言模型正在接管网络世界，这已不是什么秘密。各大公司都宣称拥有强大的人工智能解决方案，似乎可以解决一切问题。

然而，要使 AI 代理或解决方案有效，必须使用尽可能多的数据进行训练。其中一些数据直接来自互联网，公司和组织专门从事此类数据收集。

Common Crawl 就是这样一家组织，它向需要训练 AI 的公司提供数据集，所有内容都从可用的互联网上收集。这意味着一些敏感信息也可能被收集。

Truffle Security 的安全研究人员发现，各种凭证、API 密钥和密码 马耳他 whatsapp 数据 都被网络所捕获。最大的问题是一些 Web 开发人员在网站上硬编码敏感信息，这些信息最终会落入 LLM 培训数据中。

研究人员在 276 万个网站中发现了 11,908 个活动秘密（API 密钥、密码以及其他通过各自服务成功验证身份的凭证）。

“Common Crawl 数据集中泄露的密钥不应该给他们的组织带来不良影响；开发人员在他们无法控制的网页上将密钥硬编码到前端 HTML 和 JavaScript 中不是他们的错。Common Crawl 不应该负责编辑机密；他们的目标是为 Truffle Security 等组织提供基于公共互联网的免费公共数据集，以进行此类研究，”研究人员解释道。

事实上，开发 LLM 的公司已经警告过这一问题。建议很简单：不要在网站上硬编码任何类型的敏感信息，尤其是因为使用 AI 的人可能会将提供的代码用于他们的工作，从而在不知不觉中进一步扩大问题。