研究人员发现,用于训练 AI 的 400 TB 数据集具有 API 密钥和有效凭证
安全研究人员发现,开发大型语言模型 (LLM) 的公司使用的某些数据集包括 API 密钥、密码和许多其他形式的凭据。
大型语言模型正在接管网络世界,这已不是什么秘密。各大公司都宣称拥有强大的人工智能解决方案,似乎可以解决一切问题。
然而,要使 AI 代理或解决方案有效,必须使用尽可能多的数据进行训练。其中一些数据直接来自互联网,公司和组织专门从事此类数据收集。
Common Crawl 就是这样一家组织,它向需要训练 AI 的公司提供数据集,所有内容都从可用的互联网上收集。这意味着一些敏感信息也可能被收集。
Truffle Security 的安全研究人员发现,各种凭证、API 密钥和密码 马耳他 whatsapp 数据 都被网络所捕获。最大的问题是一些 Web 开发人员在网站上硬编码敏感信息,这些信息最终会落入 LLM 培训数据中。
研究人员在 276 万个网站中发现了 11,908 个活动秘密(API 密钥、密码以及其他通过各自服务成功验证身份的凭证)。
“Common Crawl 数据集中泄露的密钥不应该给他们的组织带来不良影响;开发人员在他们无法控制的网页上将密钥硬编码到前端 HTML 和 JavaScript 中不是他们的错。Common Crawl 不应该负责编辑机密;他们的目标是为 Truffle Security 等组织提供基于公共互联网的免费公共数据集,以进行此类研究,”研究人员 解释道。
事实上,开发 LLM 的公司已经警告过这一问题。建议很简单:不要在网站上硬编码任何类型的敏感信息,尤其是因为使用 AI 的人可能会将提供的代码用于他们的工作,从而在不知不觉中进一步扩大问题。