Page 1 of 1

群体基因组学中的数据科学挑战

Posted: Sat Jan 25, 2025 5:44 am
by Mitu9900
近十年前,人类基因组计划成功地给出了整个人类基因组 DNA 序列的基线定义。群体基因组学将基因组学研究的范围扩展到基线数据之外,以便更好地了解个体、群体和大陆层面的基因变异。

以印度为例,该国已推出一项名为 IndiGen 的雄心勃勃的计划,旨在绘制该国不同人群的全基因组序列。该计划的第一阶段涉及对来自印度的 1,029 个测序基因组进行广泛的计算分析,在印度基因组数据集中发现了 55,898,122 个单核苷酸变异,其中 32% 是印度序列样 保加利亚手机数据 本所特有的。这些发现有望为以印度为中心的人口规模基因组学计划奠定基础。

群体基因组学开辟了一系列特定区域的机会,例如识别导致复杂疾病的基因,预测和减轻疾病爆发,关注国家级药物开发、使用和剂量指南,以及制定为人口提供最佳价值的精准公共卫生战略。

因此,全球多个国家都已启动本国人口大规模 DNA 序列比较计划。


群体基因组学热潮

图片来源:IQVIA



国际人类基因组单体型图计划于 2002 年启动,是六个国家公共和私人机构的科学家开展的一项合作计划,也是最早的人口规模基因组学计划之一。

2020 年全球基因组学格局分析报告显示,全球有近 190 项基因组计划,其中美国和欧洲占绝大多数。一些国家已经启动了大规模测序计划,例如 All of Us (US)、Genomics England、Genome of Greece、DNA do Brasil、土耳其基因组计划和沙特人类基因组计划等。

此外,欧盟还发起了“ 1+百万基因组”计划,旨在创建一个跨境的国家基因组队列网络,统一来自多个国家计划的人口规模数据。

这些项目共同针对的是一系列目标,包括分析正常和病理基因组变异、改善基础设施和实现个性化医疗。

因此,人口基因组数据正在呈爆炸式增长。截至 2020 年,估计已有 4000 万个人类基因组被测序,预计到 2025 年,已分析的基因组数量将增长到 5200 万个。人口规模数据的这种指数级增长带来了重大挑战,无论是在大规模处理原始数据方面,还是在分析和解释复杂数据集方面。