国家生物信息中心发布单体型网络分析软件HaploThread
近日,国家生物信息中心正式发布一款面向群体遗传学与演化研究的开源桌面软件HaploThread。该软件集成自主开发的McAN算法(Briefings in Bioinformatics, 2023)和MJN、TCS、MSN等多种先进的多线程单体型网络构建算法,为大规模基因组数据分析提供了一种高效、可靠且易用的本地化解决方案。
单体型网络是理解遗传变异、与推断进化关系的重要工具,在追踪病原传播路径等研究中发挥着关键作用。然而,现有主流桌面软件大多依赖单线程算法,难以高效处理大规模的序列数据,且在交互式可视化和时空分析方面功能有限。针对这些长期存在的痛点,团队开发了单体型网络构建与可视化桌面软件HaploThread。该软件在本地桌面环境下,将多种多线程单倍型网络构建算法与图形化用户界面(GUI)深度整合,使研究人员无需编程即可在普通个人电脑上快速完成大规模网络构建与探索性分析。HaploThread 包含两大核心功能模块:网络构建模块与网络可视化模块。其中,构建模块支持 VCF 和 PHYLIP 格式的序列文件作为输入,用户可通过图形化界面一键调用 TCS、MJN、MSN 和 McAN 等多种多线程算法,并灵活配置计算线程数以充分利用本地计算资源。可视化模块则支持导入 GraphML 或 GML 格式的网络文件,并可配套加载包含采样时间、地理位置或分组信息的元数据文件,实现节点按特征自动着色、时间轴动态展示网络演化,以及地图视图的空间分布呈现。此外,软件还支持将构建结果导出为 PDF、SVG、PNG 等多种格式的图片,便于直接用于论文发表或学术报告。
性能测试结果显示,在单线程条件下,HaploThread 在包含 5,000 条 SARS-CoV-2 基因组序列的数据集上,仅需 23 秒即可完成网络构建与可视化,运行速度达到同类软件的25倍以上。这一结果充分展示了 HaploThread 在真实桌面计算环境下处理大规模数据的显著优势。在准确性方面,研究团队以钻石公主号邮轮的新冠疫情数据为例,对 HaploThread 生成的网络与传统软件的结果进行了系统比较。结果表明,HaploThread中集成的多线程算法构建的网络在拓扑结构上与传统软件高度一致,验证了软件在保持高计算速度的同时具备可靠的网络重建能力。
该研究成果以“HaploThread: A Scalable Desktop Tool for Efficient Haplotype Network Inference and Interactive Visualization”为题,在国际学术期刊Molecular biology and evolution正式发表。国家生物信息中心宋述慧研究员为通讯作者,许博博士、李论副研究员为论文共同第一作者。研究工作获得“一带一路”国际科学组织联盟联合研究合作专项、国家科技重大专项、国家自然科学基金面上项目的支持。

HaploThread工作流程图






