当人类发现,人体所有的密码都藏着基因之中时,对基因测序的研究从未停止过,但是仅仅停留在科研阶段。直到第二代基因测序技术的出现,基因检测才获得重要的转折点——测序技术成本降低到普通民众可以接受的程度,由此这一行业得到了真正的快速发展。
这其中的逻辑不难理解,基因检测能够对个体进行更加个性化和精准化的诊断。比如,经常有人有这样的疑问“亲人生病了,我会不会也生这个病?”,基因测序就能检测出自己是否携带“疾病易感基因”,决定了自己是不是高危人群。
相关机构的研究报告显示,全球基因测序市场规模从 2007 年的 800 万美元增长至 2013 年约 45 亿美元,至 2018 年将达到约 117 亿美元,其中,2007- 2013 年复合增长率为33.53%,预计2013- 2023 年复合增长率为21.06%,市场潜力巨大。
一时间,基因测序成为各国生物公司竞争的焦点,再加上我国政府于 2015 年“精准医疗”计划的提出,使得基因测序逐渐成为我国科技医疗领域乃至各级政府备受关注的发展方向。
目前,我国基因检测相关企业已经超过 500 家。谁能够在风口浪尖之中抢占发展的先机?一位在基因测序领域资深创业者表示,要想走在行业的前列,凭借的是丰富的测序经验、专业的技术优势和对市场需求的充分洞察,同时还必须不断提升自身的测序能力和数据分析能力,在数种复杂高难度的前沿测序技术方面形成了独特的竞争优势。
很显然,生物技术的发展和基因测序经验的积累自然是第一位,但是如何最优地获得IT力量的加持,提升测序能力和数据分析能力,则成为加速基因测序事业发展的底层驱动力。
基因测序工程给IT系统带来的巨大挑战
一般人可能想象不到,基因测序工程动辄需要数万/数十万个基因测序及模型建立,需要多大的计算和存储资源。人体有 23 对染色体,31. 6 亿个碱基对,一次 30 倍的全基因组测序下机数据可以到200GB,中间运算过程中还会变大至600GB,从基因转换到拼接再到对比,最后是注释全流程,如果用一台高性能服务器运行,整个重组计算过程大概需要 20 多个小时。
以国内某机构每天产生的数据量300T至600T计算。可以说任何本地系统的扩容速度都无法追上这种规模的数据增长。用一句话来总结基因测序的实际情况就是:利用各种软件进行各种运算,来处理海量的基因数据。
一张X光片的数据量就达几十兆,一个CT可达100MB,一个标准病理图接近5GB,以国内医院数量约 3 万家来计,每年增长的数据总量将达到60PB-1EB之多,所以每一二年医院存储系统都要扩容。而且,这些数据中80%以上为非机构化数据,进一步带来数据在管理和运用上的困难和挑战。
首先,不管是直接购买物理机或者自建HPC集群,成本都是非常高的。在前期测序业务还没有开展时,就需要投入大量资金进行设备采购维护,无疑提高了一个测序公司的风险成本。
其次,由于测序业务量本身是存在波动的,这会导致服务器的数量不能很好的控制。服务器不足则无法满足业务高峰时的测序任务。如果采购可以满足最大峰值的集群,那么在业务量不能时刻保持高峰时,就会存在很大的成本浪费。
有孚网络助力基因企业构建核心IT能力
尤其是第三代基因测序技术渐成主流后对算力和存储的要求更高。
与前两代技术相比,第三代测序技术最大的特点就是单分子测序,测序过程无需进行PCR扩增,超长读长,以PacBio SMRT技术的测序读长为例,平均达到10Kb-15Kb,是二代测序技术的 100 倍以上。但是这些优势的达成,背后就必然要求企业的IT基础能力提升一个大台阶,对网络、存储、算力及业务响应的及时性、可靠性、安全性等都提出了更高的要求。
基于基因测序企业对计算能力和海量存储的需求,有孚网络将两种需求紧密结合,提供高密度的计算能力和高性能、高可靠、低时延、低成本的海量存储系统,大幅降低成本,并根据需求调整规模和提高创新速度,帮助企业简单便捷的管理大数据,真正做到为企业客户降本增效。
具体来说,有孚网络基于自有数据中心资源及有孚专有云部署的虚拟化存储资源池,将蓝光光盘、SATA、SAS、SSD等多种存储介质灵活组合,可以满足各种应用程序的多种需求,并根据数据的访问频率进行冷热分层、自动沉降,以确保访问性能并降低 TCO。
而在数据中心的布局上,有孚网络以北京、上海、深圳为中心,涵盖京津冀、长三角、粤港澳大湾区等重要热点区域。
有孚网络还可以打通从测序仪到云端存储的数据传输通道,测序仪得到的基因组数据可以直接存储在有孚云上,从而实现本地计算能力和云端计算能力的整合,利用云计算的弹性,迅速完成客户的计算任务。让企业可以将更多精力投入到业务能力上来,发挥数据的价值,为患者推荐更好的医疗方案。
海量数据从测序仪上下机之后,需要在不同地域、不同企业机构之间进行数据传输。这个时候的新问题就来了:基因数据相对比较隐私,公网传输安全措施不到位,防御能力很弱,数据安全难以保障,而且另外一方面数据传输效率也比较低。但传统的基因公司IT能力较弱。
如何将基因测序的海量数据安全、高效地进行传输?有孚网络为企业客户提供专网专线接入,包括但不限于电信、联通、移动、教育、BGP等网络服务,享受低延迟和高带宽,保证海量基因数据的稳定传输;同时,与公网完全隔绝、无数据泄漏风险,实现高速、可靠和安全的数据传输。
随着基因测序行业的发展,国家监管机构对相关数据的安全性要求会越来越高,而现有的数据存储方式很难完全满足数据安全等级保护的要求。
有孚网络利用云平台本身的vpc的网络隔离,高防,数据加密等安全机制可以保证数据的安全性。当期客户对业务部署的合规性或数据安全有较高要求时,采用物理隔离方式,确保资源独享、数据隔离、可监管、可追溯。
随着基因行业企业的不断发展与扩大,IT硬件资源的运维在技术、建设周期和成本上都面临巨大的挑战。运维人员经常要去处理PB级别数据存储包含规划、分配、回收、归档等过程,这些过程对数据管理员要求非常高,造成运维压力巨大。
而从现实的情况来看,基因行业的企业普遍缺少本地维护人员。很多公司没有专门的运维人员。即便是有运维人员,运维的挑战和成本也逐渐爬升,本地运维需要支出电费、人员成本、各种等保认证安全认证服务,还包括软件的安装&升级,故障的定位,环境的恢复等等,这些都无疑增大了运营成本。另外,产业园区内企业可能还会面临来自园区的各种限制,比如场地不足、不能使用大功率设备等问题。
针对基因测序行业普遍缺少合规的服务器管理服务,缺乏服务器运维人员的现状,有孚网络依托自身在北京、上海、深圳的高等级数据中心资源为基因行业提供合规的、安全的服务器托管与运维服务。
在基因测序领域,以数据分析、云计算为主导的IT技术已经成为驱动行业创新、变革的重要因素。云计算的到来,使数据以及计算全部可以在云上完成,满足企业数据不下云、高效完成企业的计算需求,减少企业重资产投入以及运营维护的工作,让客户更聚焦在自身的业务发展上,有孚网络将持续为推动基因测试行业的发展提供技术支持。