36氪独家获悉,“倍赛BasicFinder”已完成数千万元A轮融资,由五岳资本和Talkingdata投资。
36氪此前多次报道“倍赛BasicFinder”,公司注册成立于2015年,靠数据标注工厂起家——将打字员改造成数据标记员,通过自营模式保证服务质量。后来公司收购了众包模式起家的“丁火智能”。
过去一段时间,公司的发展在两块:
一方面,数据标记是个重人力的劳动密集型行业,关键点就在于——提升人员效率、交付质量。另一方面,BasicFinder重点发力技术平台,输出AI基础设施的全流程产品。
“当数据任务量大时,比如标记百万级图片,可能需要200人/月。此时人员的配合管理很是关键,所以,BasicFinder主要在优化系统。”这是倍赛BasicFinder创始人兼CEO杜霖在2018年接受采访时表达,从前端采集,系统预处理,辅助标记,到监控数据集,产出模型等,BasicFinder自研发的系统不仅要通过工具提高人工标记的效率,而且更适配于企业对AI数据的全生命周期管理需求。
如今,倍赛BasicFinder已经形成标准化产品向外输出,主要包括3大体系:
1、BasicFinder HIVE数据标注系统——从企业的任务发布开始,HIVE系统可以起到管理任务的作用,到标注人员使用过程中,HIVE则有一系列工具集用于提高人员效率。
2、BasicFinder DATA AI数据中台——标注完的数据,包括企业的其他数据,都可以集中在该平台上存储、管理。该平台有一套检索权限机制,可以用于之后的数据建模。
3、BasicFinder PLAT建模平台——利用基于Docker技术,倍赛给企业做了一个建模环境,可以私有化部署在企业内部,前面流程中标注的数据,可以选取有效的直接到该平台上训练。优化的结果,再反馈给标注平台。
从1到2,是帮企业从单一数据到全数据,整合数据中台的逻辑,再做到3,则是纵向延伸,从底层数据到上层建模的逻辑。从而,倍赛BasicFinder可以实现从数据标注到模型训练迭代的一站式服务。
杜霖表示:“通过BasicFinder PLAT模型训导平台训练出的模型可以分为两个方面进行部署,一方面应用于现实场景识别;另一方面部署为预标注模型。最终,将预标模型和现实场景收集的数据分别接入BasicFinder HIVE数据标注平台。作为数据流转的原始起点,BasicFinder HIVE在新循环中将应用之前导入的预标模型,对新补充的数据进行智能预处理,然后人工复标,以确保数据准确性。标注完成数据版本化后流入数据中台BasicFinder DATA,之后再将数据挂载至BasicFinder PLAT模型训导平台,进行模型迭代和升级。整个过程降低了数据集的版本控制、存储和传输成本,也相应地缩减了模型周期性迭代成本,所以可以促进AI项目的快速落地。”(如下图)
“而PLAT模型训导平台,实质上相当于一个模型计算的容器管理系统,也可以理解为模型孵化器。该平台能够管理调度企业的GPU等计算资源,实现一键导入数据、配置计算环境及部署模型,提升AI工程师研发效能,降低企业AI算力调度和管理成本,同时保障数据资产安全。”
来源:36氪