DataPipeline获经纬中国领投2100万元A轮融资,打造实时的数据集成和应用平台

拓扑社(ID:tobshe)4月9日报道   (文:窦悦怡)

 

根据Forrester数据显示,2017年全球数据集成市场规模达320亿美元。在国外这条赛道上厂商间的竞争愈发激烈,既有Informatica、SAP、Oracle、Microsoft等传统厂商,也有SnapLogic、MuleSoft等新型厂商,都针对数据集成的问题提供相应的解决方案。

 

国内有像东方国信这类传统的集成商占据主要市场,华为、亚信等企业也在提供相应的解决方案。2017年4月,拓扑社(ID:tobshe)曾经报道过的Data Pipeline也是在做这样的事情,致力于帮助企业提供一站式实时的数据与应用集成平台。

 

近日,DataPipeline创始人陈诚宣布,公司于2017年底完成2100万元的A轮融资,由经纬中国领投,峰瑞资本跟投。

 

陈诚表示,A轮融资后,DataPipeline将重点补强产品、研发和营销团队,在产品研发的深度和广度上提升客户满意度,组建更成熟更高效的售前和销售团队,持续增加市场拓展力度,继续加强与产业上下游的紧密合作。

 

时隔一年,拓扑社再次采访到陈诚,与他深入交流了数据集成这件事,还有DataPipeline的变与不变。

 

用户需求决定业务边界的延伸

 

数据集成概念可以追溯到上世纪90年代,随着企业信息化的发展,企业逐渐意识到数据驱动决策的重要性,他们会利用等各种渠道获取的数据,应用到数据分析上,指导他们决策,这时候数据的集成与清洗是将数据应用于分析决策的第一步。

 

但尴尬的是,企业的这些数据往往会分散在各种异构系统里,企业要面对的,不仅仅是数据孤岛的问题,还有数据源和数据目的地的复杂性导致这件事情很难做,企业如果投入大量人力、财力去做,会有些吃力不讨好。

 

陈诚认为,在中国市场上,当前集成项目主要是解决企业单点问题是连接企业内部所有数据孤岛。但是传统数据集成方案存在着四方面的问题:

 

首先,企业逐年暴涨的数据,庞大规模的数据量对传统集成系统提出了严峻的挑战,传统ETL工具的高并发性能测试往往不达标或扩展性不足,先天不支持分布式架构,无法提供实时和批处理选择。

 

其次,当前企业异构数据源和目的地种类日益增多,采用传统ETL工具或自己编写脚本复杂度和维护成本都非常高,数据从各业务系统到被调用通常要经历模型设计、代码编写、测试上线等流程,所需周期过长,获取数据缺乏实时性,极易阻塞下游数据应用开发的进程。

 

这种情况会影响到企业管理者及时获取最新的数据情况,影响他做出决策,降低了企业的竞争力。

 

第三,采用传统集成方案,数据质量管控的流程中的预定义标准是非常僵硬的,没有办法做到根据业务的变化而灵活调整,缺少动态数据质量监控及预警的能力。

 

第四,传统集成方案在ETL中固化的转换不是优势反而成为一种束缚,ETL Job难以持续维和重复使用,极大降低其灵活性。

 

陈诚告诉拓扑社,当前企业在业务应用和数据应用方面的需求瞬息万变,对数据的使用从定式的数仓建模向探索式的数据应用、AI应用的方向探索。这时候,企业迫切希望找到一个为云而生、连接更敏捷、性能更可靠、实时性更强大的集成产品。

 

针对上述情况,DataPipeline为客户提供一站式实时的数据与应用集成的平台,为企业提供数据集成、数据清洗、数据同步产品和服务,帮助企业在云端连接各种结构化、半结构化或者非结构化数据,连接企业内部的数据孤岛。

 

简单来说,DataPipeline目前的定位很简单,就是瞄准整个数据产业链第一步,即数据与应用的集成。不过拓扑社发现到,去年DataPipeline的业务边界只停留在数据集成的层面,今年已经延伸到应用集成的维度,这种业务扩展的逻辑又是什么呢?

 

陈诚解释道,企业的数据源主要分两种,一种是通过业务系统、网站日志分析、第三方用户画像等产生的数据,一种是通过API接口提供的数据,无论哪种方式产生的数据源,但是这些都会归结到一个点,再扩展到一个面,最终形成一种网络,通过数据集成和清晰的方式使这些数据轻松流转起来,为企业数据分析提供依据,指导企业的业务。

 

“DataPipeline的初衷从来没有变过,就是为用户提供一站式实时的数据与应用集成平台,随着SaaS的成熟、微服务的深度应用,企业的数据源也有更深层次的发展,我们业务边界也会依据企业的需求进行拓展,我们的布局也从点到面一点一点的延伸和覆盖。”

 

立足用户需求,完善产品功能

 

拓扑社了解到,DataPipeline将数据量大、实时性、数据质量、敏捷应用这四点考量融入了产品之中。DataPipeline主要提供数据同步、数据清洗、数据任务管理、错误队列管理、运维管理和用户管理等功能。

 

DataPipeline采用可视化的界面,做到全程可控。用户通过管理界面,可以看到数据同步的状态,能看到数据的来源与结构,也能及时了解数据的接入、交换,数据流向。当数据同步出现问题时,基于完善的纠错机制与系统状态监控,也能第一时间找到数据源并进行处理。

 

具体来说,DataPipeline在产品架构设计之初就充分考虑了超大数据量的同步需求,超出传统ETL工具几个量级的高并发数和可扩展性。

根据应用场景实际需求,客户可灵活部署不同规模集群,以满足从GB级别到PB级别的日增量数据同步。现有的典型客户,已利用DataPipeline每天平稳并行传输数千张表和文件系统源、数百GB增量数据。

 

其次,DataPipeline设置了各类型数据源接口,统一接入企业内外部各类数据源,还有目的地的自动化数据交换,既可以满足企业内外所有异构数据的接入需求,也可以通过解析数据库的复制日志去捕获数据与数据定义的变化,让数据同步任务能够做到实时自适应。

 

第三,DataPipeline为客户提供全程数据质量监控,包括数据状态监控、预警队列管理以及无需人为预先定义的数据质量多维度检测功能,让客户不必担心因为经常出现的错误状态而影响数据质量。

 

最后,DataPipeline可以为客户提供适度的数据清洗功能,用内置的清洗功能和清洗API构建灵活的框架式功能,支持客户做更敏捷、更自由地实现数据加工、处理、分析和展现等操作。

 

考虑到部分企业对数据安全的需求,DataPipeline的交付方式除了有公有云的SaaS版外,还采用容器技术进行私有化部署,降低了部署成本,也支持混合云、跨云的部署模式,为了保障安全,非私有化部署时会进行加密处理。

 

“我希望不管是企业高管还是数据工程团队都能够更快的获取所需数据指标,将资源集中在自身业务和对业务的分析上,让数据可以实时的、精准地驱动企业商业决策和业务决策。”陈诚说道。

 

在收费模式上,DataPipeline采用按服务器部署节点的方式收取年费在具体行业上,DataPipeline主要分为在零售、金融、工业能源互联网几个领域的客户提供服务。

 

陈诚认为,这几个领域的共性特征是,其一,他们都是对数字化转型需求旺盛的领域,需要新型的IT架构,会使用各种异构系统,这样会产生大量的数据,同时数据源种类多;其二,他们对高质量数据需求比较直接,这样更有助于帮助其提供数据与应用集成平台服务,我们的产品价值也能体现出来。

 

在采访中,我们也聊到了今年3月MuleSoft被Salesforce以65亿美元溢价收购这件事,陈诚表达了自己的观点。

 

“Salesforce收购MuleSoft公司,可以进一步巩固云服务商的领先地位,另外一方面是看重MuleSoft在应用集成领域的价值,包括企业内部和企业之间的应用整合,即不同企业之间通话就通过MuleSoft的SDK完成,成为双方通话的标准。”

 

拓扑社采访到了DataPipeline的A轮领投方经纬创投董事总经理熊飞。熊飞表示:随着越来越多的行业意识到企业信息化建设的重要性,企业内部和外部异构数据源也会快速增加。传统数据集成和ETL方案在云时代会逐渐力不从心。

 

DataPipeline团队在Google,Yelp,AWS,Oracle、中科院、华为积累了丰富的企业数据集成经验,从A轮投资以来展现了良好的业务发展势头,期待公司在中国数据集成市场继续专注产品和客户,取得好成绩。

经纬已经在企业服务和云计算领域投资接近五十家公司,从软件定义存储,软件定义网络,容器,数据库,数据仓库,到云管理平台。经纬会继续大力支持该领域创业公司的发展。

 

截止目前,DataPipeline已经成功服务了数家大型客户,其中不乏很多国际和国内500强企业,同时,DataPipeline已与数十家产业上下游合作伙伴建立了战略合作关系。


声 明

本文为拓扑社(微信:tobshe)原创稿件,转载须在文章开头明显处注明来源拓扑社(微信:tobshe)及作者名字。如不遵守,拓扑社将向其追究法律责任。

拓扑社报道中所涉及的融资金额均由企业方提供,拓扑社不保证其数字真实性,仅供参考。

投稿、寻求报道或商务合作,请发邮件至 tobshe@itjuzi.com,或联系拓扑君(微信:tobsir),标注公司-职务-姓名,谢谢。

发表评论

电子邮件地址不会被公开。 必填项已用*标注