源码交付!基于Kettle的企业级ETL数据中台系统

2026-03-05 10:02 栏目: 技术学堂 查看()

1.产品介绍

基于 Kettle 的轻量化数据中台 —— 这是一款覆盖数据全生命周期的一站式数据能力平台,专为企业数字化转型量身打造,让数据从接入到应用的全流程更高效、更可控。

易部署、易使用、可插拔、全面国产化

平台以Web 可视化 ETL为核心引擎,实现多源数据接入、标准统一、质量管控、资产化运营与服务化输出

平台采用轻量化 Doris 数据仓库,无需复杂 Hadoop 架构,集成离线开发、实时采集、元数据、数据标准、数据质量、指标、标签、主数据、安全、可视化、资产门户等全套能力

可广泛服务于制造、政府、金融、能源、零售等行业,支撑企业 “用数据决策、用数据管理、用数据创新” 的数字化转型目标。

image.png 

2.核心优势

功能完备:本产品除了涵盖基础中台所必备的元数据、标准、质量、采集、生命周期、数据服务、资产门户等核心功能外,在标准版中还额外配 备了数据标签、数据指标、BI、知识图谱、数据运维等众多竞品所不 具备的实用功能。

使用简单:本产品采用doris作为数据仓库,其部署及使用成本均远低于基于hive+hadoop 架构的中台方案。熟悉Mysql报表开发的用户即可轻 松完成数据采集与分析服务。在数据采集功能设计方面,我们支持在 线拖拽式可视化操作,有效缩短开发周期,实现项目实施的降本增效。

可插拔设计:本产品非常多的模块提供了可插拔式设计,比如系统日志、服务器监控、大数据引擎调度(MR、Spark)、数据可视化、知识图谱等, 可按需部署,按需采购

国产化支持:本产品支持国产X86、ARM芯片(如兆芯、飞腾、海思),支持国产操作系统(如UOS,银河麒麟),支持国产化数据库(如阿里OB、TIDB、 人大金仓)。自持自由替换中间件(比如servlet容器、缓存、消息替 换为东方通)。

AI加持:元数据治理、数据标准、数据模型、数据指标、数据标签等功能全面接入AI大模型,提高实施效率,降低实施成本。独有的AI问数功能更是利用TEXT2SQL+MCP技术实现了业务人员通过自然语言就可 以进行数据分析和图表生成。

3.核心功能

元数据管理是数据治理的核心基础,用于统一管理描述数据属性的各类信息,涵盖库表结构、接口参数、文件格式等。系统支持 HiveMySQLOracle、人大金仓等主流 JDBC 数据源接入与连接池配置,可自动、定时或手动批量采集元数据,支持分表、定向与分批采集。通过最新元数据维护、数据血缘展示、影响分析及版本定版管理,实现元数据标准化管控,同时支持多版本差异对比,为数据共享、数据应用提供可靠、可追溯的元数据支撑。

image.png 

数据标准:是数据治理的核心规范,需在元数据定版后制定,参照国标、行业及内部标准。核心包含标准词根、标准字典、数据元、标准模型四大模块,支AI辅助识别词根、字典及高频数据元,提升实施效率。通过统一字段命名、字典对照、数据元素规范及标准化数据模型,保障数据一致性,为各层数据模型设计、数据共享及第三方系统对接提供规范支撑。

image.png 

数仓设计:数仓设计是数据资产化的核心环节,核心包含主题域、业务主题、数仓分层及数据模型设计。主题域按业务视角宏观分类,业务主题为其细化场景;数仓分层按数据处理流程划分,实现数据从原始到应用的逐层加工。数据模型兼容多种架构,提供主键、明细、聚合三种类型,分别适配更新去重、海量无更新数据存储、预计算聚合等不同场景,支撑多样化数据分析需求。

image.png 

数据采集/开发数据中台数据流转的核心环节,涵盖数据导入与加工全流程。支持多源数据目录简化采集,兼容多种数据库;离线开发依托kettle引擎,提供拖拽式设计与多语言扩展,适配多数据源采集;实时开发基于flink引擎,实现数据实时同步。同时提供web版数据库工具与物化视图功能,兼顾数据访问安全与查询效率,支撑数据高效处理与应用。

image.png 

数据质量数据中台的核心保障,通过全链路管理机制确保数据满足准确性、完整性等核心指标,支撑业务决策可靠。核心包含质量概览、规则配置、检测任务、检测报告四大模块,提供丰富规则模板与自定义配置能力,支持定时及手动触发检测任务,生成详细报告并可导出异常数据,搭配告警机制实现数据质量“定义-检测-优化-闭环”的全生命周期治理。

image.png 

数据指标是数据价值落地的核心载体,通过标准化指标定义体系与自动化计算引擎,实现企业核心业务指标的精准管理、高效复用与智能分析。支持原子指标、派生指标管理,适配实时与离线加工,可组合指标看板供业务部门查看。同时支持AI识别可生成指标及对应SQL,助力快速开发,解决跨部门指标口径不一致问题,构建数据驱动闭环。

image.png 

数据标签是数据实体特征的符号表示,是整合复杂数据、实现数据资产化的核心方式。核心包含标签实体管理、数据标签管理、标签画像、标签圈群四大模块,支持对用户、商品等多类实体打标签,分为事实类与模型类两种标签类型。通过构建标签体系、生成可视化画像及精准圈群,助力业务精准定位目标对象、制定决策,推动数据标签化与标签业务化落地。

image.png 

数据生命周期在数据中台语境中特指数据归档与销毁过程,是数据全流程管理的重要环节。核心包含归档、恢复及其他辅助功能,可将Doris中无需使用的数据归档至低成本分布式文件系统并删除原数据,归档数据支持恢复至Doris重新用于分析,同时支持彻底删除与本地下载保存,实现数据高效管理与存储成本优化。

image.png 

数据安全数据中台的核心保障,通过多维度防护体系守护数据资产安全。核心包含分级分类、数据脱敏、存储加密、传输加密、授权认证五大模块,可划分数据资产等级控制用户可见范围,支持存储与查看双模式脱敏,采用多种加密算法保障数据存储与传输安全,同时为调用接口的系统分配独立凭证并灵活配置权限,全方位筑牢数据安全防线。

image.png 

数据服务数据接口,是数据中台与外界数据交换的核心载体,提供开发、测试、发布、上架全流程管理,保障数据高效流通与安全共享。核心包含在线开发、API注册、服务测试、服务发布及应用管理模块,支持低代码开发接口、注册第三方RestAPI,搭配多途径应用授权方式,为内部数据整合与外部合作提供稳定支撑,助力数据资产价值落地。

image.png 

主数据管理是数据中台全域治理的核心,基于统一框架对客户、产品等核心数据实体实施全生命周期管理。核心包含编码规则管理、主数据实体、主数据目录、主数据订阅四大模块,支持动态配置编码生成规则、自定义主数据实体及校验方式,可查看多版本数据并还原,通过webhook+MQ同步主数据变更至下游应用,保障跨系统数据一致,为决策与业务优化提供可靠数据基础。

image.png 

数据可视化-BI是数据价值呈现的核心模块,通过数据大屏(驾驶舱)展示数仓数据,助力企业快速洞察业务趋势、优化决策。核心包含数据集管理、大屏管理、仪表盘管理三大模块,可筛选数仓字段生成数据集为图表供数,支持拖拽式设计数据大屏并绑定数据源,同时提供轻量化仪表盘,兼顾展示效果与加载速度,适配业务部门日常数据查看需求。

image.png 

数据资产是企业具有实际及潜在价值的各类数据与信息的统称,涵盖文件、业务指标、客户画像、数据接口等多种形式。核心包含共享文件、资产目录、资产门户、AI问数四大模块,支持文件上传共享、资产编目与权限管控,为业务人员提供指标查看、报表浏览、数据下载等一站式服务,搭配AI问数功能,无需SQL即可完成数据分析,助力数据资产高效利用。

image.png 

 

4.技术架构

image.png 

 

l 后端:SpringBootSpringCloudNacosSpringGatewayMybatis PlusSpring securityEasyTrans

l 前端:VueElement UIecharts

l 中间件:

序号

中间件名称

用途

1

Nacos

注册中心、配置中心

2

Redis

缓存服务

3

Rabbitmq

消息服务

4

Flink+Zookeeper

实时数据开发/采集

5

Kettle

离线数据开发/采集

6

Doris

分布式数据仓库

7

Minio

分布式文件存储,也支持使用S3协议的其他中间件进行平替

8

KkFileView

文件在线预览

9

ES

日志存储


扫二维码与商务沟通

我们在微信上24小时期待你的声音

解答本文疑问/技术咨询/运营咨询/技术建议/互联网交流

郑重申明:小伙伴科技以外的任何非授权单位或个人,不得使用我公司案例作为工作成功展示!