MRS大企业ERP流程实时数据湖加工最佳实践

2023-08-09 17:05 由华为云开发者联盟发表于 #数据库

本文分享自华为云社区《MRS大企业ERP流程实时数据湖加工最佳实践》，作者：晋红轻。

本文将以ERP流程实践为例介绍MRS实时数据湖方案的演进

案例实践需求解析：

业务描述

AE表：会计分录表，主要记录财务相关信息，可用于成本核算等业务计算。为业务最主要的表，称驱动表。
四通道表：实际为四个门店业务系统，主要记录销售记录信息。为成本核算、科目报表分析等业务提供信息佐证。可称为维表。

业务痛点

科目分析报表业务供数慢的痛点，数据时延高。
实际业务数据有内容更新，保证数据严格一致。
科目分析报表查询仅支持公司、科目、时段等少量查询条件。

实时数据湖方案优势

实时数据湖方案做增量加工，将传统供数压力卸载到每天、每小时、每分钟，100万数据查询只需要2min。
使用Hudi作为数据湖天然支持数据更新。
提供所有数据归档，可随时回溯。
支持科目、批名、凭证名、合同号等31个查询条件，大幅度减少用户导出数据后筛选过滤时间。支持用户基于页面直接分析。

实时数据湖方案实施挑战

流计算基于内存，峰值数据量过大会影响作业稳定性。
多流时延大，数据等待耗费大量内存资源，需考虑业务需求与使用资源的平衡。

流加工模型一：

模型一特点

•Hudi表流读能够减少整体内存开销，提高作业稳定性。

•以其中一条流为基准（左表），去比较另一条流（右表）

•会出现关联缺失的情况，以驱动表（AE表）的视角（新增&更新）

•1）四通道流早到，并且ttl到期后数据丢失

•2）四通道流晚到，AE流ttl到期后数据丢失

模型一局限：

•目标宽表数据会出现不准的情况

•源端新增因为关联不出有效结果造成目标宽表缺数 -> missing

•源端更改因为关联不出有效结果造成目标宽表延时 -> delay

流加工模型二：

补偿目的：

补偿目的：基于业务逻辑，对比源端流表和目的端宽表数据内容，发现目标宽表缺失数据主要字段，关联源表完整内容找出缺失数据，并写回源端表补偿层。

missing&delay补偿模拟：

模型二特点：比较方案一增加补偿机制，能够对比源表（AE表，四通道表）以及目标宽表，找出缺失数据missing, delay。

模型二局限：实际情况双流之间时延可能较大、对齐较难，虽然能够使用补偿机制找回缺失数据，但是这样流加工任务主要角色会被弱化，同时会对补偿任务造成更大压力，数据时延会变大。

流加工模型三（最终）：

双写目的：业务系统持续向Hudi表，HBase表双写数据。Hudi表流读，提供主要热关联数据，HBase存储所有历史数据，技术上就是维度表，为热关联失败之后进行快速点查补数(lookup join)得到有效关联。提高双流关联的命中率。减少流加工整体数据时延。

维表选型：

模型总结：

点击关注，第一时间了解华为云新鲜技术~

金融科技与现代开源技术结合的进展超前到你无法想象！

想要了解最新的金融科技进展吗？渴望与其他技术爱好者交流，并扩展您在金融科技行业中的人脉关系吗？那么请参加我们即将举行的 Meetup，本次活动由 Apache DolphinScheduler 社区和 OceanBase 技术社区共同举办，聚焦金融科技进展，线上&线下同步，欢迎关注并预约直播。在 ...阅读全文

何时使用MongoDB而不是MySql

## 什么是 MySQL 和 MongoDB MySQL 和 MongoDB 是两个可用于存储和管理数据的数据库管理系统。MySQL 是一个关系数据库系统，以结构化表格格式存储数据。相比之下，MongoDB 以更灵活的格式将数据存储为 JSON 文档。两者都提供性能和可扩展性，但它们为不同的应用场景 ...阅读全文

Apache DolphinScheduler 3.1.8 版本发布，修复 SeaTunnel 相关 Bug

![file](https://img2023.cnblogs.com/other/2685289/202308/2685289-20230809171102754-1600994267.jpg) > 近日，Apache DolphinScheduler 发布了 3.1.8 版本。此版本主要基于 3 ...阅读全文

MongoDB 位置查询报错 planner returned error: unable to find index for $geoNear query

执行查询语句，使用 $nearSphere /** * 1千米 = 0.6213712英里 15千米 = 9.3205679英里查询通过除以地球的大约赤道半径(3963.2英里)将距离转换为弧度。 * ①：如果是第一页，查询50公里内的老朋友店铺， * ②：查询15公里内所以的置顶服务商家，然后根 ...阅读全文

MySQL 优化—— SQL 性能分析

# SQL 性能分析 ## SQL 执行频率 MySQL 客户端连接成功后，通过 `show [session | global] status` 命令可以提供服务其状态信息。通过下面指令，可以查看当前数据库 CRUD 的访问频次： `SHOW GLOBAL STATUS LIKE 'Com____ ...阅读全文

袋鼠云数栈 DataOps 数据生产力实践，实现数据流程的自动化和规范化

[袋鼠云产品团队](https://www.dtstack.com/dtinsight?src=szsm)在帮助企业进行数字化转型实践的过程中，发现很多企业在[数据生产链路](https://www.dtstack.com/dtinsight?src=szsm)上都有着相同的问题。包括数据团队聚焦于 ...阅读全文

这么分页，小心有坑

## 背景生产上有个导报表功能，工作了很长一段时间一直都很稳，没出现过什么问题，最近运营同学突然反馈导出来的数据和实际的对不上，经过排查发现导出的数据有重复，也有的没导出来。由于我们提前生成好数据（每天会truncate重新生成），所以导出的逻辑非常简单，不需要关联很多表捞数据，只需要从一张表查 ...阅读全文

GreatSQL从单机到MGR扩展纪实

# 一、前言原有的业务系统跑在MySQL主从架构中，高可用通过脚本完成，但存在切换数据丢失和切换不及时风险，调研了高可用更稳定的MGR后，准备入手一试。本篇文章主要记录GreatSQL从单机扩展到MGR的详细过程，遇到的问题及解决方法。 # 二、基础环境服务器角色如下 | IP | 端口 | 主 ...阅读全文

选读SQL经典实例笔记20_Oracle语法示例

![](https://img2023.cnblogs.com/blog/3076680/202308/3076680-20230807132720267-1631745639.png) # 1. 计算一年有多少天 ## 1.1. Oracle sql语句实例 ```sql select 'Days ...阅读全文

XtraBackup数据备份与恢复（全部、增量、差异）

# XtraBackup数据备份与恢复（全部、增量、差异） ## 前言 ### 1.XtraBackup介绍 Percona-xtrabackup是 Percona公司开发的一个用于MySQL数据库物理热备的备份工具，支持MySQL、Percona server和MariaDB，开源免费，是目前较为 ...阅读全文