如何实现mysql实时同步到clickhouse

场景：最近项目项目中的个别表比如日志、订单等相关的表数据越来越大，几乎上千万了，以后可能还会越来越大。很多业务场景已经慢慢支撑不住了，估计以后mysql连接工具打开这个表都会卡，更别说搞一些订单统计报表等等

想法：以前见过别人用clickhouse查询很快很快，原理好像是把mysql同步到clickhouse，然后查clickhouse

方案：想着如何mysql插入，然后同步到clickhouse，针对一些大表把model连接改成clickhouse。但是卡在实时同步到clickhouse这一步了，本地搭建了一个CloudCanal，试了一下好像只insert，不update和delete
比如我mysql更新ID为3的数据，clickhouse这边就会有2条ID为3的数据，一条是原数据，一条更新过的数据。而且这个CloudCanal同步表的时候会额外生成2个字段，一个是_sign，一个_version。

问题求助：如何让mysql实时同步到clickhouse，不是增量同步，是实时同步，并且不生成额外字段。不管是工具，还是啥，大家给我一个方案。我不擅长python或者go等语言，尽可能的有那种现成的工具最好

本作品采用《CC 协议》，转载必须注明作者和本文链接

讨论数量: 26

shenser

0 声望

实时同步，可以用canal来监听mysql，再写逻辑同步到ck，不过日志增量特别大的时候，mysql insert也很费劲吧，更别说update，瓶颈还是在mysql，所以还是把日志数据迁移到ck，业务直接操作ck更好

1年前评论

若只如初见（楼主）

我最后用tapdata了，目前还在测试中，看看会不会在频繁修改和插入的时候出问题

_yxun_

@若只如初见测试结果怎么样？最终采用了什么方案？

@yxun 试了好多方式，最好的结果也是只能同步数据，而且还有延迟，一旦表结构修改了，就可能会出问题。听说云服务也有同步数据这些，没有去试，因为要收费。准备先从代码入手优化，后面再看其他方案吧

jiangjun

72 声望 / php开发工程师 @ 红砖工厂

ck不适合做业务，同步日志是可以的，日志不会有update 和 delete，日志同步ck可以用kafka,数据推到kafka，ck有自带功能，从kafka写到自己的表里
订单表上千万，按理不应该啊，如果真的这样，可以分表分库，按时间切分纵向切分，按业务横向切分。

分表可能先不考虑，第一是因为要改很多业务点的代码，第二是因为按照月分，怕某一月数据大，按照天分又怕太繁琐

yyy123456

课程读者 367 声望

mongodb不考虑吗？

暂时不考虑

MR_NOBODY

21 声望

新增和更新全部改成新增到 clickhouse, clickhouse 引擎选择 ReplacingMegeTree, 查数据的时候加 final 关键字

你这种最后的结果还是clickhouse中有多条ID为3的数据，现在我遇见的问题就是如果把多余的字段，以及多条ID的这种数据处理了

MR_NOBODY （作者）

@若只如初见 clickhouse 会择机自动合并ID相同的数据. 为了在查询时过滤掉重复数据, 所以要在查询的时候加 final 关键字. 看你的描述, 同步方面应该不用做其他处理了, 只需要在查询的时候加个 final 就行了.

@若只如初见多余的字段不用处理, 这个是同步工具给你加上的

fofome

课程读者 42 声望 / php @ Fozu Ridge

不可以历史数据插入clickhouse 实时可能会变更的数据还是存mysql吗

buxiu

之前写过一个go项目将mysql同步到clickhouse，存量用golang操作mysqldump然后解析数据，增量监听mysql-binlog 数量量数十几亿的样子、去重用leveldb 跑起来很快

实时的延迟在多少？听说clickhouse频繁的更新和插入会出现问题，我还没有在正式部署，所以不知道将来是否也会出现这种问题

buxiu （作者）

@若只如初见没有具体测试过延迟，我们clickhouse做数据仓库，更新很少，插入的话我用 go select 做延迟和数据批量堆积

leo

管理员 4.7k 声望 / Engineering Director of Backend @ RightCapital

Clickhouse 不适合做数据更新，千万级别的数据更新一条记录可能就得几十秒甚至更多，订单这种频繁的状态更新的数据会直接压垮 Clickhouse

会出问题吗？一般会出啥样的问题，你以前碰见过类似的情况吗？

GeorgeKing

L5.7 译者 763 声望

ClickHouse 主要面向的是海量数据的批量写入和查询场景，不适合单条数据频繁操作，主要原因如下：

列式存储架构的更新操作需要定位并更改每一列中的数据，成本较高；
列式存储的批量压缩和分区存储机制使得单行更新或删除数据需要重新组织、合并底层数据文件，这会导致性能瓶颈；
ClickHouse 最常用的存储引擎是 MergeTree，它采用分区和排序键的方式存储数据。虽然 ClickHouse 支持 ALTER DELETE 和 ALTER UPDATE 操作，但这些操作实际上并不是即时生效的。它们会标记要删除或更新的数据行，并在后续的后台合并（merge）任务中将其实际处理；

最终表现在实际体验上就是，频繁的行操作，会导致 Clickhouse 占用资源非常高（甚至是服务不可用），总之如果数据不是像日志、指标类的不可变数据，最好不要用 Clickhouse，虽然也有一些方案可以避免更新操作，但是依然无法避免单条数据的插入和删除操作，例如：使用 ReplacingMergeTree 引擎的，然后通过附加版本字段，来过滤掉相同 ID 的历史版本数据行（这也就是 CloudCanal 为什么为产生 _version 字段的原因，这是行业的最佳实践）。

yangweijie

课程读者 90 声望 / 开发工程师 @ 瑞祥科技

日志类的可以考虑 parquet 格式, 有个flow-php 的库，据说压缩140倍查询几百毫秒可以一个目录下多个文件的查询，open-observe 背后就是这个日志文件来寸log的。

卖蛋饼等你下课

32 声望

ClickHouse 压根不适合你的场景

失色天空

238 声望

clickhouse有mysql引擎，直接在clickhouse里面查询mysql数据。如果频繁删除和更新的数据，不要用clickhouse，不适合它。数据同步的话，用canal自己开发一个多对多的同步工具吧

FlyingMaster

Laravel 9.x 译者 25 声望

Apache Doris + Apache Seatunnel， Seatunnel 使用Mysql-CDC source connector。

mengmeng_phper

课程读者 27 声望

订单表能不能冷热数据分开，才千万，我们之前2亿的表，照样很快，定时把不需要的数据备份，这样的话你们的业务表能够大概率能够保持动态增长。

xxxx1

1 声望

自建考虑postgres、StarRocks等，云产品考虑hologres 通过flink-cdc实时同步mysql的binlog

lwies

课程读者 13 声望

ClickHouse 的引擎不适合你现在的这个场景，可以考虑一下用字节的ByteHouse。至于如何同步数据的话，考虑一下监听mysql的biglog方案？

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容，与人为善，比聪明更重要！

帮助

如何实现mysql实时同步到clickhouse

社区赞助商

关于 LearnKu

资源推荐

服务提供商

其他信息

如何实现mysql实时同步到clickhouse

社区赞助商

关于 LearnKu

资源推荐

服务提供商

其他信息

请登录