2021-09-29 16:53 已编辑东华理工大学大数据开发工程师

关注

Flink-cdc实时读postgresql

由于公司业务需要，需要实时同步pgsql数据，我们选择使用flink-cdc方式进行

架构图：

前提步骤:

1，更改配置文件postgresql.conf

# 更改wal日志方式为logical
wal_level = logical # minimal, replica, or logical

# 更改solts最大数量（默认值为10），flink-cdc默认一张表占用一个slots
max_replication_slots = 20 # max number of replication slots

# 更改wal发送最大进程数（默认值为10），这个值和上面的solts设置一样
max_wal_senders = 20 # max number of walsender processes
# 中断那些停止活动超过指定毫秒数的复制连接，可以适当设置大一点（默认60s）
wal_sender_timeout = 180s # in milliseconds; 0 disable

wal_level是必须更改的，其它参数选着性更改，如果同步表数量超过10张建议修改为合适的值

更改配置文件postgresql.conf完成，需要重启pg服务生效，所以一般是在业务低峰期更改

2，新建用户并且给用户复制流权限

-- pg新建用户
CREATE USER user WITH PASSWORD 'pwd';

-- 给用户复制流权限
ALTER ROLE user replication;

-- 给用户登录数据库权限
grant CONNECT ON DATABASE test to user;

-- 把当前库public下所有表查询权限赋给用户
GRANT SELECT ON ALL TABLES IN SCHEMA public TO user;

3，发布表

-- 设置发布为true
update pg_publication set puballtables=true where pubname is not null; -- 把所有表进行发布
CREATE PUBLICATION dbz_publication FOR ALL TABLES; -- 查询哪些表已经发布 select * from pg_publication_tables;

4，更改表的复制标识包含更新和删除的值

-- 更改复制标识包含更新和删除之前值
ALTER TABLE test0425 REPLICA IDENTITY FULL;
-- 查看复制标识（为f标识说明设置成功）
select relreplident from pg_class where relname='test0425';

OK，到这一步，设置已经完全可以啦，上面步骤都是必须的

常用的pgsql命令（备忘）

-- pg新建用户
CREATE USER ODPS_ETL WITH PASSWORD 'odpsETL@2021'; -- 给用户复制流权限
ALTER ROLE ODPS_ETL replication; -- 给用户数据库权限
grant CONNECT ON DATABASE test to ODPS_ETL; -- 设置发布开关
update pg_publication set puballtables=true where pubname is not null; -- 把所有表进行发布
CREATE PUBLICATION dbz_publication FOR ALL TABLES; -- 查询哪些表已经发布 select * from pg_publication_tables; -- 给表查询权限
grant select on TABLE aa to ODPS_ETL; -- 给用户读写权限
grant select,insert,update,delete ON  ALL TABLES IN SCHEMA public to bd_test; -- 把当前库所有表查询权限赋给用户
GRANT SELECT ON ALL TABLES IN SCHEMA public TO ODPS_ETL; -- 把当前库以后新建的表查询权限赋给用户
alter default privileges in schema public grant select on tables to ODPS_ETL; -- 更改复制标识包含更新和删除之前值
ALTER TABLE test0425 REPLICA IDENTITY FULL; -- 查看复制标识 select relreplident from pg_class where relname='test0425'; -- 查看solt使用情况
SELECT * FROM pg_replication_slots; -- 删除solt
SELECT pg_drop_replication_slot('zd_org_goods_solt'); -- 查询用户当前连接数 select usename, count(*) from pg_stat_activity group by usename order by count(*) desc; -- 设置用户最大连接数
alter role odps_etl connection limit 200;

5，下面开始上代码：

maven依赖

        <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-scala_2.11</artifactId> <version>1.13.0</version> </dependency> <!-- https://mvnrepository.com/artifact/org.apache.flink/flink-streaming-scala --> <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-streaming-scala_2.11</artifactId> <version>1.13.0</version> </dependency> <dependency> <groupId>com.alibaba.ververica</groupId> <artifactId>flink-connector-postgres-cdc</artifactId> <version>1.1.0</version> </dependency>

java代码

package flinkTest.connect; import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment; import org.apache.flink.table.api.EnvironmentSettings; import org.apache.flink.table.api.TableResult; import org.apache.flink.table.api.bridge.java.StreamTableEnvironment; public class PgsqlToMysqlTest { public static void main(String[] args) { //设置flink表环境变量 EnvironmentSettings fsSettings = EnvironmentSettings.newInstance()
                .useBlinkPlanner()
                .inStreamingMode()
                .build(); //获取flink流环境变量 StreamExecutionEnvironment exeEnv = StreamExecutionEnvironment.getExecutionEnvironment();
        exeEnv.setParallelism(1); //表执行环境 StreamTableEnvironment tableEnv = StreamTableEnvironment.create(exeEnv, fsSettings); //拼接souceDLL String sourceDDL =
                "CREATE TABLE pgsql_source (\n" +
                        " id int,\n" +
                        " name STRING,\n" +
                        " py_code STRING,\n" +
                        " seq_no int,\n" +
                        " description STRING\n" +
                        ") WITH (\n" +
                        " 'connector' = 'postgres-cdc',\n" +
                        " 'hostname' = '***',\n" +
                        " 'port' = '5432',\n" +
                        " 'username' = 'bd_test',\n" +
                        " 'password' = '***',\n" +
                        " 'database-name' = 'bd_test',\n" +
                        " 'schema-name' = 'public',\n" +
                        " 'debezium.snapshot.mode' = 'never',\n" +
                        " 'decoding.plugin.name' = 'pgoutput',\n" +
                        " 'debezium.slot.name' = 'test',\n" +
                        " 'table-name' = 'test'\n" +
                        ")";

        String sinkDDL =
                "CREATE TABLE mysql_sink (\n" +
                        " id int,\n" +
                        " name STRING,\n" +
                        " py_code STRING,\n" +
                        " seq_no int,\n" +
                        " description STRING,\n" +
                        " PRIMARY KEY (id) NOT ENFORCED\n" +
                        ") WITH (\n" +
                        " 'connector' = 'jdbc',\n" +
                        " 'url' = 'jdbc:mysql://ip:3306/test_db?rewriteBatchedStatements=true&useUnicode=true&characterEncoding=UTF-8',\n" +
                        " 'username' = 'bd_test',\n" +
                        " 'password' = '***',\n" +
                        " 'table-name' = 'test'\n" +
                        ")";

        String transformSQL =
                "INSERT INTO mysql_sink " +
                        "SELECT id,name,py_code,seq_no,description " +
                        "FROM pgsql_source"; //执行source表ddl  tableEnv.executeSql(sourceDDL); //执行sink表ddl  tableEnv.executeSql(sinkDDL); //执行逻辑sql语句 TableResult tableResult = tableEnv.executeSql(transformSQL); //控制塔输出 // tableResult.print();  }
}

表机构奉上：

-- pgsql表结构 CREATE TABLE "public"."test" (
  "id" int4 NOT NULL,
  "name" varchar(50) COLLATE "pg_catalog"."default" NOT NULL,
  "py_code" varchar(50) COLLATE "pg_catalog"."default",
  "seq_no" int4 NOT NULL,
  "description" varchar(200) COLLATE "pg_catalog"."default", CONSTRAINT "pk_zd_business_type" PRIMARY KEY ("id")
)
; -- mysql表结构 CREATE TABLE `test` (
  `id` int(11) NOT NULL DEFAULT '0' COMMENT 'ID',
  `name` varchar(50) DEFAULT NULL COMMENT '名称',
  `py_code` varchar(50) DEFAULT NULL COMMENT '助记码',
  `seq_no` int(11) DEFAULT NULL COMMENT '排序',
  `description` varchar(200) DEFAULT NULL COMMENT '备注', PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4;

6，下面就可以进行操作原表，然后增删改操作

WITH参数

<caption> </caption> <colgroup> </colgroup>

参数	说明	是否必填	数据类型	备注
connector	源表类型	是	STRING	固定值为postgres-cdc。
hostname	Postgres数据库的IP地址或者Hostname。	是	STRING	无
username	Postgres数据库服务的用户名。	是	STRING	无
password	Postgres数据库服务的密码	是	STRING	无
database-name	数据库名称	是	STRING	数据库名称支持正则表达式以读取多个数据库的数据。
schema-name	Postgres Schema名称	是	STRING	Schema名称支持正则表达式以读取多个Schema的数据。
table-name	Postgres表名	是	STRING	表名支持正则表达式去读取多个表的数据。
port	Postgres数据库服务的端口号	否	INTEGER	默认值为5432。
decoding.plugin.name	Postgres Logical Decoding插件名称	否	STRING	根据Postgres服务上安装的插件确定。支持的插件列表如下： decoderbufs（默认值） wal2json wal2json_rds wal2json_streaming wal2json_rds_streaming pgoutput 说明如果您使用的是阿里云RDS PostgreSQL，你需要开启逻辑解码（wal2json）功能，详情请参见逻辑解码（wal2json）。
debezium.*	Debezium属性参数	否	STRING	更细粒度控制Debezium客户端的行为。例如'debezium.snapshot.mode' = 'never'，详情请参见配置属性。说明建议每个表都设置debezium.slot.name参数，以避免出现PSQLException: ERROR: replication slot "debezium" is active for PID 974报错。

类型映射

Postgres CDC和Flink字段类型对应关系如下。

全部评论

推荐最新楼层

今天 14:55

清华大学 Java

Java 八股背了两个月，为什么面试还是挂？

最近发现一个很扎心的现象。很多同学学 Java，真的很努力。HashMap、ConcurrentHashMap、AQS、线程池、JVM、Spring、MySQL、Redis……背了一轮又一轮，PDF 存了一堆，题库刷了一堆，笔记也记了一堆。但最后一面试，还是挂。为什么？因为很多人以为：Java 面试拼的是“你背了多少八股”。但实际上，面试官更在意的是：你是不是只会背八股。这两个事情，看起来很像，其实差别非常大。一、先说结论：会背，不等于会答很多同学准备 Java 面试，方法都差不多：先刷八股再背项目然后临近面试开始突击 JVM、并发、MySQL、Redis希望靠“高频题覆盖率”把面试顶过去这条...

点赞评论收藏

分享

05-02 14:26

小天才_产品研发部_软件工程师(准入职员工)

小天才内推，小天才内推码

对于清澈的大学生来说，跨越大半个中国到一个完全陌生的地方工作，多少有点慌。幸好同部门小姐姐人都超级温暖。为了入职方便，我提前到公司，是星期天。本以为大家都休息，想着要“自力更生”时，同部门的姐姐主动联系我，在公司接我，陪我入住，拖行李，带我熟悉周边环境，吃了好吃的糖水。入职前，姐姐们就开始关心我，会问我“有没有去吃饭呀，食堂今天的排骨好吃。”感觉并不是完全上下属，前后辈的关系，更像朋友和家人一样。 园区环境更不用说了，免费单人宿舍，干净宽敞，独卫，空调，热水器还有小阳台一应俱全。食堂超好吃，作为一个没在南方生活过的东北人，口味完全可以适应。 工作方面，现在岗位是我的梦岗，但疫情实习机会少，没接...

小天才公司福利 1876人发布

点赞评论收藏

分享

03-29 09:25

大连海事大学 Java

27届实习全是已读不回，求拷打简历

海投了五六百份了，都没有回信，全都已读不回，没有约面，小厂实习也没有几个回的，211本这个简历很差吗，是不是再快速补一个agent项目，再补点agent知识，往agent开发那里靠靠，面试才会多一点？求大佬指点引流：腾讯，阿里，字节，pdd，米哈游

Alice22020...：哥们我也是黑马点评，今天面试官说这各项目要不是看我是211本，连面试的机会都没有

简历中的项目经历要怎么写

点赞评论收藏

分享

04-23 00:20

字节跳动_全栈开发(实习员工)

入职成功！

大愣子衰哥：老哥，是正式还是实习

点赞评论收藏

分享

05-02 14:57

门头沟学院 C++

暑期实习-蚂蚁

有大佬知道蚂蚁智安安全技术有限公司的吗？想问一下这个是内包吗，属于蚂蚁的正编吗

我的求职进度条

点赞评论收藏

分享

评论

1

收藏

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 这个offer值得去吗？ #

36389次浏览 246人参与

# 实习生工资多少才算正常？ #

73509次浏览 511人参与

# 在爱玛，骑向未来 #

42426次浏览 429人参与

# 如果春招能重来，我会___ #

31533次浏览 311人参与

# 实习生的蛐蛐区 #

954720次浏览 4817人参与

# 除了线上，还能去哪些地方投简历 #

16909次浏览 146人参与

# 蚂蚁集团笔试 #

31610次浏览 150人参与

# 非技术岗投递进展 #

178799次浏览 1324人参与

# 美团笔试 #

997033次浏览 5856人参与

# 产品每日一题 #

100030次浏览 720人参与

# 快手工作体验 #

337508次浏览 2962人参与

# 苦尽甘来时，再讲来时路 #

81226次浏览 981人参与

# 24届软件开发秋招薪资爆料 #

449498次浏览 1304人参与

# 公司情报交流地 #

163567次浏览 1352人参与

# 你被哪些公司挂了？ #

196610次浏览 1071人参与

# 那些我实习了才知道的事 #

294507次浏览 1813人参与

# 牛友的春节生活 #

122975次浏览 833人参与

# 腾讯工作体验 #

635699次浏览 3858人参与

# 你的秋招简历被谁挂了？ #

942124次浏览 6051人参与

# 研究所VS国企，该如何选 #

272760次浏览 2031人参与

# 金融财会交流会 #

151342次浏览 500人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务