'command did not execute' after processing the command 'rreplay'

Hi, we are migrating to using KeyDB from Redis, running on kubernetes with master-master support. We are running with 2 pods in order to have master-master support, but we keep getting replication errors. It seems the connection between them is lost, and then when it reconnects this error appears. If we leave only 1 pod running the errors subside (obviously since there is no more replication), but we would like some pointers on how to fix this…

We are seeing a lot of these errors in the logs, and experiencing a noticeable performance slowdown in our app:

== CRITICAL == This replica is sending an error to its master: ‘command did not execute’ after processing the command ‘rreplay’

Below are our configuration options:

127.0.0.1:6379> CONFIG GET *
  1) "rdbchecksum"
  2) "yes"
  3) "daemonize"
  4) "no"
  5) "lua-replicate-commands"
  6) "yes"
  7) "always-show-logo"
  8) "yes"
  9) "protected-mode"
 10) "no"
 11) "rdbcompression"
 12) "yes"
 13) "rdb-del-sync-files"
 14) "no"
 15) "activerehashing"
 16) "yes"
 17) "stop-writes-on-bgsave-error"
 18) "no"
 19) "dynamic-hz"
 20) "yes"
 21) "lazyfree-lazy-eviction"
 22) "no"
 23) "lazyfree-lazy-expire"
 24) "no"
 25) "lazyfree-lazy-server-del"
 26) "no"
 27) "lazyfree-lazy-user-del"
 28) "no"
 29) "repl-disable-tcp-nodelay"
 30) "no"
 31) "repl-diskless-sync"
 32) "no"
 33) "aof-rewrite-incremental-fsync"
 34) "yes"
 35) "no-appendfsync-on-rewrite"
 36) "no"
 37) "cluster-require-full-coverage"
 38) "yes"
 39) "rdb-save-incremental-fsync"
 40) "yes"
 41) "aof-load-truncated"
 42) "yes"
 43) "aof-use-rdb-preamble"
 44) "no"
 45) "cluster-replica-no-failover"
 46) "no"
 47) "cluster-slave-no-failover"
 48) "no"
 49) "replica-lazy-flush"
 50) "no"
 51) "slave-lazy-flush"
 52) "no"
 53) "replica-serve-stale-data"
 54) "yes"
 55) "slave-serve-stale-data"
 56) "yes"
 57) "replica-read-only"
 58) "no"
 59) "slave-read-only"
 60) "no"
 61) "replica-ignore-maxmemory"
 62) "yes"
 63) "slave-ignore-maxmemory"
 64) "yes"
 65) "multi-master"
 66) "yes"
 67) "jemalloc-bg-thread"
 68) "yes"
 69) "activedefrag"
 70) "no"
 71) "syslog-enabled"
 72) "no"
 73) "cluster-enabled"
 74) "no"
 75) "appendonly"
 76) "no"
 77) "cluster-allow-reads-when-down"
 78) "no"
 79) "multi-master-no-forward"
 80) "no"
 81) "allow-write-during-load"
 82) "no"
 83) "io-threads-do-reads"
 84) "no"
 85) "aclfile"
 86) ""
 87) "unixsocket"
 88) ""
 89) "pidfile"
 90) "/var/run/keydb_6379.pid"
 91) "replica-announce-ip"
 92) ""
 93) "slave-announce-ip"
 94) ""
 95) "masteruser"
 96) ""
 97) "masterauth"
 98) ""
 99) "cluster-announce-ip"
100) ""
101) "syslog-ident"
102) "redis"
103) "dbfilename"
104) "dump.rdb"
105) "appendfilename"
106) "appendonly.aof"
107) "server_cpulist"
108) ""
109) "bio_cpulist"
110) ""
111) "aof_rewrite_cpulist"
112) ""
113) "bgsave_cpulist"
114) ""
115) "supervised"
116) "no"
117) "syslog-facility"
118) "local0"
119) "repl-diskless-load"
120) "disabled"
121) "loglevel"
122) "notice"
123) "maxmemory-policy"
124) "noeviction"
125) "appendfsync"
126) "everysec"
127) "databases"
128) "2"
129) "port"
130) "6379"
131) "auto-aof-rewrite-percentage"
132) "100"
133) "cluster-replica-validity-factor"
134) "10"
135) "cluster-slave-validity-factor"
136) "10"
137) "list-max-ziplist-size"
138) "-2"
139) "tcp-keepalive"
140) "0"
141) "cluster-migration-barrier"
142) "1"
143) "active-defrag-cycle-min"
144) "1"
145) "active-defrag-cycle-max"
146) "25"
147) "active-defrag-threshold-lower"
148) "10"
149) "active-defrag-threshold-upper"
150) "100"
151) "lfu-log-factor"
152) "10"
153) "lfu-decay-time"
154) "1"
155) "replica-priority"
156) "100"
157) "slave-priority"
158) "100"
159) "repl-diskless-sync-delay"
160) "5"
161) "maxmemory-samples"
162) "5"
163) "timeout"
164) "0"
165) "replica-announce-port"
166) "0"
167) "slave-announce-port"
168) "0"
169) "tcp-backlog"
170) "511"
171) "cluster-announce-bus-port"
172) "0"
173) "cluster-announce-port"
174) "0"
175) "repl-timeout"
176) "60"
177) "repl-ping-replica-period"
178) "10"
179) "repl-ping-slave-period"
180) "10"
181) "list-compress-depth"
182) "0"
183) "rdb-key-save-delay"
184) "0"
185) "key-load-delay"
186) "0"
187) "active-expire-effort"
188) "1"
189) "hz"
190) "10"
191) "min-replicas-to-write"
192) "0"
193) "min-slaves-to-write"
194) "0"
195) "min-replicas-max-lag"
196) "10"
197) "min-slaves-max-lag"
198) "10"
199) "min-clients-per-thread"
200) "20"
201) "replica-quorum"
202) "-1"
203) "maxclients"
204) "100000"
205) "active-defrag-max-scan-fields"
206) "1000"
207) "slowlog-max-len"
208) "128"
209) "acllog-max-len"
210) "128"
211) "lua-time-limit"
212) "5000"
213) "cluster-node-timeout"
214) "15000"
215) "slowlog-log-slower-than"
216) "10000"
217) "latency-monitor-threshold"
218) "0"
219) "proto-max-bulk-len"
220) "536870912"
221) "stream-node-max-entries"
222) "100"
223) "repl-backlog-size"
224) "1048576"
225) "maxmemory"
226) "0"
227) "hash-max-ziplist-entries"
228) "512"
229) "set-max-intset-entries"
230) "512"
231) "zset-max-ziplist-entries"
232) "128"
233) "active-defrag-ignore-bytes"
234) "104857600"
235) "hash-max-ziplist-value"
236) "64"
237) "stream-node-max-bytes"
238) "4096"
239) "zset-max-ziplist-value"
240) "64"
241) "hll-sparse-max-bytes"
242) "3000"
243) "tracking-table-max-keys"
244) "1000000"
245) "repl-backlog-ttl"
246) "3600"
247) "auto-aof-rewrite-min-size"
248) "67108864"
249) "tls-port"
250) "0"
251) "tls-session-cache-size"
252) "20480"
253) "tls-session-cache-timeout"
254) "300"
255) "tls-cluster"
256) "no"
257) "tls-replication"
258) "no"
259) "tls-auth-clients"
260) "yes"
261) "tls-prefer-server-ciphers"
262) "no"
263) "tls-session-caching"
264) "yes"
265) "tls-cert-file"
266) ""
267) "tls-key-file"
268) ""
269) "tls-dh-params-file"
270) ""
271) "tls-ca-cert-file"
272) ""
273) "tls-ca-cert-dir"
274) ""
275) "tls-protocols"
276) ""
277) "tls-ciphers"
278) ""
279) "tls-ciphersuites"
280) ""
281) "logfile"
282) ""
283) "client-query-buffer-limit"
284) "1073741824"
285) "watchdog-period"
286) "0"
287) "dir"
288) "/data"
289) "save"
290) ""
291) "client-output-buffer-limit"
292) "normal 0 0 0 slave 268435456 67108864 60 pubsub 33554432 8388608 60"
293) "unixsocketperm"
294) "0"
295) "slaveof"
296) ""
297) "notify-keyspace-events"
298) ""
299) "bind"
300) ""
301) "requirepass"
302) ""
127.0.0.1:6379>