Tengo un sistema Debian 10 que tiene el servicio Bacula cumpliendo su función desde hace años, los clientes pueden ser máquinas físicas o virtuales de tipo Centos o Ubuntu o Debian, uno de los clientes está en internet. De buenas a primeras losbackup full de un cliente local falla y lanza mensajes de error del tipo:
JobId 9387: Error: bsock.c:429 Write error sending 11068 bytes to Storage daemon:XXXXX:9103: ERR=Connection reset by peer
JobId 9387: Fatal error: backup.c:1200 Network send error to SD. ERR=Connection reset by peer
JobId 9410: Error: Director's connection to SD for this Job was lost.
Tanto Debian como el cliente que es un Centos Linux están en la misma subred, el backup puede llegar a durar más de 1 hora. En Internet se ofrecen diferentes soluciones que he aplicado:
1- Usar "Heartbeat Interval = 60” en la configuración del director, storage y cliente.el cliente en la misma versión que Debian.
2- Usar `sysctl -w net.ipv4.tcp_keepalive_time=60` tanto en cliente como en servidor.
3- Usar "CommCompression = no” en la definición del cliente dentro del archivo director.
Todas esas soluciones no han funcionado, ahora mismo sólo se da el error en una máquina. Me he asegurado quitar software de gestión de energía incluso probar a echar abajo todos los servicios. Me he asegurado a que la máquina a hacer backup tenga
Sysop: | Keyop |
---|---|
Location: | Huddersfield, West Yorkshire, UK |
Users: | 443 |
Nodes: | 16 (1 / 15) |
Uptime: | 103:35:15 |
Calls: | 9,206 |
Calls today: | 5 |
Files: | 13,481 |
Messages: | 6,053,658 |