• Bacula y error en algunos backup full "Connection reset by peer"

    From Roberto Leon Lopez@21:1/5 to All on Thu May 11 10:30:01 2023
    Tengo un sistema Debian 10 que tiene el servicio Bacula cumpliendo su función desde hace años, los clientes pueden ser máquinas físicas o virtuales de tipo Centos o Ubuntu o Debian, uno de los clientes está en internet. De buenas a primeras los
    backup full de un cliente local falla y lanza mensajes de error del tipo:

    JobId 9387: Error: bsock.c:429 Write error sending 11068 bytes to Storage daemon:XXXXX:9103: ERR=Connection reset by peer
    JobId 9387: Fatal error: backup.c:1200 Network send error to SD. ERR=Connection reset by peer
    JobId 9410: Error: Director's connection to SD for this Job was lost.

    Tanto Debian como el cliente que es un Centos Linux están en la misma subred, el backup puede llegar a durar más de 1 hora. En Internet se ofrecen diferentes soluciones que he aplicado:

    1- Usar "Heartbeat Interval = 60” en la configuración del director, storage y cliente.
    2- Usar `sysctl -w net.ipv4.tcp_keepalive_time=60` tanto en cliente como en servidor.
    3- Usar "CommCompression = no” en la definición del cliente dentro del archivo director.

    Todas esas soluciones no han funcionado, ahora mismo sólo se da el error en una máquina. Me he asegurado quitar software de gestión de energía incluso probar a echar abajo todos los servicios. Me he asegurado a que la máquina a hacer backup tenga el
    cliente en la misma versión que Debian.

    --- SoupGate-Win32 v1.05
    * Origin: fsxNet Usenet Gateway (21:1/5)
  • From =?utf-8?B?Q2FtYWxlw7Nu?=@21:1/5 to All on Thu May 11 11:10:01 2023
    El 2023-05-11 a las 10:25 +0200, Roberto Leon Lopez escribió:

    Tengo un sistema Debian 10 que tiene el servicio Bacula cumpliendo su función desde hace años, los clientes pueden ser máquinas físicas o virtuales de tipo Centos o Ubuntu o Debian, uno de los clientes está en internet. De buenas a primeras los
    backup full de un cliente local falla y lanza mensajes de error del tipo:

    JobId 9387: Error: bsock.c:429 Write error sending 11068 bytes to Storage daemon:XXXXX:9103: ERR=Connection reset by peer
    JobId 9387: Fatal error: backup.c:1200 Network send error to SD. ERR=Connection reset by peer
    JobId 9410: Error: Director's connection to SD for this Job was lost.

    Tanto Debian como el cliente que es un Centos Linux están en la misma subred, el backup puede llegar a durar más de 1 hora. En Internet se ofrecen diferentes soluciones que he aplicado:

    Entiendo que se trata de equipo en la misma red local (LAN), no hay
    reglas de NAT ni cortafuegos activados que puedan molestar.

    1- Usar "Heartbeat Interval = 60” en la configuración del director, storage y cliente.
    2- Usar `sysctl -w net.ipv4.tcp_keepalive_time=60` tanto en cliente como en servidor.
    3- Usar "CommCompression = no” en la definición del cliente dentro del archivo director.

    Todas esas soluciones no han funcionado, ahora mismo sólo se da el error en una máquina. Me he asegurado quitar software de gestión de energía incluso probar a echar abajo todos los servicios. Me he asegurado a que la máquina a hacer backup tenga
    el cliente en la misma versión que Debian.

    En las listas de correo de Bacula también sugieren reducir el tamaño
    del MTU a un valor de 1400 en el servidor (MTU = 1400), pero ese valor afectará al resto de equipos, quizá veas reducido el rendimiento en
    general de la copia de seguridad.

    La cuestión es que si al reducir ese valor funciona (no se producen más errores de red en ese equipo en concreto), al menos ya sabrás por dónde
    van los tiros y afinar más la confinguración.

    Saludos,

    --
    Camaleón

    --- SoupGate-Win32 v1.05
    * Origin: fsxNet Usenet Gateway (21:1/5)