Um serviço baseado em SNMP para detecção de falhas em sistemas distribuídos na Internet

Moraes, Dionei Marcelo

Visualizar/Abrir

dissertacao.pdf (503.3Kb)

Data

2009

Autor

Moraes, Dionei Marcelo

Metadata

Mostrar registro completo

Resumo

Resumo: Este trabalho apresenta uma implementação de detectores de falhas para sistemas distribuídos executados na Internet. A implementação é baseada em SNMP (Simple Network Management Protocol) e serviços Web. Detectores de falhas são oráculos distribuídos que fornecem informações sobre processos em um sistema distribuído. Aplicações distribuídas podem utilizar o sistema para detectar falhas em seus processos tanto em rede local quanto na Internet. Cada processo é identificado pelo seu endereço IP, porta e identificador do processo no sistema operacional local. Um processo pode estar falho, suspeito ou sem-falha. Um agente SNMP pode monitorar um ou mais processos em uma rede local. Existe um agente executando em cada rede local onde existam processos a serem monitorados. O agente disponibiliza as informações sobre o estado de execução dos processos através de uma MIB (Management Information Base). Monitores atualizam e trocam essas informações entre si através de operações SNMP e serviços Web. Um processo monitorado envia heartbeats em um intervalo estipulado. Se o monitor não recebe um heartbeat de um processo sem-falha dentro de um tempo limite calculado, então o estado deste processo é atualizado para suspeito. Para calcular este tempo limite, é utilizado o algoritmo do TCP para determinar o timeout. O monitor considera um processo como falho se recebe esta informação do sistema operacional local. Monitores de diferentes redes locais se comunicam pela lnternet através de serviços Web, de duas possíveis maneiras. Na primeira, cada mudança de estado de um processo local, identificada pelo agente, é notificada a todos os outros agentes, de modo que todos os agentes conhecem o estado de todos os processos da aplicação distribuída na Internet. Na segunda,o agente local obtém informações sobre processos que executam em outras redes locais apenas quando a aplicação necessita destas informações. O sistema foi implementado e avaliado com processos monitorados executando tanto em redes locais quanto distribuídos por diferentes regiões do mundo em nodos registrados no Planet Lab. Diferentes experimentos foram realizados, apresentando consumo de CPU, tempo de detecção de falha e taxa de engano.

Abstract: This work presents an implementation of failure detectors for Internet-based distributed systems. The implementation is based on SNMP (Simple Network Management Protocol) and Web Services. Failure detectors are distributed oracles that supply information about the execution state of processes of a distributed system. Each process is identified by its IP address, port and its process identier (pid) at the local operating system. A process can be in one of the following states: crash, suspect or working. An SNMP agent can monitor one or more processes in a LAN. An agent that acts a process monitor is executed at very LAN on which processes are running. The agent supplies information about process execution state through a MIB (Management Information Base). Monitors update and exchange information using SNMP operations and Web Services. A monitored process sends heartbeats at a given interval. If a monitor does not receive a heartbeat from a working process within the maximum computed time limit, then the state of the monitored process is toggled to suspect. The system employs the same algorithm of TCP’s retransmission timer in order to compute the time-out interval that leads to a suspicion. The monitor identifies if a process has crashed only when it receives such information from an entity running at the process’ local operating system. Monitors at different LANs communicate across the Internet using Web Services, in two possible ways. In the first, after a change in the state of a monitored process, information about the new state is notified to all monitors. Otherwise the local monitor gets information about the processes that execute in other LANS only when this information is explicitly requested by a application that needs that information. The system was implemented and evaluated for monitored process running both at a LAN and distributed throughout the world at the Planet Lab. The heartbeat interval ranged from a few milliseconds to hundreds of milliseconds. Different experiments were carried out, showing CPU usage, failure detection latency, and mistake rate.

URI

https://hdl.handle.net/1884/21070

Collections

Teses & Dissertações [10558]