Gerenciamento de Problemas

O Gerenciamento de Problemas, é responsável por minimizar o impacto causado no ambiente da organização por incidentes e problemas decorrentes de erros na infra-estrutura, prevenindo o retorno destes incidentes relacionados com tais erros. Para que isso seja possível o Gerenciamento de Problemas busca identificar a causa raiz destes incidentes e começar ações que melhorem ou corrijam a situação. Ao identificar e tomar posse dos problemas que afetam a infra-estrutura e os serviços nós deveremos executar ações para reduzir o impacto sofrido e identificar o que poderá ter causado tais anomalias para assim estabelecer uma solução permanente aos problemas identificados.

Ao analisar a tendência de ocorrências nós registraremos informações sobre os incidentes com o pensamento de que poderemos prevenir a organização de problemas futuros priorizando as atividades da equipe. O ponto chave aqui é a identificação pró-ativa de potenciais problemas evitando incidentes antes que eles aconteçam. Deveremos criar Workaround (meios possíveis identificados de se resolver um incidente em particular que permite o serviço voltar ao normal, porém não solucionando o problema de fato) e ter em mente que o objetivo do Incident Management é restaurar um serviço o mais rápido possível e o objetivo do Problem Management é identificar a causa raiz dos incidentes com foco na sua solução permanente durante o ciclo de vida de Problemas/Erros.

 

== Definições Importantes ====================================

Incident: Um evento que foge do padrão no ambiente de operações de serviço, que pode causar uma interrupção ou redução na qualidade do serviço prestado.

Known Error: Um incidente ou problema que já tem a causa raiz conhecida e possui um Workaround temporário ou uma alternativa de correção permanente identificada. Deverá permanecer como um Erro Conhecido até que alguma mudança no ambiente acabe com sua probabilidade de acontecer.

Major Incident: Um incidente que oferece um alto grau de impacto para o ambiente necessitando uma resposta mais rápida que o normal. Geralmente este tipo de incidente precisa de uma coordenação conjunta, escalonamento da gerência, mobilização de recursos adicionais e aumenta da comunicação.

Major Problem: Um problema que oferece um alto grau de impacto para o ambiente necessitando uma resposta mais rápida que o normal, uma resposta imediata. Geralmente este tipo de problema precisará de um acompanhamento conjunto, escalonamento da gerência, mobilização de recursos adicionais e um aumento na comunicação, pois pode levar muito tempo para ser resolvido, logo o ideal é tratar esta situação sempre com pró-atividade buscando diminuir a probabilidade de que isso aconteça e gere algum impacto muito grande.

Priority: É o resultado de uma análise feita entre o impacto e a urgência de um incidente ou problema.

Problem: A causa desconhecida de um ou mais incidentes. Um problema é identificado como uma causa raiz não solucionada.

Resolution: É a ação que deve ser tomada para solucionar a causa de um incidente ou problema.

Root Cause Analysis: Atividade de análise feita com o intuito de se descobrir a causa raiz de um determinado problema.

Service Desk: Um ponto único de contato para os clientes e usuários que precisam de um apoio técnico, o Service Desk coordena a maioria dos processos relacionados ao Incident Management e se relaciona com muitas outras SMFs.

Solution/Permanent Fix: São os meios possíveis identificados de se resolver um incidente ou problema que fornecem uma resolução permanente.

Trend Analysis: É o estudo feito através de um histórico de incidentes, problemas e base de erros conhecidos com o objetivo de prevenir ou reduzir a probabilidade de que um incidente acontecer.

Urgency: É o tempo definido dentro qual o incidente ou problema deve ser resolvido.

Workaround: São os meios possíveis identificados de se resolver um incidente em particular que permite o serviço voltar ao normal, porém não soluciona o problema de fato, não acabando com sua causa raiz.

 

===Atividades do Processo====================================

As atividades do Gerenciamento de Problemas podem ser representadas por um fluxo de processos que aborda as tarefas fundamentais necessárias para gerenciarmos problemas com excelência, a seguir iremos conhecer as fases deste processo.

Problem Recording and Classification
Nesta primeira etapa deveremos registrar e classificar os problemas, que na maioria das vezes são identificados pelos processos da incident management ou através das análises de dados feitas pela equipe do problem management. Outras SMFs como Availability Management e Capacity Management podem também durante suas tarefas identificarem problemas e estes deverão ser reportados para a equipe de Problem Management. É importante que os problemas e os incidentes sejam registrados para facilitar o processo de dar prioridade e resolver os problemas, onde a classificação é definida pelo grau do impacto causado pelo problema no ambiente da organização e a urgência da solução exigida.

Problem Investigation and Diagnosis
Nesta segunda etapa deveremos investigar os problemas e diagnosticar sua causa raiz, o resultado desta análise deverá ser utilizado para ajudar a equipe de Problem Management avaliar os recursos e habilidades necessárias para solucionar o problema. Este processo requer tarefas adicionais como planejamento, coordenação, recursos e comunicação para formalizar a ação.

Error Control
Nesta terceira etapa desenvolveremos os processos para corrigir com sucesso os erros conhecidos, tendo como objetivo realizar as mudanças necessárias para resolver de uma vez por todas os erros que afetam nossa infra-estrutura de TI prevenindo que incidentes relacionados voltem a acontecer. Para realizar este controle nós deveremos trabalhar em conjunto entre o ambiente de desenvolvimento e produção interagindo diretamente com os processos de Change Management, na busca de uma solução definitiva para o problema.

Problem Closure
Nesta quarta etapa deveremos registrar todas as informações sobre o problema em nosso sistema de gerenciamento de problemas, salvar as alterações dos Itens de Configuração, os sintomas, e a resolução de todos os problemas para manter uma base de conhecimento bem atualizada. Estas informações estarão disponíveis para prevenir futuros problemas ou executar soluções mais rápidas. Antes de fechar de fato o problema devemos mantê-lo no estado Closed Pending PIR e em seguida executar uma revisão, a Post-Implementation Review (PIR), para atestar que está tudo bem, e por fim fechar realmente o problema. Em alguns casos, por exemplo, no de incidentes deveremos contatar o usuário que sofreu com o problema e verificar se ele não percebeu mais nenhuma anomalia e para problemas mais sérios ou erros conhecidos poderá ser necessária uma revisão formal.

Proactive Analysis and Problem Reviews
Esta quinta etapa está relacionada com a capacidade de identificar e solucionar problemas e erros conhecidos antes mesmo que incidentes aconteçam, agindo com pró-atividade, minimizando o impacto nos serviços e nos negócios da organização. Deveremos pegar como exemplo algum Major Incident ou um Major Problem que já tenha acontecido e analisar os seus eventos e ações executadas quando ele ocorreu de forma que esta revisão forneça informações úteis para análises futuras garantindo que sejam registradas estas lições aprendidas. Uma boa prática é se reunir com as pessoas que participaram da resolução deste Major Incident ou Major Problem analisado e fazer algumas perguntas, como: O que foi feito corretamente? O que foi feito incorretamente? O que poderia ser feito melhor da próxima vez? Como previr que aconteça de novo? Como agir o mais rápido possível se acontecer novamente? etc.

Atenção: Vale lembrar que cada uma das etapas descritas acima oferece muito mais detalhes do que os que vimos aqui, porém detalhar o processo não é o intuito agora, com este artigo nós devemos entender basicamente como funcionam estes passos.

Abaixo vemos o diagrama que representa o fluxo citado acima, os processos neste caso seguem um ciclo iterativo:


Fluxo de processos do Gerenciamento de Problemas

Fonte: Cleber Marques

Tags:

About Desmonta&CIA

Somos um blog que busca informar aos apaixonados por tecnologia tudo sobre o mundo de TI.

Deixe uma resposta

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair / Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair / Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair / Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair / Alterar )

Conectando a %s

%d blogueiros gostam disto: