IT Mídia
Notícias em destaque
RSS
por Marcos Pichatelli*
Artigo | 5 de abril de 2013

Sete passos para iniciantes em Big Data

Especialista traz dicas importantes para iniciar e ter sucesso com projetos que visam a analisar grandes volumes de dados

A tendência do Big Data representa a crescente necessidade de processarmos grandes volumes de dados oriundos das mais diversas fontes – texto, mídias sociais, leitores de RFID, imagens, vídeos dentre outros. Então, o que uma companhia deve considerar quando está planejando embarcar no Big Data?

Antes de irmos adiante, aqui vai a minha definição de Big Data: são as tecnologias e práticas emergentes que possibilitam a seleção, processamento, armazenamento e geração de insights de grandes volumes de dados estruturados e não estruturados de maneira rápida, efetiva e a um custo acessível.

O Big Data pode se tornar caro de processar e armazenar se implantado em bancos de dados tradicionais. Para resolver esse problema novas tecnologias usam soluções open source e plataformas de hardware de custo acessível para armazenar os dados de maneira mais eficiente, paralelizar trabalhos e entregar poder de processamento.

Quanto mais os departamentos de TI buscam por alternativas, as discussões se centram no volume, velocidade de processamento e arquitetura das plataformas. Na medida em que a TI amadurece e passa a entender as limitações das tecnologias existentes, muitos CIOs não conseguem articular o valor de negócio dessas soluções alternativas e muito menos como classificar e priorizar os dados. É nesse ponto que entramos na governança de Big Data.

Enquanto as empresas desenvolvem seus casos de negócios, as discussões da plataforma e velocidade se tornam apenas parte da conversa geral sobre a adoção do Big Data. Na realidade, são apenas sete passos necessários para se conseguir o pleno potencial de Big Data:

 

  1. Coletar: O dado é coletado das fontes de informação e distribuído por meio de múltiplos nós, por exemplo em um arquitetura grid, cada um dos quais processa um subconjunto de dados em paralelo.
  2. Processar: O sistema então usa o mesmo paralelismo gerenciado para ter um desempenho computacional mais rápido em cada nó. Depois, cada nó transforma os resultados das pesquisas em informações mais consumíveis para serem usadas tanto pelos seres humanos (em caso de análise) quando pelas máquinas (em caso de interpretação de resultados em larga escala).
  3. Gerenciar: Geralmente o processamento de Big Data é heterogêneo, originado a partir de diferentes sistemas transacionais. Quase todos os dados precisam ser entendidos, definidos, anotados, limpos e auditados para fins de segurança.
  4. Medir: As análises de negócios devem determinar uma métrica e devem ser acompanhadas constantemente. Geralmente as companhias medem o quanto um dado pode ser integrado/relacionado com um comportamento de consumo ou registro histórico; e como essa integração ou correção aumenta ou diminui com o tempo.
  5. Consumir: O resultado da análise dos dados deve atender a demanda original. Por exemplo, se o resultado for de algumas centenas de terabytes de interações em redes sociais, ele pode demonstrar como seus clientes compram produtos complementares. Então, deve haver regras de como os dados de mídias sociais são acessados e atualizados. O mesmo serve para o acesso de dados máquina-a-máquina (M2M).
  6. Armazenar: Como a tendência “data-as-a-service” ainda toma forma, cada vez mais os dados permanecem em um único lugar, enquanto os programas de acesso a essas informações se movem. Mesmo que os dados sejam armazenados para o curto prazo de processamento em lote ou para o longo prazo de retenção, as soluções de armazenamento devem ser deliberadamente dirigidas.
  7. Governar: A governança de dados engloba as políticas e fiscalização de informações por meio de uma perspectiva de negócios. Como definido, a governança de dados se aplica a cada um dos seis estágios de entrega de Big Data.

Ao estabelecer processos e princípios de orientação, as sanções de governança passam a girar em torno dos dados. O Big Data necessita ser governado de acordo com seus destinos de consumo, caso contrário, o risco é o desinteresse pelas informações coletadas, para não falar de investimento desnecessário na tecnologia.

A maioria dos early adopters encarregada de pesquisar e adquirir soluções de Big Data focam nos passos de coletar e armazenar em detrimento dos demais. A questão está implícita: “Como reunimos todos esses petabytes de dados e onde os colocamos quando os tivermos?”.

Porém, o processo de definição de requisitos de negócio para o Big Data ainda ilude muitos departamentos de TI. Executivos geralmente veem essa tendência como mais um pretexto para o crescimento do currículo da TI e sem um objetivo claro. Esse ambiente de cinismo mútuo é o único culpado do fato do Big Data nunca ir além da fase inicial.

Como Lorraine Lawson, autora do livro IT Business Edge, afirmou, “a única maneira de assegurar que sua análise será ouvida é ter certeza de que você possui um programa de governança para o Big Data”.

Enraizar processos de governança de dados em nome de um esforço assegura que:

  • O valor do negócio e os resultados desejados sejam claros.
  • Políticas de tratamento de dados chave foram sancionadas.
  • A experiência sobre certo assunto é aplicada aos problemas de Big Data.
  • Definições e regras para dados chave estão claras.
  • Há um processo de escalada para conflitos e questões.
  • Gerenciamento de dados – a execução tática das políticas de governança de dados – é intencional e relevante.
  • Existem direitos de decisão para questões fundamentais durante o desenvolvimento.
  • Os resultados de análise de Big Data são úteis e podem ser colocados em ação.
  • As políticas de privacidade são reforçadas.

 

Resumindo, a governança de dados significa que a aplicação do Big Data traz resultados de negócios.  É um seguro que garante que as perguntas certas estão sendo feitas. Assim, o poder imenso das novas tecnologias será realmente aproveitado para tornar o armazenamento, processamento e velocidade de entrega mais eficaz e mais ágil do que nunca.

*Marcos Pichatelli é Gerente de Produtos de High-Performance Analytics do SAS e possui mais de 20 anos de experiência em tecnologias de gerenciamento de dados, BI e Analytics.

Parceiros

Portais: IT Mídia | IT Web | Saúde Web

Fóruns: IT Forum | IT Forum + | IT Business Forum | Saúde Business Forum