Como obter resultados mais rápidos da análise de streaming

Nova abordagem promissora faz análise em tempo real com a tecnologia de computação em memória e um derivado do modelo de gêmeo digital focado em Internet das Coisas

William Bain

As plataformas de análise de streaming de hoje podem levar minutos ou até horas para produzir resultados. Isso representa um sério desafio para os gerentes de sistemas ativos, como redes de computadores e outras infraestruturas críticas, que devem identificar problemas no momento e responder rapidamente. Como esses sistemas geralmente são inundados com mensagens de telemetria de entrada de muitas fontes de dados, eles geralmente processam mensagens usando pipelines ETL rudimentares que, na maioria das vezes, apenas armazenam dados offline para análise posterior. Por exemplo, eles podem salvar dados em arquivos de log ou bancos de dados de historiadores para consultas automatizadas e manuais, ou podem armazenar dados em um data lake para análise em lote. Obter resultados analíticos em milissegundos ou alguns segundos continua sendo um desafio assustador.

Considere, por exemplo, os sistemas de segurança e proteção necessários para proteger uma rede elétrica geograficamente distribuída abrangendo milhares de nós. Esses sistemas ingerem e analisam continuamente a telemetria de dispositivos da Internet das Coisas (IoT) e sistemas de controle em toda a rede e devem identificar ameaças rapidamente e reagir em tempo real. Por exemplo, os sistemas de segurança devem ser capazes de detectar invasões não autorizadas e avaliar seu escopo e gravidade. Os sistemas de segurança devem determinar se os componentes de transmissão, como linhas de energia e transformadores, estão passando por tensões incomuns e podem falhar ou causar incêndios.

blank
William Bain

Dado o enorme volume de dados que precisam ser processados, as soluções de gerenciamento de eventos e informações de segurança (SIEM) de hoje normalmente empregam técnicas de big data para identificar padrões na telemetria e sinalizar alertas. Da mesma forma, os sistemas de segurança geralmente registram eventos em bancos de dados para consulta pelo pessoal de operações. Ao confiar no processamento offline ou na introspecção manual para detectar problemas, esses sistemas adicionam latência indesejada que atrasa a ação, geralmente quando é mais necessário. Como o trabalho deles pode ser acelerado para permitir respostas rápidas e eficazes?

Uma nova abordagem promissora para enfrentar esses desafios de análise em tempo real combina o poder da tecnologia de computação em memória (IMC) com um derivado do modelo de gêmeo digital popularizado para uso no design de produtos. O IMC evoluiu ao longo da última década para fornecer uma plataforma de software rápida e altamente escalável para hospedar dados de streaming na memória e analisá-los com baixa latência. Ele evita a necessidade de armazenar dados em armazenamento offline antes da análise e integra computação e armazenamento baseado em memória para manter a latência o mais baixa possível. O modelo de gêmeo digital aproveita a tecnologia IMC, oferecendo uma técnica simples, mas poderosa, para estruturar o código de análise de streaming.

Os gêmeos digitais mudam a maneira como os desenvolvedores pensam sobre a análise de streaming. Em vez de organizar o código do aplicativo como um pipeline de processamento de eventos, os gêmeos digitais rastreiam o estado de cada fonte de dados que produz telemetria (como um agente de segurança de software ou um dispositivo IoT). Os desenvolvedores podem criar gêmeos digitais para manter informações relevantes de estado dinâmico sobre fontes de dados e executar código de análise em milissegundos após a chegada das mensagens. Esse código procura continuamente comportamentos incomuns e cria alertas quando necessário. Por exemplo, ele pode executar um algoritmo de aprendizado de máquina para detectar anomalias no streaming de dados que, de outra forma, poderiam passar despercebidas.

blank

A tecnologia IMC permite que os gêmeos digitais forneçam desempenho altamente escalável e forneçam a análise de streaming oportuna necessária para identificar ameaças e responder a elas no momento. O software IMC é executado em um cluster de servidores hospedados na nuvem ou no local e pode hospedar muitos milhares (ou até milhões) de gêmeos digitais. Juntos, esses gêmeos digitais rastreiam o estado de infraestruturas muito grandes, como redes elétricas, grandes redes de computadores ou frotas de veículos. À medida que as infraestruturas crescem, o software IMC pode adicionar mais servidores para dimensionar perfeitamente a taxa de transferência de processamento.

A tecnologia IMC pode fornecer alertas e feedback em tempo real sem os atrasos da análise offline. Além disso, ele pode agregar informações de estado de todos os gêmeos digitais em um painel visual que fornece ao pessoal de operações uma imagem completa, até a segunda, de um sistema ativo. O uso combinado de análise contínua em tempo real e agregação de dados permite que a equipe identifique rapidamente problemas importantes que, de outra forma, poderiam estar ocultos na telemetria armazenada offline e aguardando análise.

Com o rápido crescimento do tamanho e da complexidade dos sistemas ativos de missão crítica, a necessidade de avaliar imediatamente a telemetria de entrada tornou-se ainda mais crítica para operações ininterruptas. Esse desafio exige novas formas de estruturar a análise de streaming. A integração de IMC com gêmeos digitais oferece aos usuários uma combinação atraente de introspecção profunda e resultados rápidos. Ele tem o potencial de desbloquear novos recursos poderosos para maximizar a consciência situacional.

William Bain é o CEO e fundador da ScaleOut Software.

- PUBLICIDADE - blank