Desfazendo mal-entendidos sobre Machine Learning
23 de fevereiro de 2017* Por Javier Vargas
As técnicas de machine learning nunca foram tão acessíveis e utilizadas como hoje. Na minha opinião, elas conseguiram influenciar e estimular diversos setores e mercados. Varejistas usam essas técnicas para recomendar produtos, provedores de e-mail as utilizam para filtrar spam, redes sociais empregam machine learning para reconhecimento facial e análise de sentimentos – a lista cresce a cada dia.
O setor de segurança cibernética também tem investido fortemente na inclusão de machine learning em seu arsenal contra atores maliciosos, e a maioria dos fornecedores do mercado afirma utilizar a técnica de alguma maneira.
No passado, muitos recursos humanos foram investidos na formação de um sólido conhecimento sobre domínios que, posteriormente, foi empregado na forma de assinaturas, regras, listas negras/brancas e correlação estática de padrões que poderiam compor um produto eficiente. Agora, buscamos fortalecer as camadas de proteção, agregando capacidades preditivas baseadas em poderosos algoritmos que são capazes de extrair conhecimento de conjuntos de dados, aparentemente desconexos ou obscuros, e de identificar relações entre horários, locais e ações.
Do meu ponto de vista, as técnicas de machine learning podem ajudar a superar desafios que a capacidade de análise humana e os sistemas estáticos não conseguem vencer. Essas técnicas têm viabilizado capacidades sem precedentes no processamento de grandes volumes de dados não estruturados de diferentes fontes e relativos a interações com os usuários, dados transacionais, atividades de rede, histórico de phishing e sistemas de detecção de endpoint.
Infelizmente, devido ao seu enorme potencial e capacidade, machine learning virou moda e tem sido vendido como uma solução mágica que produz grandes resultados com pequenos esforços. Toda essa propaganda tem gerado grandes expectativas sobre a performance dessas ferramentas, geralmente seguidas de enormes decepções entre os consumidores enganados. Isso ocorre porque existem muitos mal-entendidos com relação ao uso de machine learning como instrumento de segurança cibernética.
Para evitar problemas, destaco alguns equívocos comuns que devem ser esclarecidos antes da adoção de machine learning.
– Machine learning não é capaz de criar conhecimento, apenas de extrair conhecimento: ferramentas de machine learning somente podem alcançar seu verdadeiro potencial – e superar as abordagens tradicionais – se forem alimentadas com um volume suficiente de dados de qualidade. O volume e a precisão dos dados são fundamentais para um emprego eficiente do modelo. Se a sua empresa decidiu investir em machine learning, é importante desenvolver dados de maneira consciente na organização como um todo e nas áreas especificamente envolvidas na detecção e mitigação de incidentes. Todos os dados que possam ser relevantes para o tratamento de incidentes de segurança e que estejam relacionados com fraude devem ser meticulosamente rastreados e classificados. Nesse sentido, tanto dados normais como anômalos são relevantes.
– Trata-se de uma tecnologia adicional: enquanto os marqueteiros acreditam que machine learning supera a performance de todos os sistemas existentes, é importante ter cautela para gerar expectativas realistas. Não dá para jogar fora todas as cartilhas de marketing antigas e substituí-las por um algoritmo de machine learning “novinho em folha”. Estratégias de defesa efetivas não devem contar apenas com uma única camada de proteção. As técnicas de machine learning devem ser incorporadas a uma estratégia de proteção robusta e multicamada. Elas têm maiores chances de detectar os ataques que conseguem driblar defesas preventivas estáticas, sendo também um bom complemento para empresas com sistemas estáticos que foram finamente ajustados ao longo de anos de expertise;
– Análises de desempenho produzidas por cientistas de dados tendem a ser complexas, e é importante entendê-las: acostume-se com termos como taxa de falso-positivos, taxa de verdadeiro-positivos, precisão e F-Score, pois são muito importantes no ajuste do modelo às necessidades específicas da sua instituição. Duas das principais fontes de decepção no uso de machine learning são, justamente, as taxas de falso-positivos e de alertas. Capacidades preditivas sempre têm um custo. É frustrante implementar um algoritmo cujas referências indicam um excelente desempenho e descobrir que ele está exaurindo a sua capacidade operacional.
Avaliar um modelo de machine learning com base em alguns exemplos não representativos é injusto e pode levar a enganos. Bons modelos de machine learning são avaliados pelo seu desempenho em testes estatísticos bem desenhados, utilizando amostras significativas de dados. Isso significa que a performance é avaliada executando o algoritmo várias vezes com um conjunto de big data que seja uma boa representação do problema real. Quando estiver planejando a avaliação de um modelo de machine learning, pergunte ao fornecedor como eles avaliaram o modelo e execute um processo válido com seus próprios dados. As organizações devem ser coerentes com as suas necessidades operacionais. Se um fornecedor afirma que um algoritmo tem uma taxa de falso-positivos de apenas 2%, faça o mapeamento considerando as proporções da operação, ou seja, se você alimentar o algoritmo com 1 milhão de eventos por dia, tenha em mente que cerca de 20.000 dos alertas diários podem ser falso-positivos.
– Os resultados de machine learning nem sempre são fáceis de explicar: o setor de segurança cibernética está acostumado com regras, listas negras, fingerprints e indicadores de comprometimento. Por esse motivo, explicar porque um determinado alerta foi ativado é simples e natural. Modelos de machine learning identificam padrões em grandes conjuntos de dados, extrapolam respostas e fazem previsões com base em composições não triviais. Tudo isso torna muito difícil entender seu funcionamento interno. Muitos esforços foram investidos para descobrir maneiras de explicar os resultados dos modelos de machine learning, mas esses sistemas avançados somente oferecem estimativas em termos de explicações interpretáveis, que não podem ser seguidas ao pé da letra.
Aplicados corretamente, modelos de machine learning podem aumentar, drasticamente, a capacidade de uma organização de combater ataques cibernéticos sofisticados, obtendo o máximo dos dados de segurança e da inteligência de ameaças. Porém, é preciso estar preparado para evoluir rapidamente. Nossos adversários possuem mentes habilidosas, e, a cada dia, tornam-se mais competentes em entender como machine learning funciona e em elaborar técnicas para driblar as defesas mais avançadas. Machine learning pode melhorar ao longo do tempo se as organizações permitirem que essas ferramentas evoluam utilizando dados atualizados. A configuração operacional deve sempre acompanhar os sucessos e as falhas nas previsões do modelo para que ele possa se adaptar e evoluir rapidamente.
*Javier Vargas é gerente de pesquisas na Easy Solutions