Ser atacado por um Cozy Bear e ficar feliz com isso: Entenda as avaliações MITRE

2 jun 2020

Já vou avisando: sou um nerd de testes de produtos de segurança*.

Eu tenho acompanhado o MITRE ATT&CK Framework há algum tempo e divulgamos aqui os resultados da avaliação mais recente usando o APT29, também conhecido como COZY BEAR.

Primeiramente, aqui está um resumo dos resultados da avaliação da Trend Micro, como os entendo (arredondados para baixo):

91,79% na detecção geral. Está no top 2 dos 21.
91,04% sem alterações de configuração. O teste permite alterações na configuração após o início – isso não era necessário para alcançar os altos resultados gerais.
107 de Telemetria. Isso é muito alto. Capturar eventos é bom. Não capturá-los não é bom.
28 alertas. Isso está no meio, onde deveria estar. Não é muito barulhento, nem muito quieto. A telemetria é essencial, enquanto o alerta é configurável, mas apenas em detecções e telemetria.

Assim, nosso produto Apex One se encontrou com um urso cruel, mas terminou saudável. Entretanto, esse resumo é uma simplificação e não mostra todas as nuances dos testes. Abaixo estão minhas sugestões para você sobre o que é o MITRE ATT&CK Framework e como interpretar os resultados.

Sugestão 1 – ATT&CK é Baseado em Cenário

O MITRE ATT&CK Framework é intrigante para mim, pois combina métodos de ataque do mundo real por adversários específicos com um modelo de detecção para uso por SOCs e fabricantes de produtos. As Avaliações do ATT&CK Framework fazem isso, mas em um ambiente de lab para avaliar como os produtos de segurança provavelmente lidariam com um ataque desse adversário e seus métodos usuais. Sempre houve uma clara divisão entre testes práticos e testes de laboratório, e o ATT&CK era meio que uma mistura dos dois. O COZY BEAR é super interessante porque esses ataques eram amplamente conhecidos por serem bastante sofisticados e patrocinados pelo governo, e tinham como alvo a Casa Branca e o Partido Democrata dos EUA. O COZY BEAR e sua família de derivados usam backdoors, droppers, ofuscação e exfiltração cuidadosa.

Sugestão 2 – Veja Todas as Avaliações do Grupo de Ameaças para Ter a Melhor Ilustração

Eu vejo os conflitos, pois os avaliadores da ATT&CK estão apenas olhando para esse cenário, mas este é muito baseado na realidade e, com avaliações suficientes em cenários aceitáveis, existe uma narrativa para entender melhor um produto. A Trend Micro foi ótima na avaliação APT/29/COZY BEAR lançada mais recentemente, mas o que quero dizer é que um produto é tão bom quanto todas as avaliações. Sempre aconselhei os leitores do Magic Quadrant ou NSS Value Map a examinarem versões mais antigas, a fim de visualizarem ao longo do tempo qual trajetória um produto teve.

Sugestão 3 – Detecção Focada (Somente)

O teste APT29, como a maioria dos testes do ATT&CK, está verificando detecção, não prevenção nem outras partes de produtos (por exemplo, suporte). A desvantagem é que a capacidade de um produto para bloquear os ataques não é avaliada, pelo menos ainda não. De fato, as funções de bloqueio precisam ser desativadas para que partes do teste sejam realizadas. Eu entendo – você não pode testar o alarme no andar de cima com o cão de guarda perambulando pelo andar de baixo. Começar com uma detecção ruim nunca termina bem; portanto, a metodologia de teste parece focada em “se você pode detectá-lo, pode bloqueá-lo”. Alguns testes de penetração são criticados por um cenário específico não ser realista, porque A o interromperia antes que B pudesse ocorrer. Qualquer especialista em IPS em qualquer lugar deve concordar com isso. Eu apoio o MITRE sobre como eles construíram a metodologia, porque deve haver limitações e escopo em todos os testes de laboratório, mas os leitores também precisam entender essas limitações e escopos. Acredito que a próxima rodada de testes também incluirá proteção (bloqueio), o que é bem legal.

Sugestão 4 – Escolha sua Própria Previsão do Tempo

O ATT&CK não é uma resenha no estilo de revista. Não há nota final ou comparação de produtos. Para abraçar completamente o ATT&CK, imagine ter recebido dezenas de medições meteorológicas muito sólidas e complexas, e tentar com isso adivinhar como vai estar o tempo. Ou peça aos fabricantes que encham você com press releases de suas interpretações sobre o assunto. Eu estive aprofundado nos números das últimas pontuações da avaliação e, ao olhar para alguns dos blogs e comunicados de imprensa por aí, eles quase me convenceram de que se saíram bem mesmo quando eu tendo lido os dados em primeira mão mostrando que não. Eu acho que uma visão menos desgastada é que os resultados podem ser interpretados de várias maneiras, algumas delas bastante criativas. Isso lembra a excelente citação da resenha do Lockpicking Lawyer “o modelo de ameaça não inclui um bandido com uma chave de fenda”.

Josh Zelonis, da Forrester, fornece um ótimo exemplo do nível de trabalho necessário para analisar os resultados do teste e fornece uma análise extensa no Github que é mais fácil para os olhos do que o descrito acima. Mesmo esse excelente produto de trabalho requer o contexto do que as categorias significam. Entendo que o MITRE está adotando a postura de “fazemos os testes, você interpreta os dados” para dar menos briga e acomodar diferentes casos de uso e workflows de SOC, mas isso é muito para colocar na conta dos compradores. Repito: há muitas nuances nos termos e nas categorias de relatórios de teste.

Se, na ausência do trabalho de Josh, eu tiver que escolher uma métrica, a taxa de detecção provavelmente será a melhor. Observe que a taxa de detecção não é 100% para nenhum produto no teste APT29, devido ao significado dessa métrica. As melhores métricas secundárias que eu gosto são Técnicas e Telemetria. A tática parece uma coisa boa, mas no framework é menor do que as técnicas, pois as táticas são coisas ruins generalizadas (“algo se movendo para fora!”) e as técnicas são detecções mais específicas (“leão macho adulto e saudável, visto do lado de fora”), então uma pontuação mais alta em técnicas combinada com uma pontuação baixa em tática é uma coisa boa. A pontuação da telemetria é, para mim, melhor no meio. Não há muitos alertas (barulhentos/fatigantes) e nem poucos (“sobre o leão que vi há 5 minutos”).

Aqui está um exemplo das interpretações que são interessantes para mim. Olhando para a página-fonte da Trend Micro aqui, recebo informações sobre detecções nas etapas ou quantas das 134 etapas totais foram detectadas. Começarei excluindo qualquer envolvimento humano e excluindo as detecções do MSSP e analisando apenas as que não foram assistidas. Mas os números estão espalhados por todas as 20 etapas do teste, então eu usarei a planilha de Josh que mostra 115 das 134 etapas visíveis, ou 85,82%. Faço uma média das pontuações de visibilidade em todos os produtos avaliados e isso é 66,63%, o que é quase 30% menos. Além da lição de que os dados precisam ser coletados e interpretados, ela destaca que nenhum produto detectou 100% em todas as etapas e a propagação foi ampla. Examinarei agora o impacto do envolvimento humano nas detecções do MSSP e o número da tendência vai para 91%. A equipe de desenvolvimento do endpoint gostou; mas, se eu não estiver usando um serviço MSSP que… você já deve ter sacado meu ponto de vista sobre contexto/caso prático/workflow. Há efetivamente algumas contagens duplas (ou seja, uma penalidade, de modo que, ao remover o MSSP, diminui excessivamente a detecção) do fator MSSP ao removê-lo das análises, mas deixarei isso para uma publicação futura. Não falta referência para nerds de testes de segurança.

Sugestão 5 – Os dados são sempre bons

Nerdice de testes de segurança à parte, essa avaliação é ótima e os dados são muito valiosos. Ter esse tipo de avaliação aprimora os produtos de segurança e a maneira com que os usamos. Então, explore o ATT&CK e leia-o, considerando não apenas as avaliações de produtos, mas como a estrutura da sua organização para detectar e processar ataques é mapeada para as várias campanhas de ameaças. Sem dúvida, teremos mais artigos sobre APT29 e as próximas avaliações.

*Eu era um testador da Common Criteria em um local que também administrava um lab FIPS 140-2. Você sabia que no nível 4 do FIPS um freezer é usado como uma tentativa de exploit? Eu até mergulhei meu dedo na área misteriosa de Métodos Formais usando a metodologia GYPSY e corri gritando “X é igual a X! Não precisamos provar isso!”. O teste mais bizarro que me lembro foi fazer um teste de portabilidade da classificação Orange Book B1 para MVS RACF ao usar partições lógicas. Ali eu desperdicei alguns meses da minha vida. Eu tenho participado bastante da interação com a maioria dos laboratórios de testes de segurança, tais como NSS e ICSA e seus esquemas (isso não é pejorativo, aqui “esquema” é sem maldade) por décadas, porque eu achava importante entender o escopo e limites do teste antes de aceitá-lo em qualquer decisão de compra de produto. Se você quiser fazer com que os nerds dos Common Criteria riam, aponte algo ruim que aconteceu e apenas diga “isso não é ruim, foi colocado no escopo por engano” e isso perturbará os testadores do FIPS porque um limite de criptografia é uma coisa muito real e não algo que os testadores de verdade brincam – e sim Common Criteria é o MySpace dos testes. Entendedores entenderão.