Prevendo uma nova era: cibercriminosos usando o Machine Learning para criar ameaças altamente avançadas

Listamos um resumo de PoCs e ataques reais onde o machine learning foi aplicado para obter um quadro mais claro do que é possível e do que já é uma realidade em relação às ciberameaças baseadas nesta tecnologia

As empresas de cibersegurança usam a tecnologia machine learning (ML) para aprimorar os recursos de detecção de ameaças que ajudam a fortalecer a defesa das organizações contra malware, exploit kits, e-mails de phishing e até ameaças anteriormente desconhecidas. O Capgemini Research Institute conduziu um estudo sobre o uso do Machine Learning para segurança e constatou que, entre 850 executivos sêniores entrevistados em 10 países, cerca de 20% começaram a usar a tecnologia antes de 2019 e cerca de 60% a usarão até o final do ano.

O uso do machine learning em cibersegurança — para não mencionar muitos outros campos em vários setores — provou ser benéfico. Essa tecnologia, no entanto, também corre o risco de ser usada por atacantes. Embora sua disseminação generalizada ainda esteja longe, pesquisas sobre essa área, particularmente o uso da tecnologia deepfake para extorquir e desinformar, tornaram-se recentemente um tópico de interesse para a comunidade de TI e para o público em geral.

A fim de obter uma imagem mais clara do que é possível e daquilo que já é uma realidade em relação às ciberameaças baseadas no machine learning, veja um resumo das PoCs (Proof of Concept) relacionadas e casos de ataques reais que vimos nos últimos anos:

Um malware desenvolvido por Machine Learning

A pesquisa sobre malware desenvolvido por Machine Learning ainda é surpreendentemente escassa, considerando que alguns especialistas há muito o consideram um tipo de ameaça que pode possuir recursos avançados. De fato, apenas uma PoC dessa ameaça foi divulgada, sendo apresentada na Black Hat USA 2018. A IBM apresentou uma variante chamada DeepLocker que pode implantar aplicações maliciosas não rastreáveis dentro de um payload de dados benigno. A variante de malware é suportada por redes neurais profundas (DNN) ou deep learning, uma forma de machine learning. O uso de DNN disfarça as condições do malware, que são informações necessárias para que as soluções de segurança detectem o payload malicioso.

O DeepLocker foi projetado para se ocultar até que detecte uma vítima específica. Na demonstração, o DeepLocker foi visto furtivamente aguardando uma ação pontual que acionaria seu payload de ransomware. A ação que acionou a carga de transmissão de dados foi o movimento do corpo de uma vítima visada quando ela olhou diretamente para uma webcam de laptop, que é operada por um aplicativo de webcam incorporado com código malicioso. A aplicação de machine learning nesse ataque pode ser considerada limitada, porém, mesmo assim, mostrou como as variantes de malware conseguem ser altamente evasivas e direcionadas quando infundidas com esta técnica.

Vídeo e áudio Deepfake

Os especialistas alertam cada vez mais o público sobre os vídeos deepfake, que são clipes falsos ou adulterados contendo imagens hiper-realistas. Produzidos a partir de redes adversárias generativas (GANs) que geram novas imagens a partir de conjuntos de dados existentes, os vídeos deepfake podem desafiar a percepção das realidades das pessoas, confundindo nossa capacidade de discernir o que é verdadeiro do que é falso.

Atualmente, a tecnologia deepfake é usada principalmente em vídeos que envolvem pornografia, propaganda política, e sátira. Quanto ao impacto desses vídeos, um artigo do Medium, publicado em maio de 2019, afirmou que havia cerca de 10.000 vídeos deepfake online, com a presidente da Câmara Nancy Pelosi e a estrela de Hollywood Scarlett Johansson sendo dois dos seus assuntos/vítimas mais populares.

Em relação ao uso dessa tecnologia em crimes cibernéticos com fins lucrativos, pode-se supor que os vídeos deepfake possam ser usados para criar uma variação de comprometimento de e-mail corporativo (BEC) ou fraude de CEO. Nessa variação do esquema, um vídeo deepfake pode ser usado como um de seus componentes de engenharia social para ludibriar as vítimas.

Mas o primeiro uso relatado da tecnologia deepfake em fraude de CEO veio na forma de áudio. Em setembro de 2019, uma fraude envolvendo áudio deepfake foi usada para induzir um executivo do Reino Unido a enviar US$ 243.000 a uma conta fraudulenta. A companhia de seguros da vítima afirmou que a voz ouvida no telefonema foi capaz de imitar não somente a voz do executivo sendo fraudado, como, também a tonalidade, pontuação e o sotaque dele.

Uma ferramenta para adivinhar senhas

Força bruta e métodos de engenharia social são técnicas antigas, mas populares que os cibercriminosos usam para roubar senhas e invadir contas de usuários. Novas maneiras de fazer isso podem ser inadvertidamente auxiliadas por informações do usuário compartilhadas nas mídias sociais — alguns ainda incorporam informações compartilhadas publicamente nas senhas de suas contas. Além disso, a pesquisa de machine learning sobre quebra de senha é uma fonte de preocupação com a qual usuários e empresas devem prestar muita atenção.

Em 2017, uma das primeiras provas da suscetibilidade de machine learning ao abuso foi divulgada na forma do PassGAN — um programa que pode gerar palpites de senhas de alta qualidade. Usando um GAN de dois sistemas de machine learning, especialistas do Instituto de Tecnologia Stevens, Nova Jersey, EUA, foram capazes de usar o programa para adivinhar mais senhas de contas de usuário do que as ferramentas populares de quebra de senha HashCat e John the Ripper.

Para comparar o PassGAN com o HashCat e John the Ripper, os desenvolvedores forneceram ao sistema de machine learning mais de 32 milhões de senhas coletadas da violação de dados do RockYou de 2010 e deixaram gerar milhões de novas senhas. Posteriormente, se tentou usar essas senhas para quebrar uma lista hash de senhas extraídas da violação de dados do LinkedIn em 2016.

Os resultados voltaram com o PassGAN gerando 12% das senhas no conjunto do LinkedIn, enquanto as outras ferramentas geraram entre 6% e 23%. Mas quando o PassGAN e o HashCat foram combinados, 27% das senhas do conjunto do LinkedIn foram quebradas. Se os cibercriminosos conseguirem criar uma versão semelhante ou aprimorada dessa metodologia, pode ser uma maneira potencialmente confiável de invadir contas de usuários.

Machine Learning Adversário

O machine learning adversário (adversarial machine learning ou AML) é uma técnica que os atacantes podem usar para causar mau funcionamento de um modelo de machine learning. Eles podem fazer isso criando amostras contraditórias, que são entradas modificadas fornecidas ao sistema de ML para prejudicar sua capacidade de prever com precisão. Em essência, essa técnica — também chamada ataque adversário — coloca o sistema de ML contra si próprio e contra a organização que o administra.

Foi comprovado que esse método é capaz de fazer com que os modelos de machine learning para segurança tenham um desempenho ruim, por exemplo, fazendo com que eles produzam taxas mais altas de falsos positivos. Eles conseguem fazer isso injetando amostras de malware semelhantes a arquivos benignos para envenenar conjuntos de treinamento de machine learning.

Os modelos de machine learning usados para segurança também podem ser enganados usando arquivos Portable Executable (PE) benignos infectados ou um código-fonte benigno compilado com código malicioso. Essa técnica pode fazer com que uma amostra de malware pareça benigna para os modelos, impedindo que as soluções de segurança as detectem com precisão como maliciosas, pois sua estrutura ainda é composta principalmente pelo arquivo benigno original.

Como as ciberameaças baseadas em machine learning podem ser tratadas?

Aprimorar as soluções de monitoramento e análise de dados é um passo na direção certa para detectar e bloquear ameaças sofisticadas, como as fornecidas por esta tecnologia. Quando as soluções mencionadas forem eventualmente suportadas por uma capacidade mais forte de rastrear a atividade da rede e do servidor, onde até ameaças sofisticadas ou desconhecidas podem ser identificadas, essas ameaças avançadas serão detectadas e as fraquezas da plataforma poderão ser identificadas. Isso obriga as organizações a corrigir esses pontos fracos, que, por sua vez, abrem caminho para um ambiente de TI mais seguro.

Quando se trata de lidar com ferramentas avançadas de quebra de senha, como o PassGAN, desenvolvido com base em ML, usuários e organizações podem avançar para esquemas de autenticação de dois fatores, a fim de reduzir sua dependência de senhas. Uma abordagem para isso é usar uma senha de uso único (OTP) — uma sequência de caracteres gerada automaticamente que autentica o usuário para uma única sessão de login ou transação.

Enquanto isso, tecnologias são desenvolvidas continuamente para se defender contra deepfakes. Para detectar vídeos deepfake, especialistas de projetos iniciados pelo Pentágono e pela SRI International estão fornecendo amostras de vídeos reais e de deepfake aos computadores. Assim, os computadores podem ser treinados para detectar falsificações. Com o intuito de detectar áudio deepfake, especialistas estão treinando computadores para reconhecer inconsistências visuais. E quanto às plataformas em que os deepfakes podem se infiltrar, Facebook, Google e Amazon, entre outras organizações, se unem para detectá-los por meio do DeepFake Detection Challenge (DFDC) — um projeto que convida pessoas de todo o mundo a criar tecnologias que possam ajudar a detectar estas fraudes e outras formas de mídia manipulada.

Ataques adversos, por outro lado, podem ser evitados, tornando os sistemas de machine learning mais robustos. Isso pode ser feito em duas etapas: primeiro, identificando possíveis falhas de segurança no início de sua fase de projeto e tornando cada parâmetro preciso e, segundo, treinando novamente os modelos por meio da geração de amostras adversárias e usando-os para aprimorar a eficiência do sistema. Reduzir a superfície de ataque do sistema também pode impedir ataques. Como os cibercriminosos modificam amostras para detectar um sistema de machine learning, soluções baseadas em nuvem, como produtos com segurança Trend Micro™ XGen™, podem ser usadas para detectar e bloquear ações maliciosas.

Governos e organizações privadas, principalmente empresas de cibersegurança, devem antecipar uma nova era em que os cibercriminosos usam tecnologias avançadas, como o machine learning, para impulsionar seus ataques. Como fizeram no passado, os cibercriminosos continuarão a desenvolver formas de ameaças mais novas e avançadas, para estarem sempre um passo à frente. Sob esse prisma, as tecnologias que combatem essas ameaças também devem continuar evoluindo. No entanto, embora seja uma boa escolha implementar uma tecnologia sob medida para detectar essas ameaças, uma defesa de segurança em várias camadas (que combina uma variedade de tecnologias) e a aplicação consistente das melhores práticas de cibersegurança ainda são formas mais eficazes de defesa contra uma ampla gama de ameaças.