Deep learning: tras la pista de certificados maliciosos

In SEGURIDAD
8 de marzo de 2019 11:03, hs.
ebizLatam

Cyxtera investigó cómo se pueden usar las redes neutrales profundas para desvelar certificados web maliciosos en su entorno.

Ver el distintivo candado verde y “https” en la barra del navegador significa para la mayoría de los internautas una sola cosa: seguridad. Sin embargo, ¿se justifica esta sensación de seguridad? La respuesta corta es ¡no!

“Https” significa que el sitio web al que estamos entrando está encriptado y toda la información enviada desde ese sitio está protegida por una clave de encriptación, que solo permite que el usuario y el dueño del sitio la lean.

Los URL que empiezan con https también contienen un archivo, llamado certificado web, con información acerca del dueño de la clave de encriptación (el sujeto) y la compañía que creó el certificado (el emisor).

Los navegadores modernos de internet utilizan esa información para decirles a los usuarios si la página web es confiable. Sin embargo, los ciberdelincuentes han encontrado la manera de aprovecharse de la confianza de los usuarios y usar los sitios web para actividades malvadas.

Ante esto, el equipo de Cyxtera emprendió una investigación sobre cómo se pueden usar las redes neutrales profundas para desvelar certificados web maliciosos en su entorno.

Falso sentido de seguridad

Una encuesta realizada en 2018 por una firma líder de analistas de la industria les preguntó a los usuarios qué entendían que significaba el indicador de seguridad del navegador con respecto a la seguridad del sitio web, y la mayoría de los encuestados indicó incorrectamente que identifican el símbolo y el https del URL con confianza y seguridad.

Este malentendido es el resultado de un pensamiento que existe en el mundo de la ciberseguridad desde la década de los 90: “Solo sitos web confiables al ver https en la barra de direcciones”.

La frase era válida en el pasado, pero no se sostiene en un mundo en el que los ciberdelincuentes son capaces de utilizar la misma tecnología y ponerla a su favor.

El enfoque de protección del navegador

Al entrar a un sitio web, los navegadores modernos validan la información contenida en un certificado web y le informan al usuario si debe tener cuidado al entrar a ese sitio web en particular.

Si un sitio web se marca o reporta como sospechoso se agrega a una lista negra, pero la lista negra genera retrasos para detectar la actividad maliciosa, ya que un navegador no detecta de inmediato, o el usuario no reporta inmediatamente, todos los sitios web peligrosos con certificados válidos.

Esto permite que actores maliciosos engañen a los usuarios para que revelen información confidencial, e incluso son capaces de provocar mucho daño en poco tiempo.

Análisis de los datos de los certificados web

Tomando en cuenta el falso sentido de seguridad y el enfoque de protección del navegador, Cyxtera intentó mejorar la detección de certificados maliciosos usando Deep Learning, y recopiló 1 millón de certificados de sitios web legítimos, 3.000 certificados de sitios de phishing y 3.000 certificados de sitios web infectados con malware.

“Con esos datos, se supo que casi todos los sitios web maliciosos utilizan certificados autogenerados que se pueden conseguir gratis, mientras que menos del 10% utiliza certificados comprados que contienen información falsa. Por otra parte, el 55% de los negocios legítimos también utiliza certificados autogenerados, que contienen información real y verificable. Además, muchos sitios web legítimos son marcados por los navegadores como sospechosos por sus certificados web generados de manera incorrecta o porque han dejado que sus certificados expiren”, explicó Germán Patiño, director de Ventas para Latinoamérica de Cyxtera.

Dejar que el algoritmo aprenda solo

Cyxtera creó una herramienta capaz de distinguir cuándo se está utilizando un certificado web para fines legítimos o para actividades maliciosas, al tiempo que evita la gran cantidad de falsos positivos y negativos generados por los sistemas de detección de los navegadores.

Primero se procesaron y extrajeron las principales características de los certificados web que diferencian entre sitios seguros y legítimos, y luego se creó el algoritmo.

Otros equipos de investigación que han tratado el mismo problema utilizando técnicas de machine learning, lo han abordado con un algoritmo de máquina de vectores de soporte (SVM), pero Cyxtera decidió desplegar un algoritmo de Deep Learning con la esperanza de lograr un mayor nivel de precisión.

“Un algoritmo llamado memoria a largo y corto plazo (LSTM) permite usar un enfoque de Deep Learning de aprender por sí solo del contenido de texto de los certificados web. Este algoritmo es capaz de descubrir nuevos patrones por sí solo, sin ayuda de sus programadores, lo que significa que puede investigar más allá de lo que pueden inferir los humanos a partir del contenido de los certificados”, detalló Patiño.

Para probar el nuevo algoritmo, Cyxtera creó un algoritmo SVM y comparó su desempeño con el del algoritmo LSTM utilizados con el mismo conjunto de datos para detectar certificados de malware y phishing.

Así, el algoritmo de Deep Learning logró superar el desempeño de SVM en un 5%, en el caso del malware, y en un 3% en el caso del phishing.

“Utilizando un enfoque de Deep Learning para detectar cuándo se está utilizando indebidamente un certificado web, el equipo de investigación de Cyxtera pudo detectar certificados maliciosos con un importante nivel de precisión, evitando la necesidad de depender de los lentos sistemas de detección de los navegadores”, concluyó el ejecutivo de Cyxtera.

El uso de este algoritmo para identificar el posible mal uso de los certificados de TLS ha mejorado el desempeño de la plataforma de detección de amenazas digitales de Cyxtera, reduciendo el tiempo necesario para detectar nuevos ataques de sitios web maliciosos.