
Los asistentes de voz y los modelos de inteligencia artificial son vulnerables a comandos maliciosos, según una investigación – MacMagazine
Un estudio realizado por investigadores de Servicios web de Amazon vulnerabilidades demostradas de los modelos de lenguaje/inteligencia artificial que son capaces de comprender y responder al habla, como Cangrejo. Dichos sistemas pueden manipularse para producir respuestas dañinas y/o poco éticas mediante ataques de audio cuidadosamente elaborados.
Según la investigación, a pesar de la existencia de controles de seguridad en los llamados «modelos de lenguaje de voz», estos siguen siendo muy vulnerables a ataques adversarios. Se trata de discretas perturbaciones en la captura de audio del asistente o modelo que son imperceptibles para el usuario, pero que pueden cambiar completamente el comportamiento del sistema.
Los datos del estudio mostraron que la tasa de éxito de este tipo de ataque contra dichos modelos es, en promedio, del 90% con acceso completo al modelo, mientras que los ataques transferidos exitosos tienen una prevalencia del 10%. Se llegó a las cifras realizando la evaluación sobre una serie de preguntas perjudiciales cuidadosamente formuladas, que muestran el grave potencial de explotación de estos sistemas.
Utilizando una técnica llamada incursión de arriba hacia abajo, los investigadores pudieron generar ejemplos contradictorios que provocaron que los modelos de lenguaje de voz produjeran resultados tóxicos de manera consistente. Cubren 12 categorías, como discurso de odio y violencia gráfica.
Aún más alarmante es la posibilidad de transferir ataques realizados a un modelo a otros, incluso sin acceso directo. Aunque la tasa de éxito cae al 10% en estos casos, sigue siendo una vulnerabilidad considerable. La viabilidad de las transferencias muestra que el problema no es un modelo específico, sino algo más profundo en cómo se entrenan los sistemas para que sean seguros.
Las implicaciones son de gran alcance, ya que las empresas utilizan cada vez más modelos de IA que funcionan con voz en aplicaciones como el servicio al cliente y el análisis de datos. Los ataques adversarios pueden utilizarse, en este sentido, para fraude, espionaje o incluso daño físico, si los modelos están conectados a sistemas automatizados.
Sin embargo, los investigadores proponen algunas medidas para dificultar tales ataques, como agregar ruido aleatorio a la captura de audio de modelos y asistentes como Siri, una técnica conocida como suavizado aleatorio. Sin embargo, a pesar de reducir la tasa de éxito de los ataques, no es una solución completa.
Los autores del estudio argumentaron que defenderse contra estas amenazas es una «carrera armamentista» en curso, ya que las mayores capacidades de los modelos de lenguaje de voz también significan un mayor potencial para usos no deseados.
Los modelos utilizados en la investigación tienen un alto rendimiento en la respuesta a preguntas habladas, alcanzando más del 80% de capacidad tanto en términos de seguridad como de posibilidad de ayudar ante ataques. Por lo tanto, es difícil equilibrar la capacidad y la seguridad a medida que avanza la tecnología, lo que destaca la necesidad de estándares de prueba más estrictos y un desarrollo responsable de la IA.
vía Venture Beat