Estudios de Apple para interpretar las características del habla humana – MacMagazine

EL Manzana considerar accesibilidad Como gran importancia en la tecnología, que se ve en la cantidad de recursos y funciones que la compañía desarrolla para hacer que sus dispositivos y servicios sean más democráticos e inclusivos.
Esto también se refleja en el campo de inteligencia artificialsobre el cual la empresa tiene varios estudios en progreso. Uno de ellos, publicado recientemente [PDF]centrado en Dimensiones de calidad de voz (Dimensiones de calidad de vozo vqds), que son características de la voz capaz de clasificar el estilo del habla.
Estas dimensiones capturan información sobre el estilo y la voz del altavoz, de modo que modelar un conjunto de VQD: el objetivo del estudio de Apple, puede ofrecer una visión para diversas aplicaciones, como mejorar la curación de datos para el reconocimiento automático de voz e identificar las diferencias del habla, como las vinculadas al bienestar o las emociones.
Con este fin, los investigadores de Apple tienen sondas de luz capacitadas (modelos de diagnóstico simples que se basan en los sistemas de voz existentes) en un gran conjunto de datos de habla pública notados, incluidas voces de personas con Parkinson, TI y parálisis cerebral.
También usaron siete dimensiones principales para medir cómo suena la voz:
- Inteligibilidad: Qué fácil es entender el discurso.
- Consonantes inexactos: Qué tan claramente se articulan los sonidos consonantes.
- Escrutinio: Una calidad vocal áspera, tensa o severa.
- Naturalidad: Cómo suena el discurso típico o fluido para un oyente.
- Monoloudidad: La ausencia de variación en la intensidad del habla.
- Monopitch: La ausencia de variación del tono del habla.
- Eslogan: La presencia de un ruido de fondo audible, generalmente causado por el cierre incompleto de los pliegues vocales.
El resultado del estudio señala que las sondas funcionaron bien en la mayoría de las dimensiones, que varían ligeramente dependiendo de la característica del habla. Sin embargo, Apple no se limitó al habla clínica, también probando discursos con diferentes emociones.
Se vio que las voces enojadas mostraron voces menos lentas y tranquilas se clasificaron ya que las voces menos ásperas y tristes se percibían como más monótonas.
Todo esto, por supuesto, se puede aplicar para mejorar las tecnologías de Apple existentes, y puede dar paso a un cangrejo más asequible, por ejemplo, capaz de modular su discurso dependiendo de cómo interprete su estado de ánimo y otras posibles condiciones.
a través de 9to5mac
