Gemini 2.0: la IA de Google ahora habla, genera imágenes, es más rápida y segura – MacMagazine
Hoy, el Google anunció la versión más nueva de su modelo de inteligencia artificial: el Géminis 2.0 Flash – que, según la empresa, puede generar imágenes y audio de forma nativa, además de texto. También tiene la capacidad de utilizar aplicaciones y servicios de terceros, lo que permite el acceso a la búsqueda de Google, la ejecución de código y más.
A partir de hoy, una versión de prueba de Gemini 2.0 Flash está disponible a través de la API de Gemini y las plataformas de desarrollo de Google AI, como AI Studio y Vertex AI. Sin embargo, las capacidades de generación de audio e imágenes inicialmente solo se lanzarán a los socios de acceso temprano, y se espera un lanzamiento más amplio en enero.
En los próximos meses, Google planea incorporar Flash 2.0 en varios productos, incluidos Android Studio, Chrome DevTools, Firebase y Gemini Code Assist.
El modelo de primera generación, llamado 1.5 Flash, sólo puede generar texto y no está diseñado para cargas de trabajo especialmente exigentes. El nuevo modelo, sin embargo, es más versátil, ya que puede interactuar con API externas. Tulsee Doshi, jefe de producto de Gemini, destacó que Flash 2.0 es popular entre los desarrolladores por su equilibrio entre velocidad y rendimiento, ahora mejorado con aún más potencia.
Google afirma que Flash 2.0 es dos veces más rápido que el modelo Gemini 1.5 Pro en ciertos puntos de referencia y presenta importantes mejoras en áreas como la programación y el análisis de imágenes. La nueva tecnología reemplaza al 1.5 Pro como modelo insignia de la serie Gemini, gracias a sus capacidades matemáticas superiores y su mayor precisión fáctica.
Además de generar y modificar imágenes junto con texto, Flash 2.0 también puede procesar fotografías, vídeos y grabaciones de audio, respondiendo preguntas específicas sobre estos contenidos. La generación de audio, descrita como “orientable” y “personalizable”, permite al modelo narrar texto con ocho voces optimizadas para diferentes acentos e idiomas.
Google está implementando la tecnología. SynthID agregar marcas de agua a todos los audios e imágenes generados por Flash 2.0, marcándolos como creaciones sintéticas para mitigar el abuso de uso, incluido deepfakes.
Finalmente, Google está lanzando el API en vivo multimodal para ayudar a los desarrolladores a crear aplicaciones con transmisión de audio y video en tiempo real. Esta API permite la integración de herramientas para realizar tareas y puede manejar patrones de conversación naturales como las interrupciones.
Gemini 2.0 ahora está disponible en la App Store, por lo que si ya tienes la aplicación instalada, simplemente actualízala desde la tienda. Para obtener más información sobre la nueva versión de Google AI, consulte esta página.