Gemini 2: Google lanza la nueva generación de su IA multimodal
Google presentó esta semana Gemini 2.0, su última y más poderosa generación de inteligencia artificial. La novedad de esta actualización de LLM llega para elevar el nivel de las soluciones multimodales de la empresa, trayendo soporte nativo para la generación de imágenes y audio, además de importantes avances en rendimiento y eficiencia.
Innovaciones Géminis 2.0
La estrategia de lanzamiento comenzó con la versión experimental Gemini 2.0 Flash, diseñada para ser más accesible y eficiente. La idea de Google es demostrar el potencial del modelo sin comprometer costes ni rendimiento.
En benchmarks como HiddenMath, utilizado para probar problemas matemáticos complejos, el modelo obtuvo un 63%, superando fácilmente a Gemini 1.5 Flash (47,2%).
A través de la evolución hacia Gemini 2.0, Google quiere actuar en más frentes, haciendo que la tecnología sea más versátil para los usuarios. Funciones como la generación de audio, una mejor comprensión de contextos extensos e incluso la integración con herramientas como Google Lens y Maps están en el centro de esta evolución.
la pproyectos impulsados por Gemini 2.0
Entre los proyectos destacados se encuentra el Proyecto Astra, que, con el apoyo de Gemini 2.0, amplía sus capacidades de navegación, identificación de objetos y asistencia en la vida cotidiana.
Desde su presentación en Google I/O, el Proyecto Astra ha sido un escaparate de las capacidades de Gemini 2.0. Combinando diálogo, memoria, herramientas y baja latencia, Astra es uno de los asistentes más completos de la actualidad.
Avances notables con Gemini 2.0
- Diálogos mejorados: La nueva versión de Astra es capaz de cambiar entre idiomas en una sola interacción, con una mejor comprensión de los acentos y términos menos comunes. Esta fluidez lingüística refuerza su aplicabilidad en escenarios globales.
- Integración de herramientas: Gemini 2.0 amplió el arsenal de Astra, permitiendo el acceso directo a Lente de Google, mapas de google y Búsqueda de Googleconvirtiéndolo en un aliado aún más práctico en el día a día.
- Memoria mejorada: Con la retención de información extendida a 10 minutos en sesiones activas, Astra brinda una experiencia personalizada al recordar interacciones pasadas, optimizando la continuidad del soporte.
- Latencia reducida: Gracias a las mejoras en el procesamiento y la transmisión del lenguaje natural, las respuestas de Astra ocurren a una velocidad casi humana, lo que mejora la interacción en tiempo real.
Google también presentó nuevas soluciones para desarrolladores, como Jules, que ayuda a identificar y corregir errores en el código. Otro ejemplo es Project Mariner, una extensión experimental para Chrome que utiliza IA para automatizar tareas en el navegador.
Por tanto, todos estos avances sitúan el foco de la compañía en hacer que la IA sea más potente y útil en diferentes tipos de escenarios.
Un diciembre ajetreado en el mundo de la IA
El lanzamiento se produce en un mes ajetreado para el mercado de la IA. Más tarde esa misma semana, OpenAI anunció mejoras en ChatGPT, como el nuevo modelo Pro y la llegada de ChatGPT a iOS, mientras que su herramienta de creación de vídeos con IA, Sora, se abrió al público. Además, el modelo Grok de X de Elon Musk estuvo disponible de forma gratuita en algunas regiones, como Brasil.
Para los usuarios de iPhone, Gemini también llegó recientemente a iOS, llevando su tecnología a nuevos dispositivos. Este escenario competitivo ilustra la intensa competencia entre gigantes tecnológicos, todos buscando consolidar su posición en el mercado de la IA.
Qué esperar en 2025
Google cree que 2025 será el verdadero comienzo de la “era de los agentes inteligentes”. Soluciones como Gemini 2.0 Flash allanan el camino hacia un futuro en el que la IA multimodal será la base de asistentes universales y herramientas de automatización.
La promesa de los agentes basados en Gemini 2.0 superará la interacción tradicional. Con capacidades mejoradas de procesamiento y análisis en tiempo real, pueden actuar de forma autónoma para ayudar con tareas como navegación, asistencia en juegos e incluso automatizar actividades en el entorno físico.
Aplicaciones en juegos y entretenimiento.
Los agentes diseñados para juegos, como se demostró en Gemini 2.0, pueden analizar el juego en curso, ofrecer sugerencias estratégicas e incluso interactuar directamente con el entorno virtual.
El formato de la aplicación ya ha sido probado con éxito en colaboraciones con empresas como Supercell, destacando el potencial de los agentes para diferentes tipos de juegos.
Aplicaciones en entornos físicos y robótica.
Además de los escenarios virtuales, Google está explorando la aplicación de agentes en entornos físicos. Utilizando las capacidades de razonamiento espacial de Gemini 2.0, estos agentes tienen el potencial de transformar la robótica y la domótica, siendo útiles en las tareas cotidianas.
¿Cuándo estará Gemini 2.0 disponible para todos?
Hoy, el Gemini 2.0 final ya está disponible para desarrolladores y socios de confianza. A partir de ahora, el modelo experimental Gemini 2.0 Flash es accesible para todos los usuarios de Gemini.
Además, se lanzó una nueva función llamada Investigación profunda. Utiliza razonamiento avanzado y contexto ampliado para actuar como asistente de investigación, capaz de explorar temas complejos y crear informes detallados. La herramienta ya está disponible para Gemini Advanced.
En última instancia, con mejoras en seguridad y eficiencia, Google está decidido a liderar esta transformación. ¿Podrá competir por el liderazgo?
Fuente: Google