El objetivo lanza un nuevo modelo de inteligencia artificial V-Jep 2

Puntuación0
Puntuación0

El objetivo lanza un nuevo modelo de inteligencia artificial V-Jep 2
Créditos: divulgación/meta

El objetivo presentado el martes (11) el V-Jep 2un sistema pionero de inteligencia artificial que representa un salto significativo en la capacidad de las máquinas para comprender e interactuar con el mundo físico.

El modelo, con 1,2 mil millones de parámetrospuede procesar información visual para predecir comportamientos físicos y controlar robots en entornos completamente nuevos, sin la necesidad de una capacitación específica.

Replicando la intuición humana

El desarrollo se basa en la forma en que los humanos desarrollan la intuición física desde la infancia. Cuando un niño observa que se arroja una pelota, naturalmente espera que la gravedad la traiga de vuelta al suelo.

La capacidad de predecir las consecuencias físicas permite a las personas navegar en entornos desconocidos, anticipar los movimientos deportivos y tomar decisiones cotidianas de manera segura.

EL V-Jep 2 Replica esta capacidad a través de una arquitectura que combina dos componentes principales: un codificador que procesa videos en tiempo real y extrae información semántica sobre el estado observado del mundo, y un predictor que genera proyecciones sobre cómo las situaciones evolucionarán en función de contextos específicos.

Entrenamiento de dos pasos

El proceso de desarrollo ocurrió en dos fases distintas. El primer paso utilizado Más de 1 millón de horas de video y 1 millón de imágenes de diversas fuentes, Permitir que el sistema aprenda patrones sobre interacciones entre personas y objetos, movimiento físico y dinámica ambiental a través del aprendizaje de auto-subvival.

Divulgación/objetivo

Durante esta fase inicial, el modelo ya ha mostrado habilidades impresionantes en las tareas de reconocimiento de acción, logrando un rendimiento excepcional en la referencia de algo v2 y estableciendo nuevos registros al anticipar las acciones épicas de kitchens-100, predecir con precisión acciones que ocurrirán 1 segundo en el futuro.]

V-Jep 2 representa nuestro próximo paso hacia el objetivo de lograr una inteligencia artificial avanzada y construir agentes útiles de IA que puedan operar en el mundo físico

Control robótico sin entrenamiento específico

La segunda fase se centró en el desarrollo de capacidades de planificación a través de la incorporación de Solo 62 horas de datos robóticos. Esta cantidad relativamente pequeña de información especializada fue suficiente para permitir que el sistema controlara los robots en situaciones completamente sin precedentes.

El diferencial de V-Jep 2 radica en su capacidad para Planificación de cero disparosDonde los robots pueden manipular objetos nunca antes vistos en entornos totalmente nuevos. El sistema utiliza control predictivo por modelo, reevaluando constantemente acciones y ajustando estrategias de tiempo real para lograr objetivos visuales específicos.

En pruebas prácticas, el modelo ha logrado Tasas de éxito entre 65% y 80% En tareas de captura y posicionamiento de objetos desconocidos en entornos no publicados, lo que demuestra una versatilidad significativa en comparación con otros modelos robóticos que generalmente requieren capacitación específica para cada entorno operativo.

Nuevos puntos de referencia para la evaluación

Junto a V-Jep 2, el objetivo introdujo tres nuevos puntos de referencia para medir las capacidades de razonamiento físico en los modelos de IA:

1. Intphys 2

Evalúa la capacidad de distinguir entre escenarios físicamente plausibles e imposibles. Utilizando pares de videos idénticos hasta cierto punto, donde se desarrolla un evento que rompe las leyes físicas, el sistema mide la intuición física básica. Mientras que los humanos alcanzan una precisión cercana al 100%, los modelos actuales permanecen cerca del azar.

Divulgación/objetivo

2. Pares de videos mínimos (MVPBench)

Prueba la comprensión física a través de preguntas de opción múltiple, eliminando los atajos comunes como dependencia de las pistas visuales superficiales. Cada ejemplo tiene un par de videos visualmente similar, la misma pregunta, pero una respuesta opuesta, que requiere un razonamiento genuino para el éxito.

Divulgación/objetivo

3. Causalvqa

Mide la capacidad de responder preguntas sobre causa y efecto físico, incluidos escenarios de falsificación, anticipación de eventos y planificación de la acción. Los modelos multimodales actuales demuestran competencia para describir eventos observados, pero enfrentan dificultades significativas para predecir futuros desarrollos.

Divulgación/objetivo

Aplicaciones y limitaciones prácticas

Las aplicaciones potenciales V-Jep 2 incluyen asistencia a personas con discapacidad visual a la automatización industrial avanzada.

El sistema puede ayudar en la navegación de entornos complejos, la manipulación de objetos delicados y realizar tareas que requieren una comprensión contextual sofisticada.

Sin embargo, el modelo actual funciona en una sola vez, lo que limita su aplicación a tareas que requieren planificación jerárquica en múltiples escalas temporales.

Las actividades como llevar lavavajillas o preparar recetas complejas aún representan desafíos significativos.

Impacto en la vida diaria de las personas

Como hemos visto, V-Jep 2 promete transformar la vida cotidiana a través de aplicaciones prácticas que van mucho más allá de los laboratorios de investigación.

Asistentes domésticos robóticos Equipado con esta tecnología, puede ayudar a las personas mayores y personas con movilidad reducida en tareas básicas, como organizar objetos, preparar comidas simples o ayudar a limpiar la casa, adaptarse automáticamente a diferentes diseños y muebles.

Para personas con discapacidad visualel sistema puede revolucionar la navegación independiente. Los dispositivos portátiles equipados con la cámara y el procesamiento V-Jep 2 podrían describir entornos complejos, predecir obstáculos móviles, como personas que caminan o abren puertas, y guían rutas seguras en tiempo real sin la necesidad de mapeo de lugares previos.

En Educación de la primera infanciaLos juguetes inteligentes podrían enseñar física de manera interactiva, demostrando causa y efecto a través de experiencias visuales adaptadas al ritmo de aprendizaje de cada niño. El sistema puede predecir y explicar por qué ciertas acciones dan como resultado consecuencias específicas.

EL Sector de la atención médica También se beneficiaría significativamente. Los robots del hospital equipados con V-Jep 2 podrían navegar por los corredores ocupados, entregar medicamentos para evitar colisiones con equipos móviles y ayudar a los pacientes con necesidades específicas sin la necesidad de programación previa para cada entorno hospitalario.

A Consumidores comunesLa tecnología puede aparecer primero en electrodomésticos inteligentes más sofisticados. Aspiradoras robóticas que realmente entienden el medio ambiente, lavadoras que ajustan los ciclos en función de la observación visual de la ropa o los sistemas de seguridad domésticos capaces de distinguir entre actividades normales y sospechosas a través de una comprensión contextual avanzada.

Lea también:

Instrucciones fturs

El objetivo planea expandir el desarrollo a través de modelos jerárquicos capaz de razonar a múltiples escalas temporales y espaciales. La integración de modalidades sensoriales adicionales, incluidos el audio y el tacto, representa otro frente de desarrollo prioritario.

El código y los puntos de control del modelo para uso comercial y de investigación busca acelerar los desarrollos en el área, creando una comunidad robusta en torno a la tecnología. Los recursos están disponibles a través de Github y Cara abrazada, Acompañado de una tabla de clasificación para rastrear el progreso en nuevos puntos de referencia.

El lanzamiento es un hito muy relevante en la evolución de los sistemas de IA capaces de comprender e interactuar con el mundo físico de manera más intuitiva y eficiente, acercando las capacidades artificiales a las habilidades de navegación natural humana y manipulación ambiental.

Fuente: Objetivo

Estaremos encantados de escuchar lo que piensas

Deje una respuesta

Lucas Laruffa
Logo