Genius de VERSES™ supera al modelo de OpenAI en el desafío de descifrado de códigos "Mastermind"
VANCOUVER, Columbia Británica, 17 de diciembre de 2024 (GLOBE NEWSWIRE) — VERSES AI Inc. es una empresa de computación cognitiva que ha destacado su producto líder, Genius, como vencedor en el juego de descifrado de códigos Mastermind. En una comparación directa con el modelo o1-preview de OpenAI, considerado uno de los modelos de razonamiento más avanzados en la industria, Genius logró resultados impresionantes. Durante más de cien pruebas, Genius demostró ser consistentemente 140 veces más rápido y más de 5,000 veces más económico que el modelo de OpenAI.
Esto fue señalado por el director de tecnología de VERSES, Hari Thiruvengada, quien comentó: "Mastermind fue la elección perfecta para esta prueba, ya que requiere razonar lógicamente en cada paso, prever los resultados de las decisiones y adaptarse dinámicamente para descifrar el código. Esta comparación resalta cómo Genius supera las tareas que requieren razonamiento lógico y la capacidad de entender causas y efectos, destacando limitaciones clave en los enfoques actuales basados en modelos de lenguaje".
Detalles de la comparación
La comparación implicó jugar 100 partidas de Mastermind, un juego que consiste en deducir un código oculto a través de conjeturas lógicas basadas en pistas de retroalimentación. Las métricas clave incluyen tasa de éxito, tiempo de procesamiento, número de conjeturas y costo total.
El equipo de VERSES concluyó que Genius logró resolver el código en cada uno de los 100 juegos, mientras que el modelo de OpenAI solo tuvo una tasa de éxito del 71%, con un 29% de fallos. Los resultados de la prueba se desglosan de la siguiente manera:
Métrica | Genius™ | o1-preview |
Tasa de Éxito | 100% | 71% (29% de fallos) |
Tiempo Total de Cómputo | 5 minutos, 18 segundos (promedio de 3.1 segundos por juego) | 12.5 horas (promedio de 345 segundos por juego) |
Costo Total por 100 Juegos | $0.05 USD (estimado) | $263 USD |
Requisitos de Hardware | Computadora portátil estándar (M1) | Nube basada en GPU |
Resultados destacados
- Precisión y fiabilidad. Genius resolvió el código cada vez en un número consistente de pasos.
- Velocidad. Genius resolvió juegos en un rango de 1.1 a 4.5 segundos, mientras que los tiempos de resolución de o1-preview fueron de 7.9 a 889 segundos (hasta 15 minutos).
- Eficiencia. El tiempo total de cómputo de Genius para 100 juegos fue de poco más de 5 minutos, en comparación con las 12.5 horas de o1-preview.
- Costo. El costo computacional de Genius fue estimado en $0.05 USD para los 100 juegos, frente a los $263 USD de o1-preview.
En resumen, Genius resolvió todas las partidas de Mastermind, fue 140 veces más rápido y 5260 veces más barato que el modelo o1-preview de OpenAI.
Perspectivas futuras
Gabriel René, fundador y CEO de VERSES, destacó la importancia de estos resultados, señalando que evidencian un vacío crítico en el panorama actual de la inteligencia artificial: las limitaciones de los modelos basados en lenguaje para manejar tareas de razonamiento lógico de manera precisa y confiable. Genius no solo sobresale en estas tareas, sino que también lo hace de manera más rápida, económica y consistente, lo que la convierte en una solución ideal para enfrentar desafíos comerciales complejos.
VERSES continúa desarrollando capacidades de razonamiento avanzadas y está ansiosa por mostrar más resultados en pruebas futuras, incluyendo datos sobre el benchmark de Atari 10K.
Mastermind™ es una marca registrada de Pressman Inc.
Acerca de VERSES
VERSES es una empresa de computación cognitiva que desarrolla sistemas de software inteligentes de próxima generación, inspirados en la sabiduría de la naturaleza. Su producto principal, Genius, es un conjunto de herramientas para profesionales del aprendizaje automático que permite modelar sistemas dinámicos complejos y generar agentes inteligentes autónomos que razonan, planifican y aprenden continuamente. La visión de VERSES es crear un mundo más inteligente que potencie el potencial humano a través de tecnología inspirada en la naturaleza.
inteligencia, tecnología, código, eficiencia, rendimiento