Tecnología

Revisión de Grok-3: Cómo se compara la IA de Elon Musk con ChatGPT, Claude, DeepSeek y Gemini

Published February 20, 2025

La nueva creación de xAI, Grok-3, ha llegado al mercado de inteligencia artificial, generando gran revuelo en la comunidad, especialmente después del impacto inicial de DeepSeek en enero.

En su presentación, el equipo de xAI mostró algunos de los mejores resultados en pruebas, destacando la capacidad de razonamiento de Grok-3 frente a sus competidores. De hecho, se convirtió en el primer LLM en superar los 1,400 puntos de ELO en el LLM Arena, posicionándose como la mejor opción según la preferencia del usuario.

Esto puede sonar audaz, pero cuando Elon Musk, conocido por reinventar la industria de la aeronáutica y los automóviles eléctricos, afirma que su IA es la mejor, hay que prestar atención.

Decidimos probarlo nosotros mismos. Ponemos a Grok-3 a competir contra ChatGPT, Gemini, DeepSeek y Claude en diversas áreas: escritura creativa, programación, resumen de textos, razonamiento matemático, lógica, manejo de temas sensibles, sesgo político, generación de imágenes y búsqueda profunda.

¿Serán Grok-3 y su enfoque innovador los campeones de la IA? Acompáñanos a desentrañar los resultados, porque esta IA es impresionante, pero eso no significa que sea la adecuada para todos.

Escritura creativa: Grok-3 supera a Claude

A diferencia de la escritura técnica o de resumen, la escritura creativa evalúa qué tan bien puede una IA crear historias atractivas y coherentes, lo que es crucial para novelistas y guionistas.

Pidimos a Grok-3 que escribiera un cuento corto sobre un viajero en el tiempo que se encuentra atrapado en un paradoja tras regresar al pasado. Añadimos detalles complejos para complicar el desafío.

Grok-3 superó a Claude 3.5 Sonnet, que había sido considerado el estándar de oro en tareas creativas. La narración de Grok-3 mostró un mejor desarrollo de personajes y una progresión de la trama más natural. Mientras Claude se centraba en descripciones vívidas y mantenía coherencia técnica, Grok-3 se destacó en la construcción del mundo y en establecer una premisa atractiva desde el principio.

Aunque la historia fue en general más cautivadora con Grok-3, hubo un momento en el que un giro de la trama se sintió un poco forzado. No obstante, en general, la narrativa de Grok-3 fue más envolvente, incluso si Claude tenía sus propias fortalezas en términos de descripción.

Puedes leer la historia de Grok aquí y compararla con la de Claude 3.5 Sonnet y otros modelos que han realizado tareas similares.

Resumen de documentos: Un empate por preferencia

Un aspecto que faltaba en Grok-3 es su capacidad para leer documentos, algo que muchos de sus competidores ofrecen como parte de su funcionalidad básica.

Para sortear esta limitación, pegamos un informe del FMI de 32.6K tokens (47 páginas) en la interfaz, lo que anteriormente había provocado problemas con Grok-2. Afortunadamente, Grok-3 pudo manejarlo y resumió el texto, aunque de manera algo extenso.

Superó a Claude en la precisión de las citas y no tuvo problemas al referenciar partes específicas del informe, un problema común en las pruebas previas. Con respecto a GPT-4o, la única diferencia fue el estilo; mientras GPT-4o parecía más analítico, Grok-3 reestructuró la información de una manera más accesible.

Esto significa que no hay un ganador claro; dependerá de las expectativas del usuario. Si buscas análisis específicos y detallados, GPT-4o es más adecuado. En cambio, si prefieres una interacción más conversacional, Grok-3 sería una mejor opción.

Puedes leer el resumen de Grok aquí.

Censura: Grok-3 es más libre

En cuestiones de raza y sexualidad, las personas tienen diferentes definiciones de lo que es sensible. Grok ha sido históricamente el modelo más sin restricciones, y Grok-3 sigue esa tendencia.

El modelo aborda preguntas delicadas con más astucia, respondiendo a inquietudes polémicas sin caer en el lenguaje ofensivo. Por ejemplo, fue el único modelo que interactuó con preguntas que tenían sesgos raciales, reconociendo la subjetividad del tema a la vez que respondía cuidadosamente.

Esto contrasta con otros modelos que a menudo se niegan a participar en este tipo de conversaciones. Si bien Grok-3 cumple con las solicitudes controversiales, mantiene un enfoque seguro, algo que lo diferencia de otros modelos muy cautelosos.

Sesgo político: Grok-3 ofrece respuestas neutrales

A pesar de las preocupaciones de que Grok-3 pudiera heredar sesgos políticos al ser desarrollado por Elon Musk, los resultados fueron inesperadamente equilibrados. Al discutir temas como el conflicto israelí-palestino, Grok-3 presentó respuestas que consideraban múltiples perspectivas sin favorecer ninguna de ellas.

Esto se opone a prácticas observadas en modelos como ChatGPT, que a menudo guían a los usuarios hacia ciertas conclusiones.

Los resultados fueron los mismos en temas delicados como el de Taiwán y China, donde Grok-3 expuso información objetiva sobre las posturas de todos los involucrados, manteniendo un enfoque neutral en sus respuestas.

El modelo solo cedió al aplicar presiones extremas sobre él para que tomara una posición definitiva. Sin embargo, en tales casos, Grok-3 aún lograba mantener una postura más neutral que sus competidores.

Programación: Grok-3 funciona mejor que los otros

Las pruebas confirmaron que Grok-3 tiene habilidades de programación bastante sólidas, generando códigos funcionales que superan a los de otros modelos. Al pedirle que creara un juego de reacción, Grok-3 eligió usar HTML5 en lugar de Python, una decisión que justificó por su facilidad de acceso y ejecución.

Produjo la versión más limpia y efectiva del juego que hemos visto hasta ahora, superando a Claude 3.5 Sonnet y otros modelos. El código estaba bien organizado y presentaba un manejo eficiente de recursos.

Razonamiento matemático: OpenAI y DeepSeek destacan

A pesar de que Grok-3 maneja problemas matemáticos complejos, falló en resolver un problema específico del FrontierMath benchmark que otros modelos pudieron resolver con éxito. Aunque se tardó en aproximar la solución, no logró dar una respuesta completa.

Razonamiento no matemático: Más rápido y mejor

Grok-3 mostró una gran capacidad para resolver problemas lógicos, haciendo el ejercicio más rápido que sus competidores y logrando el resultado correcto en menos tiempo.

Generación de imágenes: Bueno, pero modelos especializados son mejores

Grok emplea Aurora como su generador de imágenes, que es versátil y está en desarrollo pero no supera en calidad a modelos especializados como MidJourney o Dall-e 3. Sin embargo, su facilidad de uso permite que los usuarios generen imágenes rápidamente sin necesidad de cambiar de plataforma.

Búsqueda profunda: Más rápida, pero más genérica

La función de búsqueda de Grok-3 proporciona información precisa, aunque en un formato genérico. En comparación con Gemini, carece de profundidad en la investigación inicial, pero genera resultados más rápidos.

Veredicto: ¿Cuál modelo es el mejor?

La elección del modelo adecuado dependerá del uso que le quieras dar. Grok-3 destaca en programación, escritura creativa y manejo de temas delicados. ChatGPT es mejor si buscas un chatbot más interactivo. Claude todavía tiene seguidores leales en ciertas áreas. DeepSeek es ideal si buscas un modelo de razonamiento local y privado. Gemini es excelente para aquellos que quieren un asistente vinculado a Google.

En términos de interfaz, ChatGPT y Gemini tienen las interfaces más pulidas, mientras que Grok-3 se coloca en un sólido segundo lugar. Claude, en comparación, es la opción menos atractiva.

IA, tecnología, ElonMusk