Ilya Sutskever de OpenAI advierte sobre una crisis de datos que podría cambiar el futuro de la IA
Ilya Sutskever, cofundador de OpenAI, ha levantado la voz respecto a una posible crisis de datos que podría transformar el panorama de la industria de la inteligencia artificial (IA).
Lo que ocurrió: Durante su presentación en la Conferencia sobre Sistemas de Procesamiento de Información Neural (NeurIPS) en Vancouver, Sutskever advirtió que el recurso vital que impulsa el desarrollo de la IA está disminuyendo, según informó el Observer.
“Los datos son el combustible fósil de la IA”, afirmó Sutskever en la conferencia. “Hemos alcanzado el pico de datos y no habrá más”.
Esta advertencia se produce en un contexto de crecientes restricciones en el acceso a datos. Un estudio de la Iniciativa de Procedencia de Datos encontró que entre 2023 y 2024, los propietarios de sitios web han bloqueado el acceso a las empresas de IA a un 25% de las fuentes de datos de alta calidad y un 5% de todos los datos en los principales conjuntos de datos de IA.
Esta escasez ya está obligando a los líderes de la industria a adaptarse. El CEO de OpenAI, Sam Altman, ha propuesto utilizar datos sintéticos, es decir, información generada por modelos de IA, como una solución alternativa. La empresa también está explorando capacidades de razonamiento mejoradas a través de su nuevo modelo o1.
Por qué es importante: La preocupación por la escasez de datos se alinea con observaciones recientes de la firma de capital de riesgo Andreessen Horowitz. Marc Andreessen ha señalado que las capacidades de la IA han alcanzado un punto de estancamiento, y varias empresas se enfrentan a techos tecnológicos similares.
Sutskever, quien dejó OpenAI a principios de este año para lanzar Safe Superintelligence con un respaldo de $1.000 millones por parte de inversores como Andreessen Horowitz y Sequoia Capital, cree que la IA evolucionará para depender menos de los datos.
“Los futuros sistemas de IA entenderán las cosas a partir de datos limitados, no se confundirán”, afirmó, aunque no quiso especificar cómo ni cuándo ocurriría esto.
Las crecientes dificultades para acceder a conjuntos de datos diversos y de alta calidad para el entrenamiento de IA han llevado a empresas como OpenAI, Meta Platforms Inc, NVIDIA Corp y Microsoft Corp a adoptar prácticas de scraping de datos, aunque no sin controversia.
Por ejemplo, LinkedIn de Microsoft ha sido recientemente objeto de críticas por usar datos de usuarios para entrenar sus modelos de IA antes de actualizar sus términos de servicio.
De manera similar, Meta ha estado utilizando publicaciones en redes sociales disponibles públicamente de Europa para entrenar sus modelos Llama de lenguaje natural, aunque las preocupaciones sobre la privacidad han llevado a desafíos legales.
NVIDIA también ha estado recolectando videos de YouTube y Netflix, incluidos aquellos de populares YouTubers tecnológicos como Marques Brownlee, para entrenar sus sistemas de IA. Mientras estas empresas argumentan que sus prácticas cumplen con las leyes de derechos de autor, las implicaciones éticas de extraer datos sin un consentimiento explícito han causado alarma en toda la industria.
IA, datos, crisis