Versión en archivo de texto

OpenAI Furiosa: DeepSeek Podría Haber Robado Todos los Datos Que OpenAI Nos Robó a Nosotros

Jason Koebler

La narrativa que OpenAI, Microsoft y el recién nombrado “zar de la IA” de la Casa Blanca, David Sacks, están promoviendo para explicar por qué DeepSeek pudo crear un modelo de lenguaje grande que supera al de OpenAI, mientras gasta una fracción de dinero y usa chips más antiguos, es que DeepSeek usó los datos de OpenAI de manera injusta y sin compensación. ¿Te suena familiar?

Tanto Bloomberg como el Financial Times informan que Microsoft y OpenAI están investigando si DeepSeek entrenó indebidamente su modelo R1, que está arrasando en el mundo de la IA, con los resultados de los modelos de OpenAI.

Así comienza el artículo de Bloomberg: “Microsoft Corp. y OpenAI están investigando si los datos obtenidos de la tecnología de OpenAI fueron obtenidos de manera no autorizada por un grupo vinculado a la startup china de inteligencia artificial DeepSeek, según personas familiarizadas con el asunto.” El artículo continúa diciendo que “Tal actividad podría violar los términos de servicio de OpenAI o podría indicar que el grupo actuó para eliminar las restricciones de OpenAI sobre la cantidad de datos que podrían obtener, dijeron las fuentes.”

Mientras tanto, el capitalista de riesgo y nuevo miembro de la administración Trump, David Sacks, afirmó que hay “evidencia sustancial” de que DeepSeek “destiló el conocimiento de los modelos de OpenAI.”

“Hay una técnica en IA llamada destilación, de la que van a escuchar mucho, y es cuando un modelo aprende de otro modelo. Lo que sucede efectivamente es que el modelo estudiante hace muchas preguntas al modelo padre, tal como lo haría un ser humano para aprender, pero las IA pueden hacer esto preguntando millones de preguntas, y pueden imitar el proceso de razonamiento que aprenden del modelo padre y, en cierto modo, succionar el conocimiento del modelo padre,” dijo Sacks a Fox News. “Hay evidencia sustancial de que lo que DeepSeek hizo aquí es destilar el conocimiento de los modelos de OpenAI y no creo que OpenAI esté muy feliz con esto.”

Voy a explicar qué significa esto en un momento, pero antes: ¡Jajajajajajajajajajajajajajaja hahahahahahahahahahaha! Como ya han señalado muchos, es increíblemente irónico que OpenAI, una empresa que ha estado obteniendo grandes cantidades de datos de toda la humanidad, en gran parte de manera “no autorizada” y, en algunos casos, en violación de los términos de servicio de aquellos de los que ha estado extrayendo datos, ahora se queje de las mismas prácticas con las que construyó su empresa.

El argumento que OpenAI, y todas las empresas de inteligencia artificial que han sido demandadas por absorber sigilosamente e indiscriminadamente cualquier dato que puedan encontrar en internet, no es que no estén absorbiendo todos esos datos, sino que están absorbiendo estos datos y se les permite hacerlo.

Actualmente, OpenAI está siendo demandada por el New York Times por entrenar sus modelos con artículos de ese medio, y su argumento es que esto está perfectamente permitido bajo las protecciones de uso justo de la ley de derechos de autor.

“Entrenar modelos de IA usando materiales públicos disponibles en internet es uso justo, como lo respaldan precedentes amplios y bien aceptados. Vemos este principio como justo para los creadores, necesario para los innovadores y crítico para la competitividad de EE. UU.,” escribió OpenAI en una publicación de blog. En su moción para desestimar en el tribunal, OpenAI escribió: “Está claro desde hace mucho tiempo que el uso no consumptivo de material con derechos de autor (como el entrenamiento de modelos de lenguaje grande) está protegido por el uso justo.”

En esencia, OpenAI y Microsoft ahora se quejan de ser derrotados en su propio juego por DeepSeek. Pero además, parte del argumento de OpenAI en el caso contra el New York Times es que la única manera de crear un modelo de lenguaje generalista que funcione bien es absorbiendo cantidades gigantescas de datos. Le dice al tribunal que necesita una enorme cantidad de datos para hacer un modelo de lenguaje generalista, lo que significa que cualquier fuente individual de datos no es tan importante. Esto es gracioso, porque DeepSeek logró crear un modelo de lenguaje grande que rivaliza y supera al propio de OpenAI sin caer en la trampa de que más datos = mejor modelo. En cambio, DeepSeek usó una estrategia de aprendizaje por refuerzo que su artículo afirma que es mucho más eficiente que lo que hemos visto hacer a otras empresas de IA.

La moción de OpenAI para desestimar la demanda del New York Times establece, como parte de su argumento, que “la clave para los modelos de lenguaje generalistas” es la “escala,” lo que significa que parte de su argumento es que cualquier contenido robado individualmente no puede crear un modelo de lenguaje grande, y que lo que permite a OpenAI hacer modelos de lenguaje de vanguardia es esta idea de escala. Los abogados de OpenAI citan un artículo del New York Times sobre esta estrategia como parte de su argumento: “La cantidad de datos necesaria fue asombrosa” para crear GPT-3, escribió. “‘Fue esa ‘escala sin precedentes’ la que permitió al modelo internalizar no solo un ‘mapa del lenguaje humano’, sino lograr un nivel de adaptabilidad y ‘inteligencia emergente’ que ‘nadie pensó que fuera posible.’”

Como mencionó Sacks, “la destilación” es un principio establecido en la investigación de inteligencia artificial, y es algo que se hace todo el tiempo para refinar y mejorar la precisión de modelos de lenguaje más pequeños. Este proceso está tan normalizado en el aprendizaje profundo que el artículo más citado sobre ello fue coescrito por Geoffrey Hinton, parte de un cuerpo de trabajo que recientemente le valió el Premio Nobel. El artículo de Hinton sugiere específicamente que la destilación es una forma de hacer que los modelos de lenguaje grandes sean más eficientes, y que “la destilación funciona muy bien para transferir conocimiento de un conjunto o de un modelo grande altamente regularizado a un modelo más pequeño y destilado.”

Un artículo de IBM sobre la destilación señala que “los LLMs con mayores capacidades son, en la mayoría de los casos, demasiado costosos y exigentes computacionalmente para ser accesibles a muchos posibles usuarios como aficionados, startups o instituciones de investigación… ‘la destilación de conocimiento’ ha surgido como un medio importante para transferir las capacidades avanzadas de modelos grandes, a menudo propietarios, a modelos más pequeños, a menudo de código abierto. Como tal, se ha convertido en una herramienta importante para la democratización de la IA generativa.”

A finales de diciembre, el CEO de OpenAI, Sam Altman, hizo lo que muchos vieron como un golpe velado a DeepSeek, inmediatamente después del lanzamiento de DeepSeek V3, un modelo anterior de DeepSeek. “Es (relativamente) fácil copiar algo que sabes que funciona,” tuiteó Altman. “Es extremadamente difícil hacer algo nuevo, arriesgado y difícil cuando no sabes si funcionará.”

“También es extremadamente difícil reunir un gran equipo de investigación talentoso para conquistar una nueva cima en la niebla juntos,” añadió. “Esta es la clave para impulsar el progreso.”

Sin embargo, incluso esto es ridículo. Además de estar entrenado con grandes cantidades de datos de otras personas, el trabajo de OpenAI se basa en investigaciones pioneras de Google, que a su vez se basa en investigaciones académicas previas. Esto es, simplemente, cómo funciona la investigación en inteligencia artificial (y la investigación científica en general).

Todo esto para decir que, si OpenAI argumenta que es legal que la empresa entrene con lo que quiera y por la razón que quiera, entonces parece lógico que no tiene mucho terreno sobre el cual defenderse cuando los competidores utilizan estrategias comunes en el mundo del aprendizaje automático para hacer sus propios modelos. Pero, por supuesto, están siguiendo el argumento de que deben “proteger su propiedad intelectual.”

“Sabemos que las empresas basadas en la República Popular China —y otras— están tratando constantemente de destilar los modelos de las principales empresas de IA de EE. UU.,” dijo un portavoz de OpenAI a Bloomberg. “Como el principal creador de IA, tomamos medidas de contramedidas para proteger nuestra propiedad intelectual, incluido un proceso cuidadoso sobre qué capacidades de vanguardia incluir en los modelos lanzados, y creemos que, a medida que avanzamos, es fundamental que trabajemos estrechamente con el gobierno de EE. UU. para proteger lo mejor posible los modelos más capaces de los esfuerzos de los adversarios y competidores para tomar la tecnología estadounidense.”

Sobre el autor

Jason es cofundador de 404 Media. Anteriormente fue editor en jefe de Motherboard. Le encanta la Ley de Libertad de Información y el surf.


Regresar al índice | Acerca de este sitio