Demanda del New York Times contra OpenAI podría tener importantes implicaciones para el desarrollo de la IA
En 1954, el corresponsal científico del Guardian informó sobre los «cerebros electrónicos», que tenían una forma de memoria que les permitía recuperar información, como la asignación de asientos de avión, en cuestión de segundos.
Hoy en día, la idea de que las computadoras almacenen información es tan común que ni siquiera pensamos en lo que realmente significan palabras como «memoria». Sin embargo, en la década de 1950, este lenguaje era nuevo para la mayoría de la gente y la idea de un «cerebro electrónico» estaba llena de posibilidades.
En 2024, su microondas tendrá más poder de computación que cualquier cosa que se llamara cerebro en la década de 1950, pero el mundo de la inteligencia artificial está planteando nuevos desafíos para el lenguaje… y para los abogados. El mes pasado, el periódico New York Times presentó una demanda contra OpenAI y Microsoft, los propietarios de la popular herramienta de generación de texto basada en IA ChatGPT, por su presunto uso de los artículos del Times en los datos que utilizan para entrenar (mejorar) y probar. sus sistemas.
Afirman que OpenAI ha infringido los derechos de autor al utilizar su periodismo como parte del proceso de creación de ChatGPT. Al hacerlo, afirma la demanda, han creado un producto competidor que amenaza su negocio. La respuesta de OpenAI hasta ahora ha sido muy cautelosa, pero un principio clave resumido en una declaración publicada por la compañía es que su uso de datos en línea se rige por el principio conocido como «uso justo». Esto se debe a que, sostiene OpenAI, transforman el trabajo en algo nuevo en el proceso: el texto generado por ChatGPT.
En el meollo de esta cuestión está la cuestión del uso de datos. ¿Qué datos tienen derecho a utilizar empresas como OpenAI y qué significan realmente conceptos como «transformar» en estos contextos? Preguntas como esta, en torno a los datos con los que entrenamos sistemas de inteligencia artificial o modelos como ChatGPT, siguen siendo un feroz campo de batalla académico. La ley a menudo va a la zaga del comportamiento de la industria.
Si ha utilizado IA para responder correos electrónicos o resumir su trabajo, es posible que vea ChatGPT como un fin que justifica los medios. Sin embargo, tal vez debería preocuparnos si la única manera de lograrlo es eximir a entidades corporativas específicas de las leyes que se aplican a todos los demás.
Esto no sólo podría cambiar la naturaleza del debate en torno a demandas por derechos de autor como ésta, sino que también tiene el potencial de cambiar la forma en que las sociedades estructuran su sistema legal.
Preguntas fundamentales
Casos como este pueden plantear preguntas espinosas sobre el futuro de los sistemas legales, pero también pueden cuestionar el futuro de los propios modelos de IA. El New York Times cree que ChatGPT amenaza la existencia a largo plazo del periódico. Sobre este punto, OpenAI dice en su comunicado que está colaborando con organizaciones de noticias para brindar oportunidades novedosas en el periodismo. Dice que los objetivos de la empresa son «apoyar un ecosistema de noticias saludable» y «ser un buen socio».
Incluso si creemos que los sistemas de IA son una parte necesaria del futuro de nuestra sociedad, parece una mala idea destruir las fuentes de datos en las que fueron entrenados originalmente. Esta es una preocupación compartida por iniciativas creativas como el New York Times, autores como George R.R. Martin y también la enciclopedia en línea Wikipedia.
Los defensores de la recopilación de datos a gran escala, como la que se utiliza para impulsar los modelos de lenguaje grande (LLM), la tecnología subyacente a los chatbots de IA como ChatGPT, argumentan que los sistemas de IA «transforman» los datos con los que entrenan «aprendiendo» de sus conjuntos de datos y luego creando algo nuevo.
Efectivamente, lo que quieren decir es que los investigadores proporcionan datos escritos por personas y piden a estos sistemas que adivinen las siguientes palabras de la oración, como lo harían cuando respondieran a una pregunta real de un usuario. Al ocultar y luego revelar estas respuestas, los investigadores pueden proporcionar una respuesta binaria de «sí» o «no» que ayude a impulsar los sistemas de inteligencia artificial hacia predicciones precisas. Es por esta razón que los LLM necesitan una gran cantidad de textos escritos.
Si copiáramos los artículos del sitio web del New York Times y cobráramos a la gente por el acceso, la mayoría de la gente estaría de acuerdo en que esto sería un «robo sistemático a escala masiva» (como lo expresa la demanda del periódico). Pero mejorar la precisión de una IA mediante el uso de datos para guiarla, como se muestra arriba, es más complicado que esto.
Empresas como OpenAI no almacenan sus datos de entrenamiento y, por lo tanto, argumentan que los artículos del New York Times introducidos en el conjunto de datos en realidad no se están reutilizando. Sin embargo, un contraargumento a esta defensa de la IA es que hay evidencia de que sistemas como ChatGPT pueden «filtrar» extractos textuales de sus datos de entrenamiento. OpenAI dice que se trata de un «error poco común».
Sin embargo, sugiere que estos sistemas almacenan y memorizan algunos de los datos en los que están entrenados (sin querer) y pueden regurgitarlos palabra por palabra cuando se les solicita de manera específica. Esto evitaría cualquier barrera de pago que una publicación con fines de lucro pueda implementar para proteger su propiedad intelectual.