IA afectada por reclamos de derechos de autor a medida que las empresas se acercan a la “frontera de datos”

Permanezca informado con actualizaciones gratuitas

Las principales compañías de inteligencia artificial se enfrentan a una ola de litigios por derechos de autor y acusaciones de que están raspando agresivamente datos de la web, un problema que se agrava a medida que las nuevas empresas alcanzan una “frontera de datos” que obstaculiza los nuevos avances en la tecnología.

Este mes, un trío de autores demandó a Anthropic por “robar cientos de miles de libros con derechos de autor”, afirmando que la startup de inteligencia artificial de San Francisco “nunca buscó, y mucho menos pagó por, una licencia para copiar y explotar la expresión protegida contenida en las obras con derechos de autor alimentadas en sus modelos”.

La demanda colectiva se suma a una larga lista de casos de derechos de autor en curso, el más destacado de los cuales fue presentado por el New York Times contra OpenAI y Microsoft a finales del año pasado. El Times afirma que las empresas “se benefician de la enorme infracción de derechos de autor, explotación comercial y apropiación indebida de la propiedad intelectual de The Times”.

Si el caso tiene éxito, los argumentos del editor podrían extenderse a otras empresas que entrenan modelos de IA a partir de internet, con el potencial de más litigios.

Las empresas de IA han avanzado significativamente en los últimos 18 meses, pero han comenzado a chocar con lo que los expertos describen como una frontera de datos, obligándolas a buscar en rincones cada vez más profundos de la web, hacer acuerdos para acceder a conjuntos de datos privados o depender de datos sintéticos.

LEAR Los líderes militares de Níger suspenden las transmisiones de la BBC.

“Ya no hay almuerzo gratis. Ya no puedes raspar un conjunto de datos a escala web. Tienes que ir a comprarlo o producirlo. Esa es la frontera en la que nos encontramos ahora”, dijo Alex Ratner, cofundador de Snorkel AI, que construye y etiqueta conjuntos de datos para empresas.

Anthropic, una startup de IA autodenominada “responsable”, también ha sido acusada por propietarios de sitios web de “raspar de manera flagrante” datos web para entrenar sus sistemas en el último mes. Perplexity, un motor de búsqueda impulsado por IA que busca hacer frente al monopolio de Google en las consultas web, ha enfrentado acusaciones similares.

Google mismo ha causado consternación entre los editores, que han luchado por bloquear a la empresa de raspar sus sitios para su herramienta de IA sin excluirse también de los resultados de búsqueda.

Las startups de IA están inmersas en una feroz carrera por la dominancia en la que requieren montañas de datos de entrenamiento, junto con algoritmos cada vez más sofisticados y semiconductores más potentes para ayudar a sus chatbots a generar respuestas creativas y humanas.

OpenAI, empresa matriz de ChatGPT, y Anthropic solos han recaudado más de $20 mil millones para construir modelos de IA generativos poderosos, que pueden responder a indicaciones en lenguaje natural y mantener su ventaja sobre nuevos participantes, incluido xAI de Elon Musk.

Pero la competencia entre las empresas de IA también las ha puesto en la mira de los editores y propietarios de material necesario para desarrollar modelos.

El caso del Times tiene como objetivo establecer que OpenAI ha efectivamente canibalizado su contenido y lo está reproduciendo de formas “que sustituyen a The Times y roban audiencias de él”. Una resolución en el caso proporcionaría una mayor claridad a los editores sobre el valor de su contenido.

LEAR Cómo saber si debes refinanciar tu hipoteca o comprar una casa

Mientras tanto, las startups de IA están haciendo acuerdos con editores para garantizar que sus chatbots produzcan respuestas precisas y actualizadas. OpenAI, que recientemente anunció su propio producto de búsqueda, hizo un trato con Condé Nast, editor de las revistas New Yorker y Vogue, sumándose a acuerdos con otros como The Atlantic, Time y The Financial Times. Perplexity también ha firmado acuerdos de reparto de ingresos con varios editores.

Anthropic aún no ha anunciado asociaciones similares, pero en febrero la startup contrató a Tom Turvey, un veterano de 20 años de Google que había trabajado en la estrategia de asociación de la empresa con importantes editores.

Google ha hecho más que cualquier otra empresa para establecer un precedente sobre cómo funciona la relación entre editores y empresas tecnológicas hoy en día. En 2015, la compañía ganó su caso contra un grupo de autores que afirmaba que su escaneo e indexación de sus obras infringía el uso justo. La victoria se basó en el argumento de que el uso del contenido por parte de Google era “altamente transformador”.

El caso del Times contra OpenAI se basa en la afirmación de que “no hay nada ‘transformador'” en cómo la empresa tecnológica había utilizado el contenido del grupo de periódicos. Un veredicto proporcionaría un nuevo precedente a los editores. Sin embargo, el caso de Google tardó una década en resolverse, durante la cual el motor de búsqueda había establecido una posición dominante.