Boxeo

Los conjuntos de datos de entrenamiento de GenIA son ahora … – CIO Perú


[27/10/2023] Una nueva herramienta en línea permite a los usuarios identificar, rastrear y conocer la situación legal de los conjuntos de datos de entrenamiento para IA generativa, y un rápido vistazo muestra que muchos pueden tener problemas de licencia.

La herramienta, denominada Data Provenance Explorer, es el resultado de un esfuerzo conjunto entre expertos jurídicos y en aprendizaje automático del MIT, el proveedor de API de IA generativa Cohere y otras 11 organizaciones, entre las que se encuentran la Facultad de Derecho de Harvard, la Universidad Carnegie Mellon y Apple. Data Provenance Explorer permite a investigadores, periodistas y cualquier otra persona buscar en miles de bases de datos de entrenamiento de IA y rastrear el “linaje” de conjuntos de datos ampliamente utilizados.

La idea es explorar el a veces turbio mundo de los datos de entrenamiento utilizados para desarrollar IA generativa. En un comunicado oficial en el que se anuncia Data Provenance Explorer, el equipo que lo ha creado describe una “crisis de transparencia de datos” que podría complicar el desarrollo y el uso comercial de los sistemas de IA generativa.

Los conjuntos de datos de origen colectivo carecen de licencia

“Los agregadores crowdsourced como GitHub, Papers with Code, y muchos de los LLM de código abierto [grandes modelos lingüísticos] entrenados a partir de datos en estos agregadores, tienen una proporción extremadamente alta de licencias de datos que faltan … que van del 72% al 83%”, dijo el grupo. “Además, las licencias que asignan los agregadores crowdsourced permiten con frecuencia un uso más amplio que la intención original expresada por los autores de un conjunto de datos”.

Según Kathy Lange, directora de investigación de IDC, el sector parece ser muy consciente de la necesidad de desarrollar la IA de forma responsable. La precipitada carrera por desplegar IA generativa ha creado un interés público por el uso seguro y legal de los datos, afirmó.

“Comprender la procedencia de los datos, cómo se recogieron, procesaron y transformaron puede influir en la confianza en los resultados de los modelos de IA”, afirmó Lange. “Los proveedores de IA que prioricen la procedencia de los datos tendrán una ventaja en el mercado para los clientes que requieren transparencia, responsabilidad e iniciativas de cumplimiento”.

Los datos de IA se han convertido nada menos que en un campo de batalla, en ciertos aspectos. Lange destacó la reciente introducción de la herramienta Nightshade, que modifica sutilmente el arte digital para confundir a los creadores de IA que intentan utilizar obras protegidas por derechos de autor como datos de entrenamiento. Además, los autores y otros titulares de derechos de autor han empezado a emprender acciones legales contra el uso de sus obras en el entrenamiento generativo de IA: la cómica y autora Sarah Silverman es una de las que han demandado a OpenAI por este motivo.  Sin embargo, el panorama jurídico de esas demandas sigue siendo turbio en muchos aspectos.



Source link

Marc Valldeperez

Soy el administrador de marcahora.xyz y también un redactor deportivo. Apasionado por el deporte y su historia. Fanático de todas las disciplinas, especialmente el fútbol, el boxeo y las MMA. Encargado de escribir previas de muchos deportes, como boxeo, fútbol, NBA, deportes de motor y otros.

Related Articles

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button