Los conjuntos de datos de entrenamiento de GenIA son ahora … – CIO Perú

Marc Valldeperez October 27, 2023

0 10 2 minutes read

[27/10/2023] Una nueva herramienta en línea permite a los usuarios identificar, rastrear y conocer la situación legal de los conjuntos de datos de entrenamiento para IA generativa, y un rápido vistazo muestra que muchos pueden tener problemas de licencia.

La herramienta, denominada Data Provenance Explorer, es el resultado de un esfuerzo conjunto entre expertos jurídicos y en aprendizaje automático del MIT, el proveedor de API de IA generativa Cohere y otras 11 organizaciones, entre las que se encuentran la Facultad de Derecho de Harvard, la Universidad Carnegie Mellon y Apple. Data Provenance Explorer permite a investigadores, periodistas y cualquier otra persona buscar en miles de bases de datos de entrenamiento de IA y rastrear el “linaje” de conjuntos de datos ampliamente utilizados.

La idea es explorar el a veces turbio mundo de los datos de entrenamiento utilizados para desarrollar IA generativa. En un comunicado oficial en el que se anuncia Data Provenance Explorer, el equipo que lo ha creado describe una “crisis de transparencia de datos” que podría complicar el desarrollo y el uso comercial de los sistemas de IA generativa.

Los conjuntos de datos de origen colectivo carecen de licencia

“Los agregadores crowdsourced como GitHub, Papers with Code, y muchos de los LLM de código abierto [grandes modelos lingüísticos] entrenados a partir de datos en estos agregadores, tienen una proporción extremadamente alta de licencias de datos que faltan … que van del 72% al 83%”, dijo el grupo. “Además, las licencias que asignan los agregadores crowdsourced permiten con frecuencia un uso más amplio que la intención original expresada por los autores de un conjunto de datos”.

Según Kathy Lange, directora de investigación de IDC, el sector parece ser muy consciente de la necesidad de desarrollar la IA de forma responsable. La precipitada carrera por desplegar IA generativa ha creado un interés público por el uso seguro y legal de los datos, afirmó.

“Comprender la procedencia de los datos, cómo se recogieron, procesaron y transformaron puede influir en la confianza en los resultados de los modelos de IA”, afirmó Lange. “Los proveedores de IA que prioricen la procedencia de los datos tendrán una ventaja en el mercado para los clientes que requieren transparencia, responsabilidad e iniciativas de cumplimiento”.

Los datos de IA se han convertido nada menos que en un campo de batalla, en ciertos aspectos. Lange destacó la reciente introducción de la herramienta Nightshade, que modifica sutilmente el arte digital para confundir a los creadores de IA que intentan utilizar obras protegidas por derechos de autor como datos de entrenamiento. Además, los autores y otros titulares de derechos de autor han empezado a emprender acciones legales contra el uso de sus obras en el entrenamiento generativo de IA: la cómica y autora Sarah Silverman es una de las que han demandado a OpenAI por este motivo. Sin embargo, el panorama jurídico de esas demandas sigue siendo turbio en muchos aspectos.

Basado en el artículo de Jon Gold (Computerworld) y editado por CIO Perú

Source link

Marc Valldeperez October 27, 2023

0 10 2 minutes read

Los conjuntos de datos de entrenamiento de GenIA son ahora … – CIO Perú

Los conjuntos de datos de origen colectivo carecen de licencia

Marc Valldeperez

Leave a Reply Cancel reply

Philipsen: “No quise cerrar contra las vallas a Van Aert y pido disculpas” – MARCA.com

Euro2024, Meloni dura sul flop della nazionale di Spalletti: "Pochi italiani in serie A" e diventa un caso – Virgilio Sport

Eduardo Verástegui, productor de cine: “Todos los católicos deberíamos de ser misioneros, cada quien desde su campo” – Obras Misionales Pontificias

NBA: Golden State Warriors centra sus esperanzas en esta estrella tras la salida de Klay Thompson – Meridiano

Hoy en TV, una de las películas fruto del fenómeno ‘Gladiator’ de la que sus protagonistas se acabaron arrepintiendo – Noticias de cine

Philipsen: “No quise cerrar contra las vallas a Van Aert y pido disculpas” – MARCA.com

Jimmy Santi, su enojo contra ‘El Gran Chef Famosos’ y su respuesta a Josi Martínez: “Giacomo es culto, Javier ni me saludaba”

Brasil garante vagas para disputar o ciclismo de estrada nas … – UOL Esporte

Pacers não devem trocar Buddy Hield antes da temporada, diz … – The Playoffs

Los Pumas derrotaron a Chile por 59-5 en el Mundial de rugby y llegan confiados al decisivo partido con Japón – Yahoo Noticias

LUSCA Film Fest une clásicos y lo último del cine en su 17° edición – Metro.pr

Los conjuntos de datos de origen colectivo carecen de licencia

With Product You Purchase

Subscribe to our mailing list to get the new updates!

España - Primera División: Granada vs Villarreal Fecha 11 - Corrientes Hoy

Nuevo disco del trío suizo de rock psicodélico Dirty Sound Magnet ... - Metaltrip

Related Articles

Leave a Reply Cancel reply

Philipsen: “No quise cerrar contra las vallas a Van Aert y pido disculpas” – MARCA.com

Jimmy Santi, su enojo contra ‘El Gran Chef Famosos’ y su respuesta a Josi Martínez: “Giacomo es culto, Javier ni me saludaba”

Brasil garante vagas para disputar o ciclismo de estrada nas … – UOL Esporte

Pacers não devem trocar Buddy Hield antes da temporada, diz … – The Playoffs

Los Pumas derrotaron a Chile por 59-5 en el Mundial de rugby y llegan confiados al decisivo partido con Japón – Yahoo Noticias

LUSCA Film Fest une clásicos y lo último del cine en su 17° edición – Metro.pr