Uso de libros pirateados como material de entrenamiento para … – Metro Americas

Marc Valldeperez August 21, 2023

0 7 2 minutes read

En el mundo de la IA generativa, una de las principales preocupaciones es que estos sistemas se están desarrollando a puerta cerrada, con poca transparencia sobre los datos en los que se les entrena. Para producir respuestas similares a las humanas, los modelos de IA como ChatGPT dependen de cantidades masivas de texto, pero las fuentes específicas de estos datos han sido en su mayoría desconocidas para el público.

Sin embargo, una demanda reciente presentada por los autores Sarah Silverman, Richard Kadrey y Christopher Golden contra Meta arroja luz sobre el uso de libros pirateados como material de entrenamiento para modelos de lenguaje de IA, como LLaMA, un modelo similar al GPT-4 de OpenAI. Los autores afirman que sus libros fueron utilizados sin permiso para entrenar a LLaMA.

El conjunto de datos utilizado para entrenar a LLaMA, conocido como «Books3», contiene más de 170.000 libros, la mayoría publicados en los últimos 20 años. Un análisis de este conjunto de datos reveló una cantidad significativa de libros pirateados, incluyendo obras de autores populares como Michael Pollan, Rebecca Solnit, James Patterson, Stephen King, George Saunders, Zadie Smith y Junot Díaz.

El conjunto de datos Books3 no solo se ha utilizado para LLaMA, sino que también se ha utilizado para entrenar otros modelos de IA populares como BloombergGPT y GPT-J. Esto plantea preocupaciones sobre el uso generalizado de material con derechos de autor sin el consentimiento ni compensación apropiados.

Ante la controversia en torno al uso del conjunto de datos Books3, Meta, Bloomberg y EleutherAI han guardado silencio o han evadido el tema. La falta de reconocimiento por parte de estas entidades amplifica aún más las preguntas sobre las implicaciones éticas y legales de entrenar sistemas de IA con libros pirateados.

El uso no autorizado de libros con derechos de autor socava los derechos de los autores y sienta un precedente peligroso para el futuro desarrollo de la IA. Si bien la IA generativa se centra en analizar patrones de palabras en lugar de temas específicos, es crucial reconocer que estos modelos se construyen sobre contenido robado.

El descubrimiento del conjunto de datos Books3 y su amplio uso en varios modelos de IA enfatiza la necesidad urgente de una mayor transparencia y prácticas éticas en la comunidad de IA. A medida que los sistemas de IA continúan dando forma a nuestras experiencias de lectura, aprendizaje y comunicación, es esencial abordar el problema de la infracción de derechos de autor y asegurarnos de que las tecnologías de IA se construyan sobre una base de respeto a la propiedad intelectual.

Source link

Marc Valldeperez August 21, 2023

0 7 2 minutes read