The Atlantic creó una base de datos de música con capacidad de búsqueda que se utilizó para entrenar la IA


atlántico El reportero Alex Reisner reveló recientemente cuatro conjuntos de datos Música utilizada para entrenar modelos de IA y crearlos. totalmente buscable para el público. Los dos sets fueron enormes con 12 millones y 9 millones de canciones. Los otros dos son mucho más pequeños, pero aún representan grandes cantidades de datos de entrenamiento que contienen más de 100.000 canciones cada uno.

Según Reisner, el conjunto ha sido descargado miles de veces y, aunque es imposible saber con certeza quién lo está utilizando, Google Y Estabilidad ambos lo han confirmado en artículos de investigación. Algunas fuentes, como Archivos de música gratuitos conjunto de datos, se puede transmitir de forma gratuita para uso personal, pero requiere una licencia para aplicaciones comerciales.

Aunque, en teoría, los conjuntos de datos están disponibles gratuitamente en Internet, utilizarlos como datos de entrenamiento no es tan fácil como descargar un archivo ZIP y alimentarlo a un modelo de IA. Como explica Reisner:

Tres de los conjuntos de datos que encontré se distribuyeron como listas de enlaces a canciones en YouTube o Spotify. Los desarrolladores de IA descargan el audio real utilizando herramientas que automatizan el trabajo, algunas de las cuales permiten a los desarrolladores evitar los inicios de sesión, la publicidad y los mecanismos que pueden hacer que los creadores de contenido obtengan dinero o suscriptores. Estas herramientas violan los términos de servicio de esta plataforma.



Source link