A Eleuther AI acaba de lançar uma coleção impressionante de 8TB de dados que promete revolucionar o treinamento de sistemas de inteligência artificial.
Essa base de dados, chamada Common Pile v0.1, é composta exclusivamente por textos licenciados publicamente e textos que são classificados como domínio público.
O que é a Common Pile v0.1?
A Common Pile v0.1 é um banco de dados de texto massivo lançado pela organização de pesquisa em IA Eleuther AI, projetado para treinar sistemas de inteligência artificial. Com um tamanho impressionante de 8TB, essa base de dados é composta exclusivamente por textos licenciados publicamente ou que são classificados como domínio público.
O desenvolvimento da Common Pile v0.1 levou cerca de dois anos e contou com a colaboração de várias instituições respeitáveis, incluindo Poolside, Hugging Face, a Biblioteca do Congresso dos EUA e a Universidade de Toronto. Essa colaboração foi fundamental para garantir a qualidade e a relevância dos dados coletados.
A criação da Common Pile v0.1 surgiu em resposta a preocupações sobre o uso de material protegido por direitos autorais por várias empresas de IA generativa (genAI) para treinar seus modelos, sem a devida permissão dos detentores dos direitos autorais. A Eleuther AI já havia sido responsável pela coleta de The Pile, que se tornou um ponto central no debate sobre o uso ético de dados para treinamento de IA. Com a Common Pile v0.1, a organização busca demonstrar que é possível treinar modelos de IA sem recorrer a materiais protegidos.
Além disso, a Common Pile v0.1 foi utilizada para treinar os modelos de IA Comma v0.1-1T e Comma v0.1-2T. A Eleuther AI afirma que o modelo Comma v0.1-2T apresenta desempenho comparável ao primeiro modelo Llama da Meta, especialmente em áreas como programação, compreensão de imagens e matemática. A Eleuther AI também planeja lançar mais coleções de dados abertas no futuro.
Fonte: Computer World