Revolucionando a Inteligência Artificial em Língua Portuguesa: O Projeto Tucano

Pesquisa inovadora democratiza acesso à tecnologia de IA, promove diversidade linguística e sustentabilidade

Um projeto pioneiro está revolucionando a inteligência artificial (IA) em língua portuguesa.

O grupo de pesquisadores da Universidade de Bonn, na Alemanha, desenvolveu um banco de dados criado 100% em língua portuguesa para “treinar” novos modelos de linguagem de inteligência artificial – programas que podem reconhecer e gerar texto, entre outras tarefas, como, por exemplo, o ChatGPT.

O estudo Tucano, entre seus participantes está o pesquisador de pós-doutorado brasileiro Nicholas Kluge, além de Aniket Sen, Shiza Fatimah e Sophia Falk. A equipe se dedicou por oito meses no projeto, cujo resultado foi publicado no final de outubro na ArXiv.org, uma plataforma para artigos científicos nos campos da matemática, física e ciência da computação. Assim, oferece um banco de dados extenso e aberto, permitindo o desenvolvimento de novas tecnologias em IA com o português como língua nativa.

Para colocar à prova a tecnologia desenvolvida, foram criados, e devidamente treinados através do supercomputador Marvin, da Universidade de Bonn, seis modelos de linguagem de inteligência artificial (LLMs), que ganharam o nome Tucano.

O modelo é brasileiro, ele foi treinado em português, ele fala português, ele entende gírias, tem muitas informações dentro dele sobre língua portuguesa, sobre cultura portuguesa, cultura brasileira. É um artefato para guardar também a nossa cultura”, conta Kluge.

O Processo de Criação

IA treinando IA: “Passamos muito tempo coletando textos em português e filtrando o que fazia sentido. Contamos com a inteligência artificial para nos ajudar nessa etapa. Nesse sentido, usamos a IA para fazer IA”, conta Kluge.

1. Coleta de dados: A equipe passou oito meses coletando 145 milhões de documentos em língua portuguesa.
2. Filtragem inteligente: A IA ajudou a selecionar informações relevantes, reduzindo o tempo de processamento.
3. Otimização de tempo: O código foi refinado para treinamento eficiente, evitando anos de processamento.
4. Treinamento: Seis modelos de linguagem de IA foram treinados com o supercomputador Marvin.

Principais Contribuições

1. Democratização do acesso: O projeto preenche uma lacuna na IA, oferecendo um dataset extenso em língua portuguesa acessível ao público.
2. Diversidade linguística: O modelo entende gírias brasileiras e informações sobre o Brasil, promovendo a cultura nacional.
3. Open source: O projeto é completamente aberto, permitindo reprodução e desenvolvimento de novas tecnologias.
4. Sustentabilidade: A pesquisa aberta reduz o gasto de energia e a liberação de CO2.

Impacto Social

1. Promoção da cultura brasileira e portuguesa: O modelo preserva e divulga as culturas nacionais.
2. Desenvolvimento tecnológico: Empresas brasileiras podem criar soluções inovadoras em IA.
3. Acessibilidade: A tecnologia pode beneficiar pessoas com deficiência e comunidades isoladas.
4. Sustentabilidade ambiental: Redução da pegada de carbono na pesquisa e desenvolvimento de IA.

Depoimento

Na nossa pesquisa, treinamos os primeiros grandes modelos de linguagem em língua portuguesa e eles são totalmente reproduzíveis: o banco de dados é aberto, os modelos são abertos, as avaliações são abertas. Isso sim é inteligência artificial aberta”, destaca Kluge.

“Nosso estudo ajuda a democratizar o acesso a essa tecnologia, porque nem todo mundo fala inglês. É um artefato para guardar nossa cultura.” – Nicholas Kluge, pesquisador.

Conclusão

O Projeto Tucano é um marco na inteligência artificial em língua portuguesa. Sua abordagem inovadora promove diversidade linguística, sustentabilidade e desenvolvimento tecnológico.

Imagem Destacada – Gerada por IA- Créditos: Meta AI/Luna

Referências

Para aprofundar seus conhecimentos indicamos pesquisar em:

1. Estudo Tucano: Advancing Neural Text Generation for Portuguese – https://huggingface.co/datasets/TucanoBR/GigaVerbo

2. Entrevista com Nicholas Kluge -https://www.dw.com/pt-br/pesquisadores-da-alemanha-criam-maior-banco-de-dados-p%C3%Bablico-em-portugu%C3%Aas-para-ia/a-70917082

3. Site oficial do Projeto Tucano – https://huggingface.co/TucanoBR/Tucano-2b4-Instruct

4- Gigaverbo – https://huggingface.co/datasets/TucanoBR/GigaVerbo