No Dia Internacional da Mulher, foi lançada a versão 1.0 Ada do Corpus Aberto para a Linguística e Inteligência Artificial – Carolina. A data marca a disponibilização do acervo de mais de 650 milhões de palavras para download gratuito. Essa importante ferramenta para pesquisas é focada na Língua Portuguesa contemporânea, com o objetivo de potencializar a sua utilização para recursos computacionais, servindo, assim, para o desenvolvimento de ferramentas com Inteligência Artificial.
O corpus é um conjunto de objetos ou dados a serem analisados em pesquisas. No caso do corpus de língua, o acervo pode ser composto por textos ou documentos, gravações de áudio ou vídeos. O Corpus Carolina está sendo construído com metodologia original, voltado para o acesso público e com a possibilidade de uso em diversas áreas, além da Linguística e da Computação.
O Projeto surgiu de uma parceria entre a Uesb e a Universidade de São Paulo (USP), no Laboratório de Humanidades Digitais (LaViHD), que é formado por pesquisadores do Laboratório de Pesquisa em Linguística de Corpus (Lapelinc) e da Faculdade de Filosofia, Letras e Ciências Humanas, respectivamente. O LaViHD se uniu ao Centro de Inteligência artificial da USP (C4AI) no desenvolvimento do Corpus Carolina. Assim, participaram do Projeto, a professora do Programa de Pós-Graduação em Linguística da Uesb, Cristiane Namiuti, e sua aluna de doutorado, Aline Costa.
Quem foram Carolina e ADA – O Corpus recebeu o nome em homenagem à Carolina Michaelis de Vasconcelos (1851-1925), filóloga e linguista alemã, que foi a primeira mulher a atuar como docente na Faculdade de Letras da Universidade de Lisboa, no ano de 1911. Já a versão 1.0 ADA homenageia Àda Lovelace (1815-1852), matemática e escritora inglesa, reconhecida por ter escrito o primeiro algoritmo para ser processado por uma máquina, conhecida como a máquina analítica de Charles Babbage.