FGV usa Inteligência Artificial para criar sistema inédito de garimpo de texto

O Centro de Pesquisa e Documentação de História Contemporânea do Brasil (CPDOC) e a Escola de Matemática Aplicada (EMAp) da Fundação Getulio Vargas, em parceria com a Columbia University, criaram a ferramenta History Lab. A partir do uso da Inteligência Artificial, pesquisadores têm à sua disposição novas ferramentas de pesquisa e uma compilação de informações ligadas às relações internacionais e a diferentes Estados, como Brasil, Reino Unido e Estados Unidos, numa quantidade de dados sem precedentes.

“Os arquivos virtuais estão cada vez mais fragmentados, com dezenas de coleções espalhadas pela web, cada uma com diferentes metadados e recursos de pesquisa. Agrupamos coleções múltiplas e as unimos em um único banco de dados, o maior conjunto de documentos não classificados processados e disponíveis para qualquer pessoa fora do governo”, disse o professor e pesquisador da EMAp, Renato Rocha Souza.

Alexandre Moreli, professor do CPDOC, relata que o robô criado no projeto History Lab lê arquivos nascidos digitalmente ou que foram digitalizados e faz uma análise probabilística e estatística dos mesmos, sem que haja limitações quanto à quantidade deles. Segundo Moreli, a partir desse processo, o sistema identifica as palavras relacionadas entre si no universo de documentos e cria grupos temáticos coesos, o que um ser humano poderia levar meses, anos ou mesmo décadas para realizar.

“Através das linhas de programação e dos algoritmos desenvolvidos pelo grupo de pesquisadores da FGV, onde se encontram cientistas da informação e historiadores, a ferramenta foi dotada de inteligência artificial para identificar e agrupar documentos correlacionados. A frente brasileira da pesquisa lançou seus trabalhos em maio de 2016 utilizando mais de 10 mil documentos da coleção histórica mantida pelo CPDOC. Entre eles, documentos do ex-ministro das Relações Exteriores do Brasil, Antônio Azeredo da Silveira”. A ferramenta teve resultados tão surpreendentes que foi objeto de interesse do Departamento de Estado dos Estados Unidos (DoS) e de seus Serviços de Inteligência.

Renato Rocha Souza conta que, dentre as coleções processadas pelo History Lab encontra-se a primeira nascida digitalmente no DoS na década de 1970, com cerca de um milhão de documentos. Ele diz que boa parte dessas informações é sensível ou secreta e, portanto, tem sua disponibilização pública regulada pelas leis de acesso à informação do país. O problema, completa Renato, é que a determinação do momento da abertura pública de cada documento depende de seu grau de sigilo e de sensibilidade, em um processo a ser controlado minunciosamente e que, por ter sido feito manualmente até hoje, revela-se muito demorado e dispendioso. Um dos objetivos do History Lab é, também, facilitar esse trabalho através do exame automático do conteúdo de cada informação arquivada e da identificação de seu grau de sigilo, determinando se deve ou não ser divulgada ao público.

“Além dessa preocupação com documentos históricos, eles ficaram interessados em nossa tecnologia por causa dos recentes vazamentos de dados para o governo russo e para o WikiLeaks. Somente em 2015, o DoS gastou US$ 16 bilhões para proteger informações. Um exemplo é um documento sobre a sensibilidade do governo japonês em relação às inspeções dos EUA sobre suas instalações nucleares. Esse documento não estava classificado, mas deveria ter sido originalmente definido como confidencial”, relata Renato Rocha Souza.

Futuro – O professor do CPDOC Alexandre Moreli diz que, em breve, o History Lab vai expandir as coleções processadas agregando documentos de outros países, além de disponibilizar outras ferramentas aos pesquisadores. “A equipe da FGV continuará a aperfeiçoar os recursos existentes, perseguindo inovações como o reconhecimento automático de pessoas em fotografias históricas ou a sincronização áudio-texto de entrevistas de História Oral. Trata-se de uma expertise que poderá ser aproveitada tanto por instituições mantenedoras de arquivos e pela administração pública, como por empresas ou outros interessados que pretendam gerir e explorar conjuntos de informação em escalas cada vez maiores”, observa.