IBM, USP e Fapesp apresentam avanços em pesquisas do Centro de Inteligência Artificial

IBM, Universidade de São Paulo (USP) e FAPESP (Fundação de Amparo à Pesquisa do Estado de São Paulo) celebram este mês o marco de um ano desde o início dos trabalhos do Centro de Pesquisa em Inteligência Artificial do Brasil (C4IA), com avanços em artigos acadêmicos e nas pesquisas de ponta em IA para a solução de temas de grande impacto social e econômico. Neste primeiro ano de atividades, o C4IA apresenta avanços importantes nas frentes de Processamento de Linguagem Natural (PLN), saúde e meio ambiente, com pesquisas relacionadas ao aprimoramento do PLN em português, trabalhos para a caracterização automática de acidentes vasculares cerebrais (AVCs) e no desenvolvimento de uma base interativa e inteligente sobre a costa brasileira, conhecida como Amazônia Azul.

“Vivemos um momento global no qual precisamos implementar o pensamento científico em todas as camadas da sociedade. Iniciativas como a do C4AI, que aproxima entidades públicas, privadas, pesquisadores e estudantes, representa uma grande colaboração para o ecossistema de inovação e fomenta o trabalho colaborativo em pesquisas ligadas à Inteligência Artificial para, ao longo dos próximos anos, acelerar as descobertas e o progresso científico e impactar positivamente a vida de todos”, afirma Claudio Pinhanez, gerente de pesquisa em Inteligência Conversacional da IBM Research Brasil e vice-diretor do C4AI.

Aprendizado de máquina e representação de conhecimento com foco na Amazônia Azul

O Centro de IA tem trabalhado para construir um agente de conversação que domine o conhecimento existente sobre a Amazônia Azul, a vasta região do oceano Atlântico na costa brasileira, rica em biodiversidade e recursos energéticos. Dentro desta iniciativa, o Centro anuncia o Pirá, primeiro conjunto de dados de perguntas e respostas de grande porte em português e inglês. Ele contém mais de 160 mil pares de perguntas e respostas em inglês sobre a costa oceânica brasileira, criadas a partir de textos científicos e oito mil pares de perguntas em português criadas manualmente. A sua existência irá contribuir substancialmente para a evolução de tecnologias de conversação, incluindo as de assistentes virtuais no Brasil, e pretende responder às perguntas mais diversas sobre o ecossistema marinho.

Diagnóstico e recuperação de AVC para apoio a médicos

No projeto de pesquisa focado no modelamento de AVCs (Acidente Vascular Cerebral) com técnicas de IA, foi realizada uma coleta de dados de eletroencefalogramas (EEGs) com auxílio do Laboratório de Neuromodulação do Instituto de Medicina Física e Reabilitação do Hospital das Clínicas da Faculdade de Medicina da USP. A partir desses dados, foi desenvolvido um sistema inicial de classificação de AVC usando redes complexas, que utilizam técnicas de aprendizado de máquina e com dados multimodais. Foram também desenvolvidos um sistema para filtragem de dados usando IA e uma plataforma para manipulação, visualização e análise de EEGs. As aplicações de aprendizado de máquina na medicina, frequentemente, precisam lidar com conjuntos de dados heterogêneos e dinâmicos de grande escala, como textos, imagens e biomarcadores genéticos. A integração destas informações é essencial para tratar corretamente os problemas de saúde, permitindo que médicos e profissionais da área selecionem e entendam quais atributos são mais relevantes para a classificação de um AVC, fornecendo informações importantes para a tomada de decisões.

Processamento da língua natural em português

No grande desafio relacionado à língua portuguesa, o C4IA está disponibilizando três conjuntos de dados fundamentais para o avanço do processamento computacional do idioma. Estes conjuntos de dados contém textos de fontes diversas, minuciosamente anotados por estudantes de linguística, e gravações da língua portuguesa de diversas regiões do Brasil. Todo esse trabalho tem como objetivo produzir e coletar dados e ferramentas que permitam um alto nível de desempenho no Processamento de Linguagem Natural em português, assim como já existe para outros idiomas, e desenvolver soluções computacionais de suporte ao idioma, possibilitando a criação de aplicativos de última geração. As pesquisas estão concentradas tanto na modalidade escrita, quanto falada do português.

• Um deles é composto pelo maior conjunto de dados sintáticos disponível no Brasil, contendo textos de fontes diversas como notícias, tuites e comentários de consumidores. Os dados seguem todas as normas de controle de privacidade da Lei Geral de Proteção de Dados (LGPD) e foram minuciosamente anotados, frase a frase, por uma equipe de dezenas de estudantes de linguística da USP.

• CORAA contém mais de 260 horas de gravações da língua portuguesa, de diversas regiões do Brasil, provenientes de quatro conjunto de dados pré-existentes, mas agora auditadas pelos alunos da universidade. A multidiversidade do conteúdo disponibilizado pelo CORAA oferece, por exemplo, maior diversidade regional na criação de futuros aplicativos de conversação, respeitando sotaques, culturas e costumes locais. O objetivo é chegar a 600 horas de gravações na próxima versão.

• Carolina contém informações sobre mais de 120 bilhões de palavras e termos em português, anotado por tipologia e origem, oferecendo um amplo leque de detalhes sobre a etimologia. Estes três conjuntos de dados aprimoram significativamente o trabalho de Processamento de Linguagem Natural em português e possibilitarão, entre outras coisas, o desenvolvimento de aplicativos de IA de última geração, com a capacidade de compreender melhor a linguagem e, consequentemente, oferecer uma melhor experiência aos usuários.

Além disso, o Centro criou uma rede de pesquisadores interessados na ligação entre técnicas de IA e a cadeia de produção de alimentos, tendo em vista a importância econômica e social do agronegócio no Brasil, e uma rede de pesquisadores de vários campos das humanidades, de ciências sociais a direito, que investigam temas como a relação entre IA, educação e trabalho; a relação entre IA, ética e direito; violência, viés, e impactos sociais da IA; políticas públicas e governança diante da IA.

“A missão do Centro de Inteligência Artificial é desenvolver pesquisas de ponta nesta área no Brasil, procurando buscar a melhora da vida humana através de resultados destas pesquisas, bem como divulgar resultados e fomentar o debate social sobre esta tecnologia”, afirma Fábio Cozman, diretor do Centro de Inteligência Artificial na Universidade de São Paulo.

Comitês em ação

Outro marco deste primeiro ano de atividades do Centro de IA foi a entrada de 17 grandes empresas no comitê de indústria e sociedade, o que reforça a relevância do tema para a economia do País, dentre elas: B3, Banco do Brasil, Banco Original, BRF, Cubo Itaú, Energisa, FAPESP, Gerdau, IBM, Magalu, Motorola, Petrobras, Raízen, Vale e WEG, entre outras. Este comitê tem o objetivo de entender os desafios do setor e encontrar maneiras de divulgar e levar para a indústria novas tecnologias, avanços científicos e profissionais qualificados.

Também foi criado o comitê de diversidade e inclusão, cuja função é promover e aumentar a participação de mulheres, afrodescendentes e outros membros da sociedade, gerando uma participação mais inclusiva no setor de IA. O comitê já está em funcionamento e conta com 10 membros até o momento, composto por professores e estudantes de diferentes faculdades da USP. Atualmente, os trabalhos estão concentrados em aumentar a participação de mulheres, PPIs (Pretos, Pardos e Indígenas) e PCDs (pessoas com deficiência) nas atividades do centro e nos projetos de IA na USP, promovendo a educação e a discussão no mercado e na academia sobre grupos sub-representados na área de IA.

“O C4AI está se estabelecendo de maneira perfeitamente alinhada com os princípios do programa dos Centros de Pesquisa em Engenharia da FAPESP: centro de pesquisa de excelência internacional com trabalho forte nos eixos de inovação e difusão para a sociedade. Os frutos que já começam a ser produzidos irão beneficiar o ecossistema de pesquisa e inovação em IA em São Paulo e no Brasil, como é possível perceber sobre as bases de dados e resultados de pesquisa em Processamento de Linguagem Natural, por exemplo”, afirma Roberto Marcondes, membro da coordenação do programa Centros de Pesquisa, Inovação e Difusão (CEPIDs), da FAPESP.

Atualmente, o C4AI conta com 41 bolsistas orientados por mais de 80 professores. Em 2022, a meta é chegar a 120 professores e 130 bolsistas. Em um ano de atividades, foram mais de 50 artigos publicados em jornais científicos, conferências médicas e de IA, além da promoção de duas séries de seminários online que debateram, para milhares de participantes, as perspectivas e avanços de IA no Brasil e no mundo e fomentaram discussões sobre políticas públicas de apoio à pesquisa e inovação em IA.