Por Gustavo Reder Cazangi e Marcelo Abreu
Novos conceitos permitem unir aprendizado de máquina, interfaces naturais e sistemas de conversação para tornar a Inteligência Artificial capaz de interagir de forma mais precisa com os usuários
Você sabe a diferença entre as palavras smart e clever? Se não, dê um Google e já retornaremos a esse assunto. Já tentou conversar com a Siri, a Cortana ou outros assistentes pessoais como o do Google? Pior ainda, já tentou falar com a sua Smart TV ou com aqueles atendentes automáticos das centrais de TV por assinatura ou bancos? Eles lhe pareceram smart? Talvez, te incomode a voz robótica ou então a necessidade de ser bastante claro ao dizer o que está pesquisando ou para quem deseja ligar. Apesar de rotulados smart machines, eles estão mais para clever machines, são apenas “espertinhos”, conseguem realizar bem apenas algumas tarefas pré-determinadas e a partir de comandos ainda bastante formais.
O próximo desafio da Inteligência Artificial (IA), que é a “mente brilhante” por trás das smart machines, é resolver tarefas que são consideradas fáceis para as pessoas, mas são difíceis para serem interpretadas e descritas de maneira formal, em bits e bytes. São pontos e ações que envolvem interpretação, abstração e senso comum, tarefas essas que nós fazemos sem nos dar conta, como por exemplo, reconhecer expressões idiomáticas ou identificar o contexto de uma conversa levando em conta a entonação, os gestos e até a expressão facial dos interlocutores.
Para quebrar o gelo entre o ser humano e a máquina, o conceito de Natural User Interface (NUI) vem sendo explorado com maior frequência recentemente. Originalmente, a interação homem-máquina era feita através de elementos intermediários ou periféricos, como os já tradicionais mouse e teclado. A NUI propõe uma forma mais direta e natural de interação entre homem e máquina, sem intermediários. Um exemplo já difundido de NUI são as telas sensíveis ao toque dos smartphones e tablets. Outros são comandos de voz e gestos, que proporcionam uma interação bem mais fluída e familiar do que as disponíveis nos computadores, mas que ainda precisam ser aperfeiçoados. Quem sabe, com o avanço da neurociência, seremos até capazes de controlar tudo só pelo pensamento?
Entretanto, para que as máquinas se tornem realmente inteligentes, só interação não basta, é preciso que as máquinas sejam capazes de ouvir nossas conversas, interpretem as entrelinhas, percebam nossos gestos e expressões para então tomar decisões baseadas no contexto em que se inserem. Imagine, por exemplo, um retrato falado. Se um computador pudesse entender o contexto e reconhecer as características de um rosto humano a partir do discurso da vítima, poderia fazer um retrato falado com um nível de precisão, detalhe e velocidade absurdamente maiores do que uma pessoa.
Nossa, os autores parecem estar empolgados… estão carregando nas tintas! (Parabéns, você acabou de interpretar uma expressão que a máquina ainda não consegue!). Não seria ótimo ter um assistente que já tivesse lido esse texto todo pra você e só te enviasse a essência das ideias aqui descritas? Para se chegar a esse nível, será preciso aumentar a qualidade do Natural Language Processing (NLP) feito pelas smart machines. Estamos falando de algoritmos que utilizam Deep Learning, entre outras técnicas de aprendizado de máquina para fazer inferência e extrair informações contextuais a partir de textos ou áudios.
E essa é realmente uma necessidade urgente, já que há uma tendência se consolidando na interação com as máquinas: os sistemas de conversação (do inglês, conversational systems). Esses sistemas fazem uso tanto de NUI como de NLP para tentar interagir de forma fluída e coerente com o usuário. São bots ou assistentes pessoais, sistemas hoje quase onipresentes em aplicativos de reserva de passagens ou hotéis, aplicativos bancários (o gerente vai ser substituído por um bot, já que hoje mais de 60% das transações bancárias são feitas por meios digitais no Brasil), centrais de atendimento ao usuário, mensagens instantâneas e nos smartphones. Estamos diante de um novo horizonte cheio de desafios e oportunidades.
Por exemplo, se eu dissesse agora ao assistente pessoal do Google: reserve um carro barato para São Paulo amanhã, o assistente simplesmente abriria a página de busca com sites de locadoras de veículos. Porém, um assistente pessoal que pudesse entender todo o contexto desta frase, buscaria em minha agenda para saber a que horas é meu compromisso, e valendo-se de Big Data, alugaria o veículo com melhor custo dentre as locadoras que costumo utilizar assegurando-se de que a placa do carro respeite o rodízio de veículos em São Paulo.
Há ainda outros desafios que se relacionam, por exemplo, ao aprendizado de forma não supervisionada, ou seja, sem que haja interferência humana. Faça um teste, diga para seu assistente pessoal, “ligue para minha gata” ou “meu gato”, o que ele fará? Talvez você quisesse apenas que ele ligasse para sua namorada ou namorado, mas, provavelmente o assistente vai só encontrar letras de músicas e fotos de gatinhos…! Repita quantas vezes quiser, o seu assistente clever não ficará smart sozinho, será preciso que você o ensine explicitamente, que gata (ou gato) refere-se a uma pessoa bonita.
O caminho ainda pode ser longo, mas já está começando a ser percorrido, um jogo onde a máquina tenta adivinhar o que você está desenhando foi disponibilizado recentemente pelo Google em aiexperiments.withgoogle.com, onde também é possível ver o que uma rede neural “enxerga” a partir de uma imagem de webcam, além de outros experimentos.
Prepare-se, uma máquina realmente smart, no futuro, passará a executar suas próprias cadeias de ações, realizar mudanças baseadas nas experiências e sentimentos dos usuários produzindo resultados além dos esperados. Tendências como Deep Learning, NLP, Big Data e NUI estão contribuindo cada vez mais para isso. São técnicas que já existem há algum tempo, mas somente agora, com alta capacidade de processamento e um volume gigantesco de informações disponíveis, estão trazendo resultados mais palpáveis e surpreendentes.
Gustavo Reder Cazangi, líder de inovação em Entretenimento e Marcelo Abreu, gerente de inovação e novos negócios, ambos do Venturus – Inovação & Tecnologia