Fale Conosco: 11 3045 2118

Utilizando Inteligência Artificial para gerar interação entre usuários e videos – parte 1

Dale, pessoal.

Hoje quero mostrar pra vocês a primeira parte de uma aplicação que estamos desenvolvendo que faz uso de AI (Inteligência Artifical) para que um video reaja às expressões das pessoas que estão na frente da tela.

A ideia veio de uma reunião que tivemos com o pessoal da New Style onde foi mencionado que seria legal conseguir alguma ferramenta que permitisse este tipo de recurso em eventos. Aquilo ficou na minha cabeça e acabei pegando algum tempo do dia a dia pra escrever um modelo em python que pudesse estudar as expressões faciais das pessoas e classificá-las em feliz, triste, com raiva, neutra, surpresa. Ao identificar uma expressão o software vai alterar o conteúdo da tela disparando novos layers animados ou estáticos sobre o vídeo ou mesmo outros vídeos.

Pra quem gosta de entender a parte “hard core”: o modelo que escrevi é uma “Convolutional Neural Network”, amplamente utilizado em processos de reconhecimento de imagem por empresas como Apple, Google, Microsoft etc. É uma arquitetura especifica de redes neurais que tem se mostrado muito eficiente em permitir ao robô aprender através da observacão de imagens (quando digo robô me refiro ao software que escrevi, eu poderia usar o termo “bot” que tanto temos ouvido falar).

Utilizei uma biblioteca de aproximadamente 25000 imagens para realizar o treinamento do robozinho. Ele “vê” cada uma dessas imagens e eu falo pra ele se é uma pessoa feliz, triste, surpresa, com raiva… A cada imagem que ele enxerga ele aprende um pouquinho mais sobre identificar estas expressões e com o tempo e mais estudos ele vai aprimorando essa capacidade.

Depois do processo de treinamento das 25000 imagens é hora de testar o bichinho e é aí que começa a diversão. Escrevi um script que abre a webcam, detecta a face da pessoa e então passa pro robô tentar classificar a expressão. A leitura é feita em tempo real, conforme o usuário vai mudando as expressões o robô vai imprimindo numa janelinha o que ele está entendendo. O resultado é muito massa. Vejam nos screenshots abaixo a imagem da webcam e do lado esquerdo inferior o que o bot está achando:

A ideia agora é pegar esta classificação e disparar os layers de video, animações etc. Mas isso fica pra segunda parte deste post, até porque ainda vai dar um trabalhinho 🙂

Valeu pessoal, quem quiser saber mais sobre as possíveis aplicações dessa tecnologia em campanhas ou eventos é só me mandar email: marcos.trinca@vocs.com.br

Abração.

Comentários

Localização

Matriz:

  (11) 3045-2118
  R. Alvorada, 1289 – Cjs. 212 e 213
      Vila Olímpia – São Paulo
  contato@vocs.com.br

Outras localidades:

  Rio de Janeiro: (21) 4063-3191
  Recife: (81) 4062-9396
  Brasília: (61) 4063-9263