Tecnologia

Fala artificial avança

Publicado em

“Você disse que queria reservar um voo para Austin, ou Boston?”

Até o ser humano às vezes teria dificuldade para diferenciar os nomes destas duas cidades. Eles soam muito parecidos. A Inteligência Artificial (IA) em um diálogo com uma pessoa também poderia facilmente se enganar.

A tecnologia de síntese de fala presente nos assistentes virtuais por voz poderia ajudar, ao imitar o tipo de expressividade que os humanos exibem naturalmente quando se comunicam entre si.

Essa é só uma das inovações na tecnologia de síntese de sequência a sequência (S2S). Nos últimos anos, a fala artificial atingiu um alto nível de performance com a introdução de arquiteturas neurais profundas de sequência a sequência, que proporcionam resultados de alta qualidade e que estão se aproximando do mesmo grau de percepção da fala natural.

A estratégia para se introduzir controlabilidade no sistema é simples. Sabe-se que, para ressaltar algumas palavras, os locutores tendem a se desviar do resto da frase em termos de propriedades prosódicas acústicas, como a velocidade da fala e a frequência fundamental.

Vejamos, por exemplo, a frase que poderia surgir em um diálogo com uma assistente: “Não entendi muito bem. Você disse que seu nome era Greg ou Craig?”. Se isso fosse um diálogo entre humanos, o locutor poderia transmitir a incerteza da situação ao aumentar o volume e o tom das palavras ressaltadas, articulando-as de forma mais clara e lenta, podendo até adicionar algumas pausas breves, porém perceptíveis.

Equipar os assistentes de voz com estas capacidades expressivas poderia ajudar a torná-los “mais humanos”, e também proporcionar um mecanismo mais eficiente de interação e uma experiência (Fonte: IBM – Foto: Freepik)

Clique para comentar

Deixe uma Resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Mais Visitadas

Topo