Transformar discurso em texto – Uma arte tecnológica

Assume-se como “inovadora”e não “integradora” no que respeita à tecnologia que cria desde 2008, que tem por base o reconhecimento automático da fala, com aplicações em legendas ou transcrições dos mais variados tipos de documentos: relatórios, depoimentos, palestras ou conversas telefónicas. A VoiceInteraction, que nasceu de um spin-off de um centro de investigação do Instituto Superior Técnico, é atualmente líder de mercado neste setor em várias regiões do mundo, parceira de vários meios de comunicação e entidades públicas e vencedora de vários prémios de Broadcast, como destaca João Neto, diretor-geral da empresa.

0
377

Desde a sua criação, a VoiceInteraction foi responsável pela inovação na área do reconhecimento automático da fala. Relativamente à tecnologia existente, atualmente, como funciona a VoiceInteraction?

A VoiceInteraction tem origem no Instituto Superior Técnico, como spin-off de um centro de investigação. A partir de uma parceria com a RTP para a legendagem do noticiário, desenvolvemos um produto passível de ser comercializado para outras emissoras. Desde 2008, temos vindo a ampliar a gama de produtos apoiados em tecnologia proprietária de reconhecimento automático de fala, para diversos usos e línguas. Já que a maioria dos países tem legislação referente à obrigação de conteúdo legendado, a VoiceInteraction tem como core business este mercado, mas também tem vindo a desenvolver soluções para instituições públicas e privadas de qualquer setor e dimensão.

Quais as áreas em que a digitalização da voz pode fazer a diferença e para as quais a VoiceInteraction já apresenta soluções?

A VoiceInteraction especializa-se no processamento automático de voz para texto, seja para legendagem de noticiários ou transcrição de reuniões, depoimentos, palestras, relatórios médicos ou comunicações telefónicas recebidas. Complementamos este serviço com a geração de metadados e gestão de bases de dados: por exemplo, um call center que empregue as nossas soluções ficará a conhecer os problemas mais comuns que
levam os clientes a entrar em contacto.

Cada vez mais, é muito importante que a informação esteja salvaguardada e protegida online. Que garantias fornecem as vossas soluções, no que respeita à tradução ou transcrição de relatórios e outros documentos cujos dados possam ser pessoais, de que efetivamente é um produto seguro para os utilizadores?

A segurança dos dados de todos os nossos clientes é uma prioridade. Os nossos servidores estão protegidos com protocolos rigorosos no caso da utilização dos nossos produtos na cloud, onde os clientes controlam a informação registada com a opção de a apagar permanentemente. As nossas soluções também podem ser instaladas no sistema interno do cliente, sem conexão à Internet.

Como podem a Inteligência Artificial e o Machine Learning ajudar a devolver boas aplicações para que a tradução seja correta e a legendagem também, ainda que se trate de legendagem automática?

Tanto a tradução como a legendagem automática resultam de tecnologia proprietária, concebida em processos patenteados por investigadores doutorados. A equipa de I&D de Engenheiros e Linguistas computacionais gere o processo diário de otimização dos modelos de reconhecimento, controlando a introdução de extensos volumes de
dados audiovisuais transcritos manualmente – processados pelos algoritmos de Machine Learning. À metodologia clássica juntam-se processos de atualização diária dos modelos acústicos e linguísticos: através de pesquisas automatizadas na web, o sistema ‘aprende’ novas palavras sem intervenção humana. É ainda possível adicionar
novos universos de vocábulos técnicos através da introdução de manuais técnicos, com termos para Medicina ou Legislação, por exemplo.

A tecnologia que apresentam é criada por vós e tem como fim último a possibilidade de acrescentar valor a um serviço já prestado pelos vossos clientes. Como é mensurável este “valor acrescentado” no dia a dia dos vossos clientes?

Os profissionais de transcrição estimam que são necessárias 4 a 10 horas de trabalho para transcrever uma hora de áudio. Para utilizadores comuns, sem acesso a ferramentas especializadas, pode demorar até 20 horas. A nossa tecnologia processa uma hora de áudio em 15 minutos, sem intervenção humana e com a possibilidade de transcrever múltiplos ficheiros em simultâneo. Para além desta vantagem decisiva na otimização processual, os nossos produtos oferecem ainda funcionalidades para a verificação e edição das transcrições, gestão de bases de dados e relatórios automáticos com dados recolhidos pelas ferramentas de análise. Os recursos humanos dos
nossos clientes ficam assim libertos de processos manuais fastidiosos, com a possibilidade de analisar conhecimento revelado em dados previamente desagregados e ocultos.

A VoiceInteraction é líder na sua área de atividade, mas para tal está constantemente a investigar e desenvolver novas soluções. Quão importantes são as parcerias que estabelecem com universidades, clientes e outras entidades académicas e científicas, para que esta evolução continue a verificar-se?

Para que as nossas soluções se mantenham referências de mercado a nível mundial, é necessário inovar constantemente. Para isto, as parcerias estabelecidas são essenciais: projetos de investigação nacionais e internacionais concedem-nos acesso a casos de estudo de grande relevo – desenvolvemos soluções à medida de entidades como a RTP, Polícia Judiciária ou a Procuradoria-Geral da República, criando produtos inovadores para necessidades distintas. Por outro lado, a VoiceInteraction investe na captação de talento de jovens investigadores em áreas distintas de Computação, Processamento de Sinal e Linguística.

No que respeita à evolução da própria empresa, quais os próximos passos na internacionalização da VoiceInteraction?

A VoiceInteraction tem vindo a investir em mercados internacionais, com escritórios em quatro continentes e clientes em todo o mundo – atualmente somos um provider reconhecido de legendagem automática, com uma cota de mercado considerável na América do Norte e no Brasil. Iremos continuar a trabalhar para que os nossos outros produtos alcancem um sucesso semelhante, como a nossa solução para Call Centers. A nossa entrada em novos mercados está ligada à participação em feiras da especialidade: em 2022 a VoiceInteraction foi reconhecida com múltiplos prémios em eventos promovidos no setor de Broadcast. Vamos ainda continuar a solidificar a nossa presença em regiões como a APAC, onde temos vindo a investir a partir da nossa base em Singapura.

DEIXE UMA RESPOSTA

Please enter your comment!
Please enter your name here