Método para composição de closed-captions com parâmetros tipográficos representando visualmente qualidades acústicas

PRINCIPAIS BENEFÍCIOS E CARACTERÍSTICAS DA INVENÇÃO

chat

Permite a compreensão da subjetividade da fala

idea(1)

Fornece subsídios para que o público interprete sozinho os aspectos da prosódia

snap

Ideal para pessoas com deficiência auditiva, em processo de alfabetização ou de aprendizado de um novo idioma

Tecnologia para legendagem de conteúdo audiovisual auxilia na compreensão dos aspectos subjetivos da fala

Representar visualmente as qualidades acústicas da fala. Este é o objetivo de um método para composição de closed-captions – as legendas que transcrevem a voz dos falantes em conteúdo audiovisual – criada por pesquisadores da Faculdade da Engenharia Elétrica e de Computação da Unicamp. A tecnologia visa permitir a compreensão das dimensões subjetivas da comunicação sonora, por meio da extração de parâmetros prosódicos de cada sílaba do áudio da fala de entrada.

Ela foi desenvolvida com a intensão de facilitar a apreensão do conteúdo por indivíduos com déficit auditivo, em processo de alfabetização ou de aprendizado de outro idioma. Isso porque a comunicação oral não ocorre apenas por meio da informação objetiva transmitida pela voz, mas também pela prosódia, que é o modo como as palavras são articuladas e que podem indicar ironia, sarcasmo, tristeza, entre outras características, variando de acordo com a origem do falante, bem como sua idade, gênero e estado de espírito.

A invenção busca capturar elementos acústicos da fala de modo que o espectador consiga perceber os aspectos da prosódia mesmo sem acesso ao áudio, interpretando sozinho as emoções. Dessa forma, ela não imprime uma interpretação específica a esses elementos e nem busca eliminar a ambiguidade da fala, mas fornece subsídios para que o público consiga lidar melhor com essas propriedades.

A partir do áudio de uma fala e de um arquivo texto com sua transcrição, o método obtém a transcrição temporalizada desse áudio com informações sobre a segmentação da fala em sílabas. Tal procedimento ocorre por meio de inspeção visual em um software especializado em processamento de áudio ou de aplicativos de segmentação automática, modulando parâmetros tipográficos em fontes já existentes no mercado, com um modelo de mapeamento prosódico-tipográfico alternativo.

As representações visuais utilizadas são intuitivas e funcionam mesmo que o público desconheça um modelo formal de prosódia. Além disso, elas são facilmente adaptáveis a contextos em que as closed-captions são tipicamente aplicadas e permitem que as modulações sejam animadas de maneira síncrona com as modulações prosódicas nas vozes das personagens no vídeo.

INVENTORES

Paula Dornhofer Paro Costa

• Graduação em Engenharia Elétrica (2010)
• Doutorado em Engenharia da Computação (2015)
• Docente na Faculdade de Engenharia Elétrica e de Computação (FEEC-Unicamp)
Caluã de Lacerda Pataca
Faculdade de Engenharia Elétrica e de Computação (FEEC-Unicamp)

FACULDADE/INSTITUTO:

Faculdade de Engenharia Elétrica e de Computação (FEEC – Unicamp)

DETALHES

TÍTULO: Composição de closed-captions
STATUS: DEPOSITADO
CÓDIGO: 1626_PROSODIA

COMPARTILHE:

TECNOLOGIAS RELACIONADAS: