Articles

Os desafios da Língua Portuguesa na Era Digital

In Defesa da Língua Portuguesa, Língua Portuguesa Internacional, O Mundo de Língua Portuguesa on 20 de Novembro de 2012 by ronsoar Tagged: , , , , , , , , ,

.

A Língua Portuguesa, apesar da sua presença nos sítios de Internet e na comunicação eletrónica, ainda não está totalmente preparada para expressar os conceitos da era digital. Ela precisa contar com ferramentas das Tecnologias da Linguagem, com recursos linguísticos e orais, nos níveis da palavra, da estrutura das frases, dos significados e da relação discursiva das frases.

.
Mas o percurso a ser trilhado para isso será longo. Como realizar esse trabalho importante para a Língua Portuguesa em uma área humana cada vez mais avançada e em mudanças constantes?

Ventos da Lusofonia mostra duas matérias sobre o desafio que a Língua “filha ilustre do Latim” terá para afirmar-se também nos meios informáticos, para que seja capacitada como Língua aplicável à comunicação dos avanços do mundo digital.

*              *              *

–– Língua Portuguesa mal preparada para a era digital ––

Virgílio Azevedo
do diário Expresso (Lisboa, Portugal)
16 de novembro de 2012

A Língua Portuguesa precisa desenvolver ferramentas e aplicativos aos níveis linguísticos do texto e da fala, para seu uso nas Tecnologias da Linguagem.
 

O português está mal preparado para a era digital, de acordo com os resultados de um estudo internacional sobre o estado de desenvolvimento da Tecnologia da Linguagem feito a 30 línguas europeias.

O apoio da Tecnologia da Linguagem ao português é classificado como “pouco ou nenhum” na tradução automática, “fragmentário” na análise de texto e nos recursos linguísticos e orais, e “médio” no processamento da fala.

Os recursos linguísticos e orais são os recursos de base – conjuntos de dados, bases de conhecimento linguístico, etc. – necessários para a criação de ferramentas e aplicações em Tecnologias da Linguagem.

Para António Branco, o investimento em Tecnologias da Linguagem “é um fator crucial para a afirmação da nossa Língua na era digital”.

O estudo foi apresentado hoje [dia 16 de novembro] numa conferência internacional na Fundação Gulbenkian, em Lisboa, onde foi lançado o Livro Branco sobre A Língua Portuguesa na Era Digital, um projeto que envolve as Faculdades de Ciências e de Letras da Universidade de Lisboa, e o Instituto Superior Técnico [da Universidade Técnica de Lisboa].

A fraca classificação da Língua Portuguesa parece um paradoxo, porque há mais de 220 milhões de falantes do português espalhados pelo mundo. A nossa língua é a terceira mais usada no Twitter e a quinta mais usada na Internet, e o Brasil é o quinto país que mais utiliza a Rede.

“Não se trata de um paradoxo, mas de realidades diferentes, porque uma coisa é falarmos de suportes, canais e meios de difusão da Língua Portuguesa a nível mundial, onde não estamos mal; outra coisa é a Tecnologia da Linguagem, que não está à vista das pessoas como a presença na Internet, mas que é um fator crucial para a afirmação da nossa Língua na era digital”, esclarece António Branco, investigador do Departamento de Informática da Faculdade de Ciências da Universidade de Lisboa.

António Branco é coordenador do projeto europeu METANET4U, que pretende contribuir para o estabelecimento de uma plataforma digital pan-europeia que disponibilize recursos e serviços relacionados com a linguagem, envolvendo bases de dados e ferramentas de software [logicial] para o processamento da fala e da linguagem.

A Tecnologia da Linguagem funciona nos bastidores, de forma invisível para o público em geral dentro de sistemas de software [logicial] sofisticados, mas é uma ajuda preciosa em tarefas diárias, como encontrar informação na Internet com um motor de busca, verificar a ortografia e a gramática com um processador de texto, ver as recomendações para um produto numa loja online [em linha], seguir as indicações verbais de um sistema de navegação, traduzir páginas da Internet com um serviço online [em linha].

Desenvolver esta tecnologia exige a recolha de muitos dados sobre a Língua Portuguesa e é um processo trabalhoso, demorado e caro. No mundo digital, dos computadores e das redes, há duas vias para a aquisição da linguagem: a abordagem estatística e a construção de sistemas baseados em regras.

–– Colecionar milhões de frases ––
No primeiro caso, os conhecimentos linguísticos são obtidos a partir de grandes coleções de exemplos concretos de textos, de milhões de frases que permitem, por exemplo, a correção ortográfica em processadores de texto ou serviços como o Google Search [Google Pesquisa] ou o Google Translate [Google Tradutor]. A vantagem da abordagem estatística é que a aprendizagem dos computadores é rápida.

No caso da construção de sistemas baseados em regras, particularmente importante na tradução automática, especialistas em linguística computacional e engenharia informática têm de codificar as regras gramaticais e compilar listas de vocabulário, o que exige muito tempo e trabalho, mas tem a vantagem de permitir controlar de forma mais detalhada o processamento da linguagem, corrigindo permanentemente os erros no software [logicial], e dar uma resposta detalhada ao utilizador.

“O sistema flexional do português é muito mais rico do que o de línguas como o inglês, em particular nos verbos, o que torna o desenvolvimento da Tecnologia da Linguagem mais difícil”, salienta António Branco.

O investigador dá um exemplo revelador: “Um verbo pode ter diferentes marcas para aspeto, tempo, modo, pessoa, número, género ou polaridade, atingindo mais de 160 formas flexionadas diferentes”.

Entretanto, no Instituto de Engenharia de Sistemas e Computadores – Investigação e Desenvolvimento (INESC-ID), em Lisboa, está a ser desenvolvido um sistema inovador para recuperar doentes que sofreram um AVC [acidente vascular cerebral] e que têm afasia, isto é, dificuldade em lembrar-se dos nomes dos objetos.

Para Isabel Trancoso, “há um mercado potencial importante” no processamento da fala para usos em várias áreas, como a da reabilitação médica.

O projeto, liderado pela investigadora Isabel Trancoso, é uma parceria entre o Laboratório de Sistemas de Língua Falada (L2F), do INESC-ID, e o Laboratório de Estudos de Linguagem, da Faculdade de Medicina da Universidade de Lisboa.

A investigadora mostra ao Expresso como vai funcionar o sistema. No monitor de um computador aparecem uma a uma as imagens, fotos e vídeos de objetos familiares, de pessoas, de músicas conhecidas.

O doente que sofreu um AVC deve falar na direção do microfone e tentar acertar no nome de cada um desses objetos, pessoas ou músicas, nome muitas vezes escondido no meio de uma frase e entre hesitações, mas o sistema de reconhecimento da fala não tem problemas e capta esses nomes, surgindo no monitor a classificação “certo” ou “errado”.

Este é um dos muitos exemplos do que é necessário desenvolver nas Tecnologias da Linguagem para que a sobrevivência da Língua Portuguesa não esteja em risco na era digital.

Isabel Trancoso, que representa o Instituto Superior Técnico no projeto europeu METANET4U, afirma que “há poucas empresas nacionais interessadas nas tecnologias desenvolvidas por centros de investigação portugueses”.

Em todo o caso, nos últimos anos tem havido mais interesse de editoras e livreiras no processamento da Língua escrita, e no processamento da fala “há um mercado potencial importante nas televisões, rádios, na área da reabilitação, nos hospitais [ditado automático dos relatórios médicos, preenchimento de formulários] e nos tribunais [transcrição das sessões e dos relatos das testemunhas]”.

Amália Mendes, investigadora do Centro de Linguística da Universidade de Lisboa (CLUL), que também participa no projeto METANET4U, reconhece por sua vez que “há pouco suporte tecnológico para a Língua Portuguesa, embora seja exagerado dizer que é uma língua em risco, porque não houve uma passagem maciça para o inglês na Internet e nas redes sociais dos utilizadores que falam português, o que significa que há multilinguismo”.

A investigadora sublinha que “tentar disponibilizar o máximo de recursos para o português é o objetivo do CLUL no projeto METANET4U”, e explica o que falta ao português em termos de desenvolvimento da Tecnologia da Linguagem para chegar ao nível do espanhol ou do francês.

“Ao nível da palavra [nível morfosintático], que é o mais básico, já há recursos e ferramentas, mas, ao nível da análise sintática da língua [estrutura das frases], o trabalho desenvolvido é ainda insuficiente.”

E quanto mais nos afastamos do nível básico, “mais afastados estamos do desejável no apoio tecnológico da Língua Portuguesa”, explica Amália Mendes.

É o que acontece aos níveis semântico (significado das palavras) e do discurso (relações discursivas das frases de um texto), que são muito mais complexos. Saindo do texto e entrando na tecnologia da fala, “há problemas ainda acrescidos, embora seja uma área claramente em desenvolvimento, por causa das aplicações comerciais”.  :::

.
AZEVEDO, Virgílio. Língua Portuguesa mal preparada para a era digital.
Extraído do diário Expresso (Lisboa, Portugal).
Publicado em: 16 nov. 2012.

*              *              *

–– Livro Branco A Língua Portuguesa na Era Digital lançado na Gulbenkian ––

Do Camões – Instituto da Cooperação e da Língua


Ocorreu no dia 16 de novembro de 2012, na sede da Fundação Calouste Gulbenkian, o lançamento do Livro Branco A Língua Portuguesa na Era Digital durante uma oficina subordinada ao mesmo tema.

O livro procura disponibilizar uma análise do estado de desenvolvimento da Tecnologia da Linguagem para a Língua Portuguesa, assim como das perspectivas que se oferecem e das ações necessárias para a consolidação do português como Língua de comunicação internacional para a era digital.

A obra relacionada à Língua Portuguesa é um volume da coleção de Livros Brancos sobre “As Línguas na União Europeia da Sociedade da Informação”.

.

Esta coleção apresenta um estudo circunstanciado sobre o estado atual de 30 línguas europeias em termos de Tecnologias da Linguagem e como estão a ser tecnologicamente equipadas para fazer face ao choque digital, salientando os riscos e as oportunidades mais urgentes que cada uma destas línguas enfrenta. No total, mais de 200 autores e colaboradores ajudaram a preparar esta coleção, que se encontra publicada na editora internacional Springer Verlag.

Esta coleção abrange todas as línguas oficiais da União Europeia e dos países-membros e diversas outras línguas faladas na Europa: alemão, basco, búlgaro, catalão, checo, croata, dinamarquês, eslovaco, esloveno, espanhol, estoniano, finlandês, francês, galego, grego, holandês, húngaro, inglês, irlandês, islandês, italiano, letão, lituano, maltês, norueguês, polaco, português, romeno, sérvio e sueco.

.
Clique aqui para ler o Sumário Executivo do Livro Branco A Língua Portuguesa na Área Digital.

.
Livro Branco “A Língua Portuguesa na Era Digital” lançado na Gulbenkian.
Extraído do Camões – Instituto da Cooperação e da Língua.
Lisboa, Portugal.

*              *              *

Leia também:
“Língua Portuguesa pode perder-se na era digital”, alerta cientista da Universidade de Lisboa – 16 de novembro de 2012
Preparando o Português para ser a “Língua da Ciência” – 23 de setembro de 2012

Deixe uma Resposta

Preencha os seus detalhes abaixo ou clique num ícone para iniciar sessão:

Logótipo da WordPress.com

Está a comentar usando a sua conta WordPress.com Terminar Sessão / Alterar )

Imagem do Twitter

Está a comentar usando a sua conta Twitter Terminar Sessão / Alterar )

Facebook photo

Está a comentar usando a sua conta Facebook Terminar Sessão / Alterar )

Google+ photo

Está a comentar usando a sua conta Google+ Terminar Sessão / Alterar )

Connecting to %s

%d bloggers like this: