“As tecnologias usadas em buscas hoje são primitivas”

Foto: ABBYY

Foto: ABBYY

Diretor de estudos linguísticos da ABBYY, empresa de software internacional com sede em Moscou, falou à “Gazeta.ru” sobre novo modelo para os motores de busca que identifica proximidades semânticas entre a consulta e o texto.

Para entender os novos mecanismos de busca e como acompanhar as obras clássicas da literatura em vídeo sem um diretor de cinema, a “Gazeta.ru” conversou com diretor de estudos linguísticos da empresa ABBYY, Vladímir Seleguêi. Ele é também diretor tanto do Departamento de Linguística Computacional da Universidade Russa de Ciências Humanas como da Universidade de Física e Tecnologia de Moscou.

Gazeta.ru:O que diferencia a tecnologia da ABBYY das usadas nos demais sistemas de busca existentes?

Vladímir Seleguêi: As tecnologias usadas em motores de busca modernos são bastante primitivas em termos de linguística. Elas utilizam métodos estatísticos que confrontam grandes quantidades de texto e históricos de consulta sem analisá-las do ponto de vista linguístico.

Nossa tecnologia é diferente porque procura identificar a proximidade semântica entre a consulta e o texto. Por ser mais arriscada e cara, essa tecnologia é pouco utilizada. Projetos semelhantes foram desenvolvidos pelo Google e Microsoft Research.

Gazeta.ru:Em termos de linguística computacional, o que significa dizer que o seu sistema ABBYY Compreno é capaz de “compreender” com precisão?

V.S.: Não confrontamos cadeias superficiais de uma língua nem sequências de palavras, mas os conceitos subjacentes que podem ser associados ao seu significado.

Gazeta.ru:Esse conceito pragmático da linguística computacional é usado nas atividades de busca dentro da ABBYY?

V.S: Desde o início, tomamos a decisão onerosa de construir modelos linguísticos universais. Isso nos obrigou a observar uma determinada sequência. Trabalhando com línguas, você não pode omitir alguns elementos como morfologia, sintaxe, semântica, gramática etc. No fim de contas, acabamos desenvolvendo um modelo computacional capaz de operar em qualquer idioma. Testado em cinco idiomas – russo, inglês, alemão, francês e chinês –, esse modelo provou sua viabilidade.

Gazeta.ru:Que tipo de pesquisas seu departamento está fazendo agora?

V.S.: Conseguimos finalmente garantias de que nenhum novo idioma nos criará problemas. Nossa tecnologia de análise de linguagem pode ser usada para a execução das mais diversas práticas. Inicialmente, estávamos concentrados na tradução automática, mas depois verificamos a existência de um grande mercado de busca de informações, onde também havia demanda por novas tecnologias linguísticas. Também estão em demanda tecnologias de classificação e comparação de documentos.

Uma das principais vertentes dos nossos estudos é a transição da descrição de uma língua aos sistemas de descrição formal de áreas específicas ou sistemas de descrição de um ambiente específico abordado no texto.

Gazeta.ru:Esse é um desafio linguístico?

V.S: Não mais. Ao descrever um espaço, você pode fazer isso sem linguagem. Isso também acontece quando você cria, por exemplo, um modelo de um jogo de computador e precisa modelar objetos.

Gazeta.ru:Você acredita que o futuro pertence à fusão das linguagens natural e de máquina?

V.S: A linguagem natural tem muitas funções. A “codificação” direta daquilo que pode ser expresso em linguagem de máquina é uma delas. No processo de comunicação, outras funções também entram em ação. As “imperfeições” da linguagem natural, como ambiguidade e redundância, impedem sua utilização como formal e são, ao mesmo tempo, uma fonte ilimitada de possibilidades de comunicação.

A linguagem formal de entidades semânticas universais é valiosa porque permite que o texto seja tratado não só pelo computador, mas também por um especialista em, digamos, física ou matemática. Essa linguagem intermediária nos permite projetar o texto sobre a linguagem da lógica de predicados ou um sistema de descrição de leis físicas. Mas isso não é uma fusão, são diferentes linguagens usadas para diferentes fins.

Gazeta.ru:A linguística computacional tem efeito pragmático. Mas você não acha que o conceito de linguagem está perdendo sua importância e que a linguística acabará por perder a própria linguagem?

V.S.: A linguística computacional é uma ciência de engenharia que surgiu em consequência das tentativas de antecipar ou acompanhar as necessidades das pessoas que trabalham com a língua em seu computador, e é só. Ainda não sabemos como é organizado o mecanismo que permite que as pessoas se falem. É nisso que reside o desafio global da linguística. Estamos tentando modelar a capacidade da linguagem de transmitir informações.

Gazeta.ru:Isso quer dizer que será possível, por exemplo, visualizar virtualmente os textos das obras de literatura clássicas?

V.S.: Possivelmente, mas a visualização virtual de um texto literário vai acontecer em um modelo muito complexo, ao contrário do futebol, por exemplo, onde a ação pura prevalece. A ideia de visualizar um texto clássico em computador é boa, porém muito difícil, pois exige não apenas um conhecimento extenso do mundo, mas uma profunda compreensão de modelos psicológicos. Ainda assim, não duvido que um dia alguém vai tentar fazer isso.


Publicado originalmente pela Gazeta.ru 

Todos os direitos reservados por Rossiyskaya Gazeta.