1. Lingüística computacional: hacia una definición
Este capítulo lo dedicaremos a explorar la lingüística computacional: su terminología, alcances y modelos subyacentes. Veremos cómo las lenguas naturales son procesadas, analizadas, modelizadas y estudiadas mediante el uso de herramientas computacionales. Por el momento responderemos a qué es y en qué consiste la lingüística computacional.
1.1 ¿Qué es la lingüística computacional?
Antes de definir la lingüística computacional, realizaremos un breve recorrido por las diferentes teorías que existen con respecto a su surgimiento y evolución. Nos concentraremos particularmente en nuestros contextos más próximos: el hispanohablante, el angloparlante y el francófono.
Tenemos, en primera instancia, la versión inglesa, de la que parecería haberse inspirado la española y, en cierto modo, la francesa; al existir dos términos, el de computational linguistics (Grishman, 1986), por una parte, y el de natural language processing o nlp (Allen, 1995), por la otra, vemos que surge una primera ambigüedad tanto terminológica como de campos disciplinares. El segundo concepto es el que podría traducirse como “procesamiento del lenguaje natural” para el español y como traitement automatique des langues, en el caso de la lengua francesa.
En segundo lugar, en regiones de habla francesa, como Francia, Bélgica y Suiza francófonas y Quebec, la comunidad científica se refiere, normalmente, al campo específico del tratamiento automático del lenguaje natural —taln— o, simplemente, al tratamiento automático de lenguas (traitement automatique des langues) —tal— (Antoniadis, 2008; Bouillon, 1998; Fuchs, 1993). Sin embargo, y a diferencia del mundo anglófono o del hispanohablante, hay pocas menciones en la literatura a la linguistique-informatique (lingüística informática o computacional), pues, para los francófonos especializados en el tema, el término más recurrente ha sido el de tal.
En tercer y último lugar, en la lengua castellana se habla normalmente de lingüística computacional (Martí Antonín y Castellón Masalles, 2000; Moreno Sandoval, 1998), tratamiento del lenguaje natural (Martí Antonín y Llisterri, 2002) o procesamiento del lenguaje natural —pln— (Gelbukh y Sidorov, 2006; Lavid, 2005; Moreno Sandoval, 1998). Aunque las obras editadas en el mundo hispanohablante suelen referirse casi siempre a la lingüística computacional y al procesamiento del lenguaje natural como si se tratara de los mismos conceptos (Lavid, 2005), queda el interrogante de si ambas nociones aluden a lo mismo, son intercambiables, o si se trata de dos terrenos distintos. En lo que concierne a las obras publicadas en el contexto colombiano, al campo que nos interesa se le denomina, generalmente, lingüística computacional (cfr. Baquero Velásquez, 2010; Rubio López y Bernal Chávez, 2016).
En las secciones a continuación, vamos a analizar esta diversa terminología y veremos si en realidad se trata del mismo campo disciplinar, o si, por el contrario, son dos campos diferentes del conocimiento.
1.1.1 ¿“Lingüística computacional” o “procesamiento del lenguaje natural”?
Una primera aproximación a la lingüística computacional viene de D. Hays (1967), quien acuñara el término en los años sesenta, con la idea de “proveer un marco teórico mucho más sólido con relación a la traducción automática”. T. Winograd (1983, p. 364), años después, considera que la “lingüística computacional” es muy diferente de la “lingüística teórica” (gramática transformacional) o de la “inteligencia artificial” (atn —augmented transition network— y muchos de los sistemas de estructura de frases aumentadas), y que se fundamenta, según él, en un grupo de sistemas desarrollados en forma paralela a una colección de reglas de reescritura.
Otros autores de referencia, como R. Grishman, por ejemplo, dicen que la lingüística computacional se constituye por “el estudio de los sistemas de computación utilizados para la comprensión y la generación de las lenguas naturales” (Grishman [1986], citado por Moreno Sandoval, 1998, p. 13). Lo interesante de esta definición consiste en la primacía del factor tecnológico-informático sobre lo lingüístico. Es decir, el autor hace hincapié en el hecho de que es gracias a los sistemas de computación como se pueden analizar las diferentes lenguas, en cuanto a su comprensión y su generación, asunto que supedita el análisis del lenguaje natural a la máquina. Finalmente, para Crystal (1991), la lingüística computacional es “una rama de la lingüística en la cual las técnicas y los conceptos computacionales son aplicados en la elucidación de problemas lingüísticos y fonéticos”.
Un argumento similar al de Grishman (1986) manifiesta Allen (1995), en su libro Natural Language Understanding, donde define el procesamiento del lenguaje natural, o pln, así: “El objetivo de esta investigación es crear modelos computacionales del lenguaje lo suficientemente detallados que permitan escribir program...