Dictionaries of Mexican Sexual Slang for NLP
DOI:
https://doi.org/10.19153/cleiej.20.1.7Keywords:
Double entendre, Computational humour, Sexual Slang, Doble sentido, Humor computacional, Argot sexualAbstract
Abstract:In this paper the creation of two relevant resources for the double entendre and humour recognition problem in Mexican Spanish is described: a morphological dictionary and a semantic dictionary. These were created from two sources: a corpus of albures (drawn from “Antología del albur” book) and a Mexican slang dictionary (“El chilangonario”). The morphological dictionary consists of 410 forms of words that corresponds to 350 lemmas. The semantic dictionary consists of 27 synsets that are associated to lemmas of morphological dictionary. Since both resources are based on Freeling library, they are easy to implement for tasks in Natural Language Processing. The motivation for this work comes from the need to address problems such as double entendre and computational humour. The usefulness of these disciplines has been discussed many times and it has been shown that they have a direct impact on user interfaces and, mainly, in human-computer interaction. This work aims to promote that the scientific community generates more resources about informal language in Spanish and other languages.
En este artículo se describe la creación de dos recursos relevantes para el reconocimiento del doble sentido y el humor en el español mexicano: un diccionario morfológico y un diccionario semántico. Éstos fueron creados a partir de dos fuentes: un corpus de albures (extraídos del libro "Antología del albur") y un diccionario de argot mexicano ("El chilangonario"). El diccionario morfológico consiste en 410 formas de palabras que corresponden a 350 lemas. El diccionario semántico consiste en 27 synsets que están asociados a lemas del diccionario morfológico. Puesto que ambos recursos están basados en la biblioteca Freeling, son fáciles de implementar en tareas de Procesamiento del Lenguaje Natural. La motivación de este trabajo proviene de la necesidad de abordar problemas como el doble sentido y el humor computacional. La utilidad de estas disciplinas han sido discutidas muchas veces y se ha mostrado que tienen un impacto directo en las interfaces de usuario y, principalmente, en la interacción humano-computadora. Este trabajo tiene como objetivo promover que la comunidad científica genere más recursos sobre el lenguaje informal en español y otros lenguajes.
Downloads
Published
Issue
Section
License
CLEIej is supported by its home institution, CLEI, and by the contribution of the Latin American and international researchers community, and it does not apply any author charges whatsoever for submitting and publishing. Since its creation in 1998, all contents are made publicly accesibly. The current license being applied is a (CC)-BY license (effective October 2015; between 2011 and 2015 a (CC)-BY-NC license was used).