Dictionaries of Mexican Sexual Slang for NLP

Authors

  • Roberto Villarejo-Martínez Centro Nacional de Investigación y Desarrollo Tecnológico
  • Noé Alejandro Castro-Sánchez Centro Nacional de Investigación y Desarrollo Tecnológico
  • Gerardo Sierra Martínez Universidad Nacional Autónoma de México Torre

DOI:

https://doi.org/10.19153/cleiej.20.1.7

Keywords:

Double entendre, Computational humour, Sexual Slang, Doble sentido, Humor computacional, Argot sexual

Abstract

Abstract:

In this paper the creation of two relevant resources for the double entendre and humour recognition problem in Mexican Spanish is described: a morphological dictionary and a semantic dictionary. These were created from two sources: a corpus of albures (drawn from “Antología del albur” book) and a Mexican slang dictionary (“El chilangonario”). The morphological dictionary consists of 410 forms of words that corresponds to 350 lemmas. The semantic dictionary consists of 27 synsets that are associated to lemmas of morphological dictionary. Since both resources are based on Freeling library, they are easy to implement for tasks in Natural Language Processing. The motivation for this work comes from the need to address problems such as double entendre and computational humour. The usefulness of these disciplines has been discussed many times and it has been shown that they have a direct impact on user interfaces and, mainly, in human-computer interaction. This work aims to promote that the scientific community generates more resources about informal language in Spanish and other languages. 

Spanish Abstract:

En este artículo se describe la creación de dos recursos relevantes para el reconocimiento del doble sentido y el humor en el español mexicano: un diccionario morfológico y un diccionario semántico. Éstos fueron creados a partir de dos fuentes: un corpus de albures (extraídos del libro "Antología del albur") y un diccionario de argot mexicano ("El chilangonario"). El diccionario morfológico consiste en 410 formas de palabras que corresponden a 350 lemas. El diccionario semántico consiste en 27 synsets que están asociados a lemas del diccionario morfológico. Puesto que ambos recursos están basados en la biblioteca Freeling, son fáciles de implementar en tareas de Procesamiento del Lenguaje Natural. La motivación de este trabajo proviene de la necesidad de abordar problemas como el doble sentido y el humor computacional. La utilidad de estas disciplinas han sido discutidas muchas veces y se ha mostrado que tienen un impacto directo en las interfaces de usuario y, principalmente, en la interacción humano-computadora. Este trabajo tiene como objetivo promover que la comunidad científica genere más recursos sobre el lenguaje informal en español y otros lenguajes. 

Downloads

Published

2018-04-05