Addati, Angel: Normalización de textos en Español provenientes de redes sociales. Abril 2019

Título: «Normalización de textos en Español provenientes de redes sociales«

Tesista: Ángel Adrán Addati

Directora: Esp. Sandra Roger

Carrera: Licenciatura en Ciencias de la Computación

Día: 23 de abril de 2019

Resumen

La Minería de opinión es una rama dentro del Procesamiento de Lenguaje Natural dedicada a la extracción de sentimientos de textos escritos en lenguaje informal. En general, estos textos provienen de mensajes en redes sociales, lo que genera una baja calidad en los mismos, conteniendo múltiples errores y palabras no estándares propias del ciberlenguaje (lenguaje de internet). En consecuencia se hace necesaria una primera fase de preprocesamiento responsable de transformar este texto de entrada en una forma libre de errores y de mejor calidad, sin perder el contenido semántico. Esta tarea se denomina: Normalización.

El propósito de la tesis es presentar un modelo de normalización que se diferencia de las propuestas existentes en abarcar de manera simultanea los siguientes tres pilares: es específico para la tarea de normalización, es un componente independiente reutilizable y está especializado en los fenómenos existentes en textos provenientes de redes sociales. Para hacer esto se hace necesario sentar las bases conceptuales del estado del arte de la normalización: definiciones, enfoques, tipologías de casos a resolver, estrategias, etc. Con los conceptos profundizados se establece el modelo conceptual de qué es lo que debe resolver y cómo debe realizarlo. Para el qué se brinda una tipología original y exhaustiva de todos los casos a tratar incluyendo los casos comunes que debe resolver cualquier corrector ortográfico (tal es el uso incorrecto de reglas ortográficas, por ejemplo la utilización de «v» en lugar de «b») y casos particulares de la red social (por ejemplo el uso de emoticones y abreviaciones). Para el cómo se presenta el modelo de normalización propuesto de 5 etapas progresivas: Segmentación; Clasificación de palabras dentro y fuera del lenguaje; Generación de candidatos; Selección y Mejora continua.

Finalmente, se diseña, implementa y valida un desarrollo parcial de este modelo propuesto para mensajes en español de Twitter. La finalidad será demostrar de forma práctica la potencialidad de lo conceptualmente establecido. Esto resultó en un prototipo funcionalmente operativo y con un rendimiento aceptable en la resolución de los casos planteados.

Addati, Angel: Normalización de textos en Español provenientes de redes sociales. Abril 2019

Académica

Estudiantes

Institucional

Extensión

Investigación y Posgrado

Facultad de Informática

Algo