Tiempo de lectura 7 minutos

Asignación de sentimientos en lenguaje español mediante modelos de marchine learning: una oportunidad de investigación

Picture of Mauricio Roverssi Alvarado

Mauricio Roverssi Alvarado

Asignación de sentimientos

Todos los días millones de personas comparten su opinión, expresan una idea o sentimientos mediante las redes sociales. En cada publicación, comentario, retweet o mensaje directo las personas dejan expresada una idea y le pueden asignar a esta idea un sentimiento, por ejemplo la siguiente expresión natural, que bien podría ser un comentario en Twitter : ¡No puede ser, otra vez el sistema está caído en XXXX!, no sólo detona una información importante sobre el servicio de un determinada marca XXXX sino que la expresión como tal y la frase ¡No puede ser, otra vez… marcan este comentario con un sentimiento negativo y además una recurrencia (otra vez).

Dada la inmensa cantidad de datos de este tipo que se generan de forma libre y abierta mediante las redes sociales, la empresas han encontrado en el analísis de estos contenidos una oportunidad de generar información valiosa y accionable para su objetivos de negocios. La asignación de sentimientos a los comentarios es una de la líneas de investigación dónde las empresas están haciendo inversiones importantes para poder realizarlo de forma precisa y automatizada.

Importancia de asignar sentimientos a textos

Las empresas buscan siempre generar indicadores generales, sencillos y fáciles de entender en los diferentes niveles de la compañía a cerca de una determino factor asociado a un objetivo de negocio. El número de comentarios positivos, el balance entre estos y sentimientos negativos y como varían estos dos en el tiempo son indicadores que cumplen con las condiciones descritas anteriormente.

La minería de datos tiene un papel fundamental en este ejercicio. Recopilar la información y procesarla correctamente, permite obtener conclusiones y detalles valiosos para tomar acciones dentro de la organización.

Así, la empresa podrá conocer si sus acciones implementadas de un período a otro, generaron reacciones negativas o positivas entre su clientela.

Una vez obtenida la información, es importante comprender la parte sociológica y su impacto, lo que nos brinda un amplio panorama para comprender el por qué observamos más comentarios con sentimiento negativo en las redes sociales versus la cantidad de positivos.

Gustave Le Bon (1995) en su libro Psicología de las masas asegura que aún cuando los individuos que conforman una masa son diferentes entre sí, el simple hecho de que se hayan transformado en masa les dota de una especie de alma colectiva.

Este alma les hace sentir, pensar y actuar de un modo completamente distinto de cómo lo haría cada uno de ellos por separado”, dice Le Bon.

Sistema para asignar sentimientos

Para la minería de opiniones, es posible utilizar tecnologías desarrolladas específicamente para ello según los parámetros requeridos y así obtener resultados deseados según sea cada caso.

El proceso automatizado utiliza modelos que trabajan con palabras clave para poder definir el sentimiento de cada comentario; sin embargo, investigaciones como Aislamiento social obligatorio: un análisis de sentimientos mediante machine learning (2021) de Carlos Alberto Arango Pastrana y Carlos Fernando Osorio Andrade, doctor en Organización Industrial y Gestión de Empresas y magister en Ciencias de la Organización; respectivamente, han logrado concluir que son escasas las opciones en el idioma español.

El doctor y el magister explican lo siguiente:

“A pesar de que la asignación de sentimientos ha sido ampliamente utilizada en la investigación científica para una gran variedad de temas, la mayoría de las investigaciones solo han considerado el idioma inglés, lo que implica que los avances en otras lenguas son aún escasos.”

Por ello, Arango y Orosio consideran, además, que su estudio puede ser utilizado por otras investigaciones que analicen conjuntos de texto en español para identificar los mejores algoritmos de clasificación.

A modo de ejemplo, sabemos que traducir un texto en un sistema web puede ser impreciso, ya que convierte cada palabra de forma literal de un idioma a otro.

Es por eso que se han desarrollado traductores web específicos para transformar un texto de un idioma a otro de forma más exacta.

¿Cómo asignar sentimientos?

Para la asignación de sentimientos a los tweets relacionados a las medidas de prevención del Covid-19 durante la pandemia en Colombia en la investigación mencionada, se utilizó una metodología de análisis de datos específica, desarrollada en etapas, la cual detallo a continuación:

  1. Selección de palabras clave o keywords: Escogieron palabras y hashtags de acuerdo a sus requerimientos, entre ellas “aislamiento obligatorio”, “aislamiento”, “confinamiento” y “cuarentena”.
  2. Captura de información: Utilizaron la minería de datos a través del software estadístico R en su entorno visual Rstudio (Versión 1.2.1335). Se utilizaron las librerías, Rtweet (versión 0.7.0) (Kearney y Kearney, 2016), y la conexión con la interfaz de programación de aplicaciones (API) para programadores de Twitter. 
  3. Preprocesamiento de datos: Pusieron en práctica una serie de técnicas que permiten limpiar y reducir las características de los textos, facilitando el análisis de sentimientos mediante procesamiento del lenguaje natural. Para ello, utilizaron el paquete informático Rapidminer en su versión 9.6.0. Este programa se escogió porque cuenta con varios algoritmos de clasificación de textos integrados. Las técnicas aplicadas en este caso fueron filtrado de textos, tokenización -comprimir el texto hasta obtener palabras clave-, transform cases y eliminación de stopwords, detallado a continuación:
Fuente: Arango Pastrana C. y Osorio Andrad C. (2021), Aislamiento social obligatorio: un análisis de sentimientos mediante machine learning. Colombia: Suma de Negocios. 

Entre los pasos, es necesario programar el sistema para que pueda hacer un análisis detallado de cada texto -extracción de información-, en este caso comentarios, y poder seleccionar esas keywords o tokens y eliminar o filtrar los stopwords -lo que no será considerado durante en proceso de asignación de sentimiento-, entre ellos los emojis, enlaces, preposiciones o conectores como “a”, “y”, “de”, “desde”, “por”, etc.

El objetivo es llegar a obtener la información más medular del texto para que lo analice una computadora que determina su contexto para definir la emoción.

Esta es una de las principales trabas en el proceso, pues son escasos los sistemas que realizan esta tarea, lo que se convierte en un problema que se puede resolver realizando un sistema propio y personalizado según sea el caso, pues es posible que no funcione uno desarrollado para el sector salud, versus otro específico para el sector financiero.

Ahora, una vez se cuente con esta herramienta personalizada para el amplio procesado de datos que se requiere, llegamos a uno de los pasos vitales: el entrenamiento del modelo con algoritmos.

Es ahí cuando se inicia la parte matemática o el proceso de programación de la herramienta para que realice su trabajo de la forma más precisa posible una vez esté lista.

Para ello, es necesario contar con textos que tengan el sentimiento ya asignado de previo (de forma manual) para que sea percibido por el sistema que “aprenderá” a clasificar los textos.

Entonces, una vez esté entrenado el modelo, está listo para que los tokens pasen por él y le asigne el sentimiento de acuerdo a lo programado.

Para lograr todo lo anterior de forma automatizada, es necesario construir, programar y entrenar el modelo mencionado.

En conclusión, existen modelos automáticos en el mercado que están construidos sobre el idioma inglés y muy pocos para español.

También, existen modelos generalizados disponibles en el mercado que analizan textos de múltiples compañías, instituciones y sectores, lo que puede ser impreciso y afectar los resultados.

Es por eso que, desde Nauta Marketing Digital y según la experiencia y evidencia disponible, recomendamos desarrollar un sistema exclusivo y personalizado para cada cliente que permita analizar los comentarios, publicaciones y mensajes directos de sus seguidores y clientes en sus redes sociales como Instagram, Facebook, Twitter y LinkedIn.

¡Comparta este artículo!