IA para la detección de contenido nocivo en redes sociales
Desarrollan proyectos para detectar violencia y sexismo
Contenido violento, sexual, falso, discriminatorio, que incita al odio, que atenta contra la integridad de la niñez y, en general, que incumple las políticas de las plataformas de redes sociales, es distribuido diariamente y expuesto ante comunidades digitales cada vez más jóvenes. Ejemplo crítico de este problema ha sido la transmisión en vivo de ataques armados ocurridos en Estados Unidos, de los que expertos no solamente advierten sobre las consecuencias de difundir este tipo de imágenes sino también del incentivo que representa para algunos homicidas el disponer de un medio para difundir sus actos. Aunque plataformas como Instagram y Facebook, pertenecientes a Meta, ya hacen uso de la Inteligencia Artificial (IA) para detectar de forma automática contenidos que incumplen con su normatividad, sigue siendo indispensable la intervención humana para clasificarlos con la precisión necesaria. Para contribuir al desarrollo de tecnologías de detección automática de mayor precisión, un grupo de investigación del Departamento de Ciencias de la Computación del CICESE trabaja en el diseño de algoritmos para detectar violencia y sexismo en redes sociales a partir del análisis de textos e imágenes. Detección y clasificación de eventos violentos Ejemplos de eventos violentos difundidos en redes sociales. El Dr. Irvin Hussein López Nava, investigador por México adscrito al CICESE, expuso que actualmente no existen herramientas para detectar contenidos violentos en tiempo real en redes sociales, sino que se detectan ya que fueron publicados. En ocasiones pasan horas antes de que el contenido nocivo se elimine. Ante esta necesidad e incentivado por el evento IberLEF, una campaña de evaluación de sistemas de Procesamiento de Lenguaje Natural que se organiza a partir de tareas específicas, Esteban Ponce León, egresado de la maestría en Ciencias de la Computación del CICESE, participó en la competencia DA-VINCIS durante su etapa como estudiante del posgrado. La competencia se dividió en dos tareas. La primera consistió en diseñar algoritmos para detectar eventos violentos por medio del análisis de textos de redes sociales, y en la segunda tarea los algoritmos debían ser capaces de clasificar el tipo de violencia detectada (robo, secuestro, etc.). En la primera tarea Esteban obtuvo el segundo lugar y en la segunda obtuvo el primer lugar, resultados que se reflejan en su tesis de maestría titulada “Detección de eventos violentos en publicaciones de redes sociales”, codirigida por Hussein López. El objetivo de la investigación de Esteban fue diseñar un método para clasificar publicaciones de eventos violentos en la plataforma X, antes Twitter, combinando texto e imágenes y aplicando técnicas de aumento de datos. “Combinar texto y el contexto visual de las imágenes puede mejorar la interpretación de la semántica”, indica en su tesis el ahora egresado del CICESE, ya que uno de los principales retos de la detección de eventos violentos es precisamente la interpretación. Sobre este desafío, Hussein López explicó que en los métodos de detección usando lenguaje natural y aprendizaje de máquina intervienen aspectos subjetivos en el uso del idioma que pueden confundir al algoritmo. “Por ejemplo, alguien puede decir ‘este partido de fútbol fue un robo total’, y si se programó un algoritmo para identificar la palabra ‘robo’ la va a detectar como evento violento cuando no es así, entonces importa mucho el contexto”, comentó. Para sortear este reto, agregó Hussein, se usan modelos de aprendizaje profundo que, alimentados con un gran volumen de datos, llegan a ser capaces de analizar el contexto de las palabras y ser más precisos al clasificar. Sin embargo, aquí aparece otro de los desafíos: la escasez de datos. Por ello Esteban Ponce recurrió en su investigación a la técnica de aumento de datos, que consiste en utilizar modelos como ChatGPT para generar, de forma artificial, nuevos datos que entrenen a los algoritmos para cumplir con una tarea determinada. Mientras que en el CICESE se cubre lo relacionado con aprendizaje automático, desde el Instituto Nacional de Astrofísica Óptica y Electrónica (INAOE), el Dr. Manuel Montes y Gómez, aporta en el campo del procesamiento de lenguaje natural. Combinando estas dos técnicas es como el grupo emprendió, después del proyecto de Esteban Ponce, un nuevo proyecto que pone a prueba los hallazgos conseguidos. Enseñarle a una máquina qué es sexismo La Real Academia Española define el sexismo como la “discriminación de las personas por razón de sexo”. Un concepto de definición breve y sencilla que pierde estos atributos cuando tratamos de detectarlo en casos prácticos. “Si las personas no podemos llegar a un acuerdo de qué es y qué no es sexismo, mucho menos una máquina”, apuntó Hussein López, que actualmente codirige la tesis de Martha Paola Jiménez Martínez, estudiante de maestría del CICESE, enfocada en la detección automática de sexismo en redes sociales. Este trabajo también es codirigido por el Dr. Manuel Montes. Para este proyecto el equipo también participó en una competencia internacional, denominada EXIST, que se centra en identificar y clasificar sexismo en texto e imágenes de publicaciones de la plataforma X, y obtuvieron el primer lugar en la categoría de memes. El equipo también incluyó a Joan Raygoza y Carlos Sánchez, con Joan como egresado del posgrado en Ciencias de la Computación del CICESE. Una diferencia de la investigación para la detección de violencia, es que Martha Paola diseña modelos de detección que cumplan con la tarea asignada pero al mismo tiempo ayuden comprender cómo se llegó al resultado. A esto se le conoce como modelos explicativos. Antes de automatizar la detección de sexismo en textos de publicaciones de Twitter, Martha Paola está estudiando las subjetividades que existen alrededor de este concepto y cómo varía de acuerdo a la edad y el género de los usuarios. Hussein López considera que este reto se puede sortear si se cuenta con un volumen significativo de ejemplos para entrenar a la máquina y agregando el análisis del contexto en el que se está diciendo. Ejemplos de textos y memes sexistas y no sexistas. El camino hacia la detección automatizada Tras las experiencias obtenidas con los proyectos de Esteban Ponce y Martha Paola Jiménez, el grupo emprendió un tercer estudio que tiene como objetivo identificar ansiedad y depresión, también a partir de textos de redes sociales. El estudio, que aplica las mismas técnicas de procesamiento de lenguaje natural y aprendizaje automático que los proyectos de tesis, evidenció una conexión significativa entre la ansiedad y depresión y quienes manifiestan en redes sociales que padecen desórdenes del sueño. “Entonces cuando empiezan a mencionar muchas palabras relacionadas con dormir, ahí es un indicio o un marcador que está muy relacionado con la prevalencia de estos problemas”, refirió Hussein López. Aun con los avances logrados en los tres temas, el investigador reconoció que todavía falta camino por recorrer para lograr una detección completamente automatizada, pero competencias como DA-VINCIS y EXIST buscan dar un impulso en el desarrollo de estas tecnologías. “Se están dando pasos importantes. Lo relevante es que hay mucho interés de grupos de investigación en seguir trabajando en el área, incluso de estudiantes que se meten a este tipo de proyectos, y mientras exista este interés se irá avanzando poco a poco”, auguró. |