Nl

TECH

Textgain surveille vos propos

Jeudi 31 Octobre 2024

Textgain surveille vos propos

Dans la catégorie "for good", l'intelligence artificielle peut également servir de nobles causes, sans visée commerciale immédiate. Comme l’amélioration du monde en identifiant les propos haineux en ligne afin d’en neutraliser l’impact pernicieux, par exemple. C’est le purpose de Textgain, une spin-off de l’université d’Anvers qui a fait de la lutte contre ce type de propos et la désinformation son cheval de bataille.

Son cofondateur, Guy De Pauw, a travaillé pendant plus de 20 ans comme chercheur à l’université dans le domaine du traitement du langage naturel ou linguistique informatique, c’est-à-dire la capacité des programmes informatiques à comprendre le langage humain parlé et écrit - une science qui joue un rôle fondamental dans l’amélioration constante des performances des chatbots qui font aujourd’hui fureur.

« L’avantage de travailler à l’université, c’est que vous avez toute liberté de tester les choses. Mais le revers de la médaille, c’est qu’une grande partie du travail est basée sur des projets et que les résultats finissent au fond d’un tiroir lorsque le projet est terminé », déplore Guy De Pauw.

Une saine discussion

Pour mettre en pratique son bagage académique, il a créé sa propre entreprise, Textgain, fin 2015. « Grâce à notre technologie, nous voulions déduire du style d’écriture des gens des caractéristiques démographiques et des traits de personnalité. Nous pensions que ce type de technologie, combinée au scraping des médias sociaux, nous permettrait d’extraire des informations intéressantes des médias sociaux pour générer des insights marketing. »

Après les attentats de 2016, Textgain a décidé d’appliquer cette technologie pour l’identification de la propagande djihadiste sur les réseaux sociaux, suivie plus tard par d’autres formes de racisme et de sexisme. Aujourd’hui, Textgain coordonne par exemple l’Observatoire européen de la haine en ligne, une initiative de l’Union européenne qui vise à rendre le monde digital plus sûr pour tous.

« Notre technologie fonctionne sur base du machine learning à partir d’un échantillon de documents dits "toxiques" d’une part, et de documents "sûrs" de l’autre. L’IA analyse les schémas linguistiques et en tire des enseignements. L’analyse est effectuée par la machine elle-même, ce qui permet de passer facilement d’une forme d’extrémisme à une autre. »

Pour réduire le risque de faux positifs et de faux négatifs, Textgain travaille avec plus de 50 analystes européens, chacun avec son propre bagage culturel et dans sa langue maternelle, qui aident à maintenir le modèle up-to-date. « Le langage est en effet une donnée vivante qui évolue constamment », rappelle Guy De Pauw.

Outre ses projets pour les autorités publiques, l’entreprise anversoise propose également des outils plus commerciaux comme Rhetoric. « Il est notamment utilisé par les journaux de Mediahuis. Il s’agit d’un programme qui peut servir aux entreprises médias à mener des discussions saines en ligne. L’outil détecte les propos toxiques au moment où les internautes tapent leur commentaire et les avertit s’ils dépassent les bornes, en leur suggérant d’utiliser d’autres termes pour s’exprimer. Ce genre de petits "nudges" (des choix alternatifs positifs pour donner un petit coup de semonce à l’utilisateur, ndlr.) ont un effet positif sur la discussion qui s’ensuit. Beaucoup de gens réagissent volontiers aux actualités mais en ont assez des querelles sur les médias sociaux, et Rhetoric peut changer la donne. »

Par ailleurs, la technologie utilisée par l’outil peut tout aussi bien servir à extraire des connaissances de documents dans le cadre d’une analyse des tendances ou d’un profilage des utilisateurs.

Échelle

Textgain souhaitant obtenir des informations encore plus nombreuses et à plus grande échelle sur l’utilisation de propos toxiques, la spin-off est en train de construire son propre modèle de langage à grande échelle. Guy De Pauw : « Les LLM existants tels que Gemini (Google), Orca (Microsoft), Llama (Meta), Claude (Anthropic) et bien sûr GPT (OpenAI) ne permettent pas l’utilisation de termes toxiques. C’est pourquoi nous travaillons actuellement sur CaLICO, notre propre modèle, afin de pouvoir, à terme, analyser plus en profondeur, notamment aussi afin de cartographier les thématiques, par exemple. »

Le scientifique ajoute qu’il existe d’ailleurs une différence entre les formes illégales de discours haineux et la liberté d’expression : « L’incitation à la violence contre tel ou tel groupe de population n’est pas la même chose qu’affirmer le détester. La première chose est interdite et doit être censurée, l’autre est déplorable mais ressort de la liberté d’expression et permet de mieux comprendre ce qui vit parmi la population. C’est d’une valeur considérable pour les organisations et institutions d’utilité publique. »

Et par extension pour les médias et les annonceurs, bien sûr.

Archive / TECH