Fr

TECH

Textgain let op je woorden

Donderdag 31 Oktober 2024

Textgain let op je woorden

Neen, AI dient niet alleen om data te analyseren met de bedoeling winst te genereren. In de categorie ‘for good’ kan kunstmatige intelligentie ook nobele doelen zonder instant commercieel oogmerk dienen. De wereld verbeteren door online haatspraak te identificeren om de nefaste impact te neutraliseren bijvoorbeeld. Dat is de ‘purpose’ van Textgain, een spin-off van de universiteit van Antwerpen die van de strijd tegen haatspraak en desinformatie zijn stokpaardje heeft gemaakt.

Medeoprichter Guy De Pauw werkte gedurende meer dan twintig jaar als onderzoeker aan de universiteit binnen het domein van natural language processing of computerlinguïstiek, waarmee verwezen wordt naar het vermogen van computerprogramma’s om gesproken en geschreven menselijke taal te begrijpen, een wetenschap die een fundamentele rol speelt in de almaar verbeterende prestaties van de chatbots die nu furore maken. “Het leuke aan werken aan de universiteit is dat je heel veel ruimte krijgt om dingen uit te testen, het probleem is daarentegen dat veel van het werk project gebaseerd is en dat dus veel resultaten in een ladeverdwijnen als het project er opzit”, aldus De Pauw die onder andere taal- en letterkunde studeerde.

Gezonde discussie

Om zijn academische bagage in de praktijk te brengen stampte hij eind 2015 met Textgain z’n eigen bedrijf uit de grond. “Met onze technologie wilden we demografische kenmerken en persoonlijkheidskenmerken afleiden uit de schrijfstijl van mensen. We dachten dat dit soort technologie in combinatie met social media scraping ons in staat zou stellen interessante inzichten uit sociale media te distilleren om marketinginzichten aan te sturen.”

Na de aanslagen van 2016 besloot Textgain deze technologie toe te passen op het herkennen van jihadistische propaganda op sociale media, later ook gevolgd door andere vormen van extreem taalgebruik, zoals racisme en seksisme. Zo is Textgain vandaag de coordinator van het European Observatory of Online Hate, een initiatief van de Europese Unie dat de digitale wereld veiliger wil maken voor iedereen.

“Onze technologie werkt op basis van machine learning op basis van een staal ‘toxische documenten’ aan de ene kant en ‘veilige documenten’ aan de andere. AI analyseert linguïstische patronen en trekt daar lessen uit”, aldus de CEO. “De analyse gebeurt door de machine zelf, waardoor je makkelijk kunt schakelen tussen verschillende vormen van extremisme.”

Om het risico op valse positieven en negatieven te beperken werkt Textgain samen met meer dan 50 analisten over heel Europa, moedertaalsprekers die elk hun eigen culturele achtergrond hebben en die helpen om het model up-to-date te houden. “Taal is immers een levend gegeven dat voortdurend evolueert”, aldus De Pauw.

Naast overheidsprojecten biedt het bedrijf uit Antwerpen ook commerciëlere tools als Rhetoric. “De Mediahuis-kranten maken er onder andere gebruik van”, aldus De Pauw. “Het is een programma dat mediabedrijven kunnen gebruiken om online gezonde discussies op gang te brengen. De tool detecteert toxisch taalgebruik terwijl internauten bezig zijn een reactie te typen en zal aangeven als die over de schreef gaat, met de suggestie om de woordkeuze aan te passen. Dat soort kleine ‘nudges’ (positieve keuzealternatieven om de gebruiker ‘een zetje te geven, nvdr) hebben een positief effect op de discussie die ontstaat. Heel wat mensen reageren graag op nieuws, maar zijn geruzie op sociale media beu en Rhetoric kan daar iets aan doen.”
De technologie waarvan de tool gebruikmaakt, kan overigens net zo goed dienen om kennis te distilleren uit documenten in het kader van trendanalyse of gebruikersprofilering.

Schaal

Omdat Textgain graag nog meer en op grotere schaal inzichten zou willen verwerven over toxisch taalgebruik, bouwt de spin-off nu zijn eigen large language model. “De bestaande LLM zoals Gemini (Google), Orca (Microsoft), Llama (Meta), Claude (Anthropic) en natuurlijk GPT (OpenAI) laten geen toxisch taalgebruik toe”, aldus De Pauw nog. “Daarom werken we nu aan CaLICO, ons eigen model zodat we diepere analyses kunnen maken en nauwkeuriger in kaart kunnen brengen over welke thema’s mensen boos zijn in hun online uitspraken.”

Er is overigens een verschil tussen illegale vormen van haatspraak en vrije meningsuiting, geeft de wetenschapper nog mee. “Aanzetten tot geweld tegen deze of gene bevolkingsgroep is niet hetzelfde als beweren dat je er een hekel aan hebt. Het eerste is verboden en moet worden geweerd, het andere is betreurenswaardig, maar valt onder de vrije meningsuiting. Maar weten wat er leeft bij de bevolking is van onschatbare waarde voor beleidsmakers en middenveldorganisaties.”

En bij uitbreiding voor media en adverteerders natuurlijk.

Archief / TECH