Modellen voor kunstmatige intelligentie (AI) blijken verrassend vloeiend Pools te spreken. Uit een nieuw onderzoek van de Universiteit van Maryland en Microsoft blijkt dat Pools van de 26 geteste talen het meest effectief bleek te zijn voor het aansturen van AI-systemen. Deze bevinding daagt de conventionele wijsheid over taalcomplexiteit en AI-trainingsgegevens uit.
Onderzoekers hebben verschillende toonaangevende AI-taalmodellen, waaronder OpenAI, Google Gemini, Qwen, Llama en DeepSeek, op de proef gesteld. Deze modellen kregen identieke taken voor alle 26 talen om te zien welke de meest nauwkeurige antwoorden opleverden. De resultaten waren opvallend: Pools presteerde consistent beter dan de anderen, met een gemiddelde nauwkeurigheid van 88%.
Bovenverwachte prestaties
Dit onverwachte resultaat is vooral opmerkelijk omdat Pools van oudsher wordt beschouwd als een van de meest uitdagende talen voor mensen om te leren. De complexe grammatica en onbekende fonemen vormen een aanzienlijke hindernis voor moedertaalsprekers van het Engels. Maar als het om AI gaat, lijkt taalcomplexiteit niet zo’n bepalende factor te zijn.
Interessant is dat Engels, vaak gezien als de dominante mondiale taal op technologisch gebied, slechts op de zesde plaats staat. Dit suggereert dat het ruwe datavolume alleen niet de enige bepalende factor is voor de taalvaardigheid van AI. Bovendien presteerde Chinees, ondanks dat er een enorme hoeveelheid online tekstgegevens beschikbaar was voor training, teleurstellend en stond bijna onderaan.
De top 10 van meest effectieve talen voor conversationele AI waren:
- Pools (88%)
- Frans (87%)
- Italiaans (86%)
- Spaans (85%)
- Russisch (84%)
- Engels (83,9%)
- Oekraïens (83,5%)
- Portugees (82%)
- Duits (81%)
- Nederlands (80%)
Wat dit betekent voor AI en taal
Dit onderzoek brengt een aantal belangrijke inzichten naar voren:
- De impact van de taalstructuur: Misschien lenen de structuur van de Poolse grammatica, of unieke fonetische kenmerken, zich beter voor bepaalde soorten AI-verwerking. Verder onderzoek is nodig om precies vast te stellen waarom Pools uitblinkt.
- Beschikbaarheid van gegevens is niet alles: Hoewel uitgebreide trainingsgegevens cruciaal zijn, garanderen deze geen topprestaties. Andere factoren zoals taalkundige complexiteit en modelarchitectuur spelen een rol.
- Een verschuiving in taalprioriteiten: De dominantie van het Engels in AI kan op de proef worden gesteld als onderzoekers andere talen met een sterk prestatiepotentieel verkennen. Dit zou kunnen leiden tot meer inclusieve en mondiaal toegankelijke AI-technologieën.
Dit onderzoek opent spannende wegen voor het verkennen van het snijvlak van taal, cognitie en kunstmatige intelligentie. Terwijl AI blijft evolueren, kan het begrijpen van welke talen zij het meest intuïtief vindt, de toekomstige ontwikkeling en impact op de communicatie wereldwijd bepalen.































