‘’Tunizi’’, le Dataset qui vous aidera à traduire le dialecte tunisien

‘’Tunizi’’, le Dataset qui vous aidera à traduire le dialecte tunisien

‘’Tunizi’’, le Dataset qui vous aidera à traduire le dialecte tunisien
Reconnaitre vocalement un mot du dialecte tunisien comme par exemple le mot ‘’3asselama’’ et le traduire facilement et correctement sur Google, en anglais ou en d’autres langues, pourraient être, désormais, possibles.

C’est l’un des objectifs du projet de ‘’dataset’’ baptisé ‘’Tunizi’’, et développé par la start-up tunisienne ‘’iCompass’’, spécialisée dans l’intelligence artificielle, et plus particulièrement dans le domaine du traitement du langage naturel (TLN).

Il s’agit d’une base de données qui comporte 9000 phrases écrites en dialecte tunisien et qui regroupe le premier grand ensemble de données d’analyse du sentiment, utilisé sur les réseaux sociaux. La finalité du projet et d’autres projets similaires en voie de développement en Afrique et dans le monde arabe est de créer des bases de données annotées et développer et soumettre des ensembles de données de tout dialecte sous-desservi et sous-représenté en vue de les utiliser dans les futures applications de NLP comme la traduction automatique, les agents conversationnels (Chatbot) ou la reconnaissance vocale.

Concrètement, ‘’iCompass’’ a procédé à la collecte de données à partir des commentaires sur le réseau social Youtube. Les vidéos choisies comprenaient des sports, de la politique, de la comédie, des émissions de télévision, des séries télévisées, des arts et des vidéos musicales tunisiennes de sorte que l’ensemble de données soit représentatif et contienne différents types d’âge, de formation, d’écriture, etc.

Selon Ahmed Nouisser, Co-fondateur et CEO d’iCompass, ‘’le principe général est d’offrir à l’écosystème tunisien, maghrébin et africain plus de datas annotés, appelés ‘’datasets’’, pour les exploiter dans le développement des recherches (sociales, scientifiques, humaines et autres…)’’.

La start-up tunisienne œuvre, à cet effet, à développer ‘’Tunizi’’ pour le rendre un très large Dataset annoté et le mettre à la disposition des chercheurs, des universités et d’autres structures d’analyses à travers les systèmes informatiques et l’intelligence artificielle, a encore indiqué Ahmed Nouisser.