Le petit Molière des petits modèles d’IA générative

Pain au chocolat ou chocolatine ? Jonathan Pacifico a tranché sans hésiter. En septembre dernier, il a présenté son petit modèle d’IA générative open source. Son nom : Chocolatine ! Un nom français (et pas french !), facile, chaleureux ; pour un modèle pensé pour améliorer les performances de l’IA dans la langue de Molière. Portrait de son créateur aixois. 

Sa modestie dût-elle en souffrir, Jonathan Pacifico a tout d’un petit Molière du 21e siècle. À la scène, il préfère toutefois les écrans. À l’arrivée des petits modèles open source, il a constaté qu’ils n’excellaient pas encore en français, ce qui l’a poussé à créer le sien. Depuis 2024, le voilà embarqué dans l’aventure « Chocolatine », un modèle spécialement optimisé pour le français, avec l’objectif de pallier les lacunes des IA actuelles dans cette langue.  

Notre data scientist n’en est pas à son coup d’essai. Son premier modèle, « French Alpaca », lui a ouvert des portes dans la communauté tech. Cependant, c’est avec Chocolatine qu’il a pris son envol. On peut être convaincu que les petits modèles Phi-3 sont aujourd’hui très performants en français, avoir réussi à améliorer leurs capacités avec Chocolatine, obtenir une reconnaissance internationale pour son travail, et susciter l’intérêt de l’administration pour un déploiement dans les services publics, etc., et rester humble. La tête sur les épaules. 

Quand on demande au père de Chocolatine ce qui distingue son projet des autres, il répond simplement : la passion. Une passion qui remonte à ses neuf ans, lorsqu’il codait déjà sur son Amstrad 6128. Autant dire qu’il a toujours été féru de tech. Pourtant, rien ne le destinait à une carrière dans la tech. N’étant ni “matheux » ni scientifique, il s’est d’abord lancé dans des études de droit, puis a travaillé à la CAF. La programmation était alors reléguée aux soirées et week-ends. 

En 2017/2018, il quitte ses fonctions de manager à la CAF et clôt, dans le même temps, un projet de startup (un réseau social autour du shopping) qui, malgré un succès prometteur, a dû être abandonné en raison des coûts de gestion. C’est également à cette période qu’il devient père, une période intense, comme il le confie aujourd’hui. 

En 2018, grâce à un article de presse, il découvre l’école IA Microsoft by Simplon, un tournant dans sa carrière. : « Je me suis rendu compte que je n’étais pas si nul en maths… et que j’étais un geek refoulé », plaisante-t-il. Il entame alors une reconversion professionnelle et débute une alternance chez Azeo, dans l’équipe innovation. Une fois son diplôme de Développeur IA en poche, il poursuit son parcours chez Azeo, plus tard rachetée par Avanade, où il acquière une solide expérience pendant trois ans avant de rejoindre Cellenza. 

Désormais data scientist, notre aixois Jonathan travaille sur des projets variés en data engineering, data analyse, tout en affinant son expertise en machine learning et en intelligence artificielle, s’adaptant constamment à l’évolution rapide du domaine. 

Il confie qu’en 2019, le terme « data scientist » était encore très généraliste, tout comme sa formation au sein des écoles IA Microsoft by Simplon. Cependant, il estime que la méthode pédagogique de Simplon, axée sur le « learning by doing », a été plus que bénéfique : les 2/3 du temps sont consacrés à travailler sur des projets concrets. Il a notamment participé au projet « Plastic Origins » de l’association Surfrider Europe, un modèle de détection de déchets plastiques, grâce à Share AI, un programme Microsoft de mécénat de compétences qui met l’IA au service des entrepreneurs sociaux et des startups à impact. 

Mais son actualité, vous l’aurez compris, c’est Chocolatine. Présentée officiellement sur LinkedIn, à la rentrée, ce modèle d’IA générative open source, doté de 3 milliards de paramètres, se base sur le modèle Phi-3.5-mini-instruct de Microsoft et a été affiné pour exceller dans les tâches complexes en français. Son grand frère, Chocolatine 14B (14 milliards de paramètres), est basé quant à lui sur Phi-3-medium. Grâce à une optimisation minutieuse et des méthodes d’entraînement avancées, Chocolatine s’est classé en août numéro 1 dans plusieurs catégories du Leaderboard OpenLLM de Hugging Face. 

Ce succès repose en grande partie sur les méthodes et les données utilisées. Jonathan a choisi le dataset Intel Orca-DPO-Pairs, traduit en français, et a fait corriger cette traduction par le modèle Mistral-Large de Mistral AI. Cette attention aux détails a permis d’améliorer la qualité et la pertinence des réponses générées. 

Aujourd’hui, Jonathan n’a qu’une envie : partager Chocolatine, recueillir des retours et surtout voir son modèle être mis en œuvre dans divers scénarios au service des français. « Le chemin est long du projet à la chose », aurait commenté Molière. Longue vie à Chocolatine !