Tout savoir sur Gemini, l’intelligence artificielle générative de Google

29 février 2024

Un schéma montre le fonctionnement de l'intelligence artificielle Deepmind de Google.

Si l'apparition de ChatGPT en novembre 2022 a pris de court les géants américains à l’exception de Microsoft (investisseur historique d’Open AI), ce n'était qu'une question de temps avant que Google ne réagisse et lance à son tour sa propre intelligence artificielle générative baptisée Gemini.

Développée par la filiale DeepMind de Google, la vidéo de présentation de Gemini a impressionné et suscité de nombreuses réactions à sa sortie. Présentée comme une intelligence artificielle avancée à l’instar de celle de Jarvis de Tony Stark du film Avengers, Google rétropédalera quelques jours plus tard expliquant que les capacités n'étaient pas encore aussi poussées.

S'agit-t-il d'un effet d'annonce trop ambitieux ? Pas exactement car l'entreprise américaine compte bien marquer sa différence par rapport à ChatGPT en proposant une IA multimodale plus avancée que les technologies actuelles.
Mais qu'est-ce que Gemini exactement ? En quoi se différencie-t-elle de ChatGPT ? Quelles sont ses principales fonctionnalités ? Décryptage.

Gemini : de quoi parle-t-on ?

Annoncée en juin 2023 lors de la conférence I/O destinée au développeur puis lancée officiellement le 7 décembre de la même année, Gemini pour Generalized Multimodal Intelligence Network est la nouvelle intelligence générative développée par Google en réponse au succès fulgurant survenu un an plus tôt du désormais célèbre ChatGPT.

Entraînée sur les Tensor Processing Unit de Google, cette nouvelle intelligence artificielle est capable de comprendre et d'interagir avec du contenu vidéo et audio tout en étant capable de générer du texte, des lignes de code et des traductions dans plus de 100 langues.

Pour utiliser Gemini, Google a introduit deux nouvelles offres. La première remplace “Bard”, l'ancienne intelligence artificielle qui sera désormais connue sous le nom de Gemini, utilisant le modèle Pro 1.0, le rendant disponible dans 230 pays et 40 langues, y compris le français. Google propose également une version payante avec Gemini Advanced, actuellement disponible dans 170 pays et uniquement en anglais. À l'heure de la rédaction de cet article, Gemini Advanced n'est pas encore disponible en France.

Une intelligence artificielle générative qui intègre des capacités multimodale supérieures

Le pari est réussi pour Google puisque Gemini semble surpasser le modèle GPT-4 dans de nombreux domaines. Sur la compréhension linguistique multitâche massive (MMLU), un test couvrant 57 sujets incluant les mathématiques, la physique, l'histoire, le droit, la médecine et l'éthique, Gemini obtient un score de 90% là où son concurrent n’atteint “que” 86,4%.

Une autre victoire pour Google concerne le MMMU (Massive Multi-discipline Multimodal Understanding), un benchmark conçu pour évaluer les modèles multimodaux sur des tâches massives multidisciplinaires exigeant une connaissance de niveau collégial et un raisonnement délibéré où il obtient un score de 59,4 %. Sur ce même test, GPT-4 n'obtient ici que 56,8%.

Si les résultats de Google semblent supérieurs, ils restent tout de même proches de ceux d'Open AI. L'avancée est moins spectaculaire qu’attendue. Comme son concurrent ChatGPT, Gemini peut analyser des données et répondre aux questions de manière informative. Elle se démarque cependant ici dans sa gestion multimodale. Le Multimodal Learning est une approche du Machine Learning qui utilise plusieurs sources de données telles que le texte, l'image et l'audio simultanément pour résoudre des tâches complexes, ouvrant ainsi de nouvelles possibilités dans le domaine de l'IA.

Les capacités multimodales de Gemini sont encore à leurs balbutiements et sont loin d'être aussi fluides et rapides qu'illustrées dans sa vidéo de présentation. Google a d'ailleurs réagi en publiant les coulisses de l'expérimentation sur le blog de l'entreprise, en expliquant que la vidéo avait été raccourcie par souci de concision. Comme le rappelle Oriol Vinyals, Research Scientist chez Google DeepMind : « La vidéo illustre à quoi pourraient ressembler les expériences utilisateurs multimodales créées avec Gemini. Nous l'avons créée pour inspirer les développeurs. »

Une compréhension avancée des langages de programmation

À l’ère de l’émergence de solutions d’aide au développement, Gemini intègre une compréhension avancée des langages de programmation tels que Java, C++, Go, Python, qui s’avère très utile dans la recherche de failles de sécurité ou d'erreurs humaines de développement pouvant générer des bugs. Ici encore, Gemini affiche de bonnes performances aux tests tels que Natural2Code et HumanEval, utilisés pour la génération de code Python, à travers lesquels elle dépasse de 7 points les performances de Chat-GPT.

Autre avancée notable, Gemini se distingue dans la résolution de problèmes avec le modèle AlphaCode2, avec lequel elle a résolu 1,7 fois plus de problèmes et a surpassé 85 % des participants à la compétition.

Avec Gemini, les ambitions de Google sont claires : proposer une IA clé en main pour les développeurs afin de les soutenir dans leurs efforts de conception et de création. L'objectif est de proposer un outil pour aider les développeurs à résoudre les problèmes, à concevoir du code et à le mettre en œuvre plus efficacement et ainsi accélérer le développement d'applications de qualité. Une intention louable qui devrait renforcer la résilience des applications face aux cyberattaques.

Une intelligence artificielle qui se veut sécurisée et éthique

Le développement des intelligences artificielles génératives soulève des préoccupations concernant la confidentialité des données et la cybersécurité.

À ce titre, l'incident qui a touché OpenAI en mars 2023 provoquant une fuite de données due à un bug dans une librairie open source est révélateur. Si les conséquences ont été relativement mineures selon les dires de l'entreprise, la nécessité de sécuriser les informations personnelles est une question légitime pour des IA génératives accessibles au grand public. Dans cette optique, Google collabore avec des entreprises telles que MLCommons pour développer des benchmarks étendus visant à tester la fiabilité et la sécurité des modèles d'IA générative.

En parallèle, Google développe son propre standard intitulé SAIF (Secure AI Framework), qui vise à établir des normes de sécurité dans le développement et le déploiement des technologies d'intelligence artificielle. En s'appuyant sur un ensemble de pratiques de cybersécurité et en intégrant une compréhension des tendances et risques de sécurité spécifiques aux systèmes d'IA, SAIF vise à durcir la posture de sécurité des modèles de la phase de conception jusqu’à l’étape de déploiement. Il comprend six éléments clés, tels que l'extension des fondations de sécurité et l'automatisation des défenses.

L'essentiel

L'avènement de Gemini marque une avancée dans le domaine de l'intelligence artificielle. Avec ses capacités multimodales et sa compréhension avancée des langages de programmation, Gemini promet de repousser les limites de ce que peut accomplir une IA.

Bien que les capacités multimodales n'en soient qu'à leurs débuts, l'objectif de Google est de continuer à développer et à affiner Gemini pour offrir une expérience utilisateur optimale. À la différence d’Open AI, la collaboration avec des entreprises spécialisées et le souhait de développer des frameworks tels que SAIF démontrent l'engagement de Google envers la sécurité et l'éthique dans le développement de l'IA générative.