Actualité PC
nvidia logo

NVIDIA explique les modèles de fondation IA (ChatGPT, Stable, ChatRTX)

par
Source: NVIDIA

Le constructeur continue de décoder l'intelligence artificielle, il revient aujourd'hui aux bases de l'IA générative.

NVIDIA continue de détailler les évolutions de l'intelligence artificielle, très présente dans ses cartes graphiques et ses technologies, comme le DLSS. Après un long article sur l'Avatar Cloud Engine (ACE), le constructeur revient cette semaine sur les modèles de fondation, des réseaux neuronaux entraînés sur des volumes de données, la base même de l'IA générative.

NVIDIA IA Décodée 10 04 24

Sans plus attendre, voici la présentation des modèles de fondation par NVIDIA :

Les gratte-ciels reposent sur des fondations solides. Il en va de même pour les applications alimentées par l'IA.

Un modèle de fondation est un réseau neuronal d'IA formé sur d'immenses quantités de données brutes, généralement avec un apprentissage non supervisé.

Il s'agit d'un type de modèle d'intelligence artificielle formé pour comprendre et générer un langage semblable à celui des humains. Imaginez que vous donniez à un ordinateur une énorme bibliothèque de livres à lire et à apprendre, afin qu'il puisse comprendre le contexte et le sens des mots et des phrases, comme le fait un être humain.

La base de connaissances approfondie d'un modèle de base et sa capacité à communiquer en langage naturel le rendent utile pour un large éventail d'applications, notamment la génération et le résumé de textes, la production de copilotes et l'analyse de codes informatiques, la création d'images et de vidéos, ainsi que la transcription audio et la synthèse vocale.

ChatGPT, l'une des applications les plus remarquables de l'IA générative, est un chatbot construit avec le modèle de base GPT d'OpenAI. Aujourd'hui dans sa quatrième version, GPT-4 est un grand modèle multimodal qui peut ingérer du texte ou des images et générer des réponses sous forme de texte ou d'image.

Les applications en ligne construites sur des modèles de base accèdent généralement aux modèles à partir d'un centre de données. Mais nombre de ces modèles, et les applications qu'ils alimentent, peuvent désormais tourner localement sur des PC et des stations de travail équipés de GPU NVIDIA GeForce et NVIDIA RTX.

Utilisation des modèles de fondation

Les modèles de fondation peuvent remplir diverses fonctions, notamment :

  • Le traitement du langage : comprendre et générer du texte.
  • Génération de code : analyse et débogage de code informatique dans de nombreux langages de programmation.
  • Le traitement visuel : analyser et générer des images.
  • La parole : générer du texte à la parole et transcrire de la parole au texte.

Ils peuvent être utilisés tels quels ou avec un raffinement supplémentaire. Plutôt que d'entraîner un modèle d'IA entièrement nouveau pour chaque application d'IA générative - une entreprise coûteuse et chronophage - les utilisateurs affinent couramment les modèles de base pour des cas d'utilisation spécialisés.

Les modèles de base pré-entraînés sont remarquablement performants, grâce à des messages-guides et à des techniques d'extraction de données telles que la génération augmentée par extraction ou RAG (retrieval-augmented generation). Les modèles de base excellent également dans l'apprentissage par transfert, ce qui signifie qu'ils peuvent être entraînés à effectuer une seconde tâche liée à leur objectif initial.

Par exemple, un grand modèle de langage (LLM) à usage général conçu pour converser avec des humains peut être entraîné à agir comme un chatbot de service à la clientèle capable de répondre à des demandes en utilisant une base de connaissances de l'entreprise.

Les entreprises de tous les secteurs affinent les modèles de base afin d'obtenir les meilleures performances de leurs applications d'IA.

Types de modèles de fondation

Plus de 100 modèles de fondations sont utilisés, et ce nombre ne cesse de croître. Les LLM et les générateurs d'images sont les deux types de modèles de base les plus populaires. La plupart d'entre eux peuvent être essayés gratuitement - sur n'importe quel matériel - dans le catalogue d'API de NVIDIA.

Les LLM sont des modèles qui comprennent le langage naturel et peuvent répondre à des requêtes. Gemma de Google en est un exemple ; il excelle dans la compréhension de texte, la transformation et la génération de code. Interrogé sur l'astronome Cornelius Gemma, il a indiqué que ses « contributions à la navigation céleste et à l'astronomie ont eu un impact significatif sur le progrès scientifique ». Il a également fourni des informations sur ses principales réalisations, son héritage et d'autres faits.

En étendant la collaboration des modèles Gemma, accélérés par NVIDIA TensorRT-LLM sur les GPU RTX, CodeGemma de Google apporte à la communauté des capacités de codage puissantes mais légères. Les modèles CodeGemma sont disponibles en tant que variantes 7B et 2B pré-entraînées, spécialisées dans les tâches de complétion et de génération de code.

Mistral LLM de MistralAI peut suivre des instructions, répondre à des demandes et générer des textes créatifs. Invité à utiliser une variante du mot-clé de la série, décodé, il a contribué au brainstorming du titre de ce blog et du texte expliquant ce qu'est un modèle de fondation.

Le Llama 2 de Meta est un LLM de pointe qui génère du texte et du code en réponse à des invites.

Mistral et Llama 2 sont disponibles dans la démo technique NVIDIA ChatRTX, fonctionnant sur les PC et stations de travail RTX. ChatRTX permet aux utilisateurs de personnaliser ces modèles de fondation en les connectant à du contenu personnel (documents, notes de médecin et d’autres données) par le biais de RAG. Il est accéléré par TensorRT-LLM pour des réponses rapides et contextuelles. Et comme il fonctionne localement, les résultats sont rapides et sécurisés.

Les générateurs d'images tels que Stable Diffusion XL et SDXL Turbo de StabilityAI permettent aux utilisateurs de générer des images et des visuels étonnants et réalistes. Le générateur vidéo de StabilityAI, Stable Video Diffusion, utilise un modèle de diffusion génératif pour synthétiser des séquences vidéo avec une seule image comme cadre de conditionnement.

Les modèles de fondation multimodaux peuvent traiter simultanément plus d'un type de données - comme du texte et des images - pour générer des résultats plus sophistiqués.

Un modèle multimodal qui fonctionne à la fois avec du texte et des images pourrait permettre aux utilisateurs de télécharger une image et de poser des questions à son sujet. Ces types de modèles trouvent rapidement leur place dans des applications réelles telles que le service à la clientèle, où ils peuvent servir de versions plus rapides et plus conviviales des manuels traditionnels.

Kosmos 2 est le modèle multimodal révolutionnaire de Microsoft conçu pour comprendre et raisonner sur les éléments visuels des images.

Pensez globalement, exécutez les modèles d'IA localement

Les GPU GeForce RTX et NVIDIA RTX peuvent exécuter des modèles de fondation localement.

Les résultats sont rapides et sûrs. Plutôt que de s'appuyer sur des services basés sur le cloud, les utilisateurs peuvent exploiter des applications telles que ChatRTX pour traiter des données sensibles sur leur PC local sans partager les données avec un tiers ni avoir besoin d'une connexion Internet.

Les utilisateurs peuvent choisir parmi un catalogue en pleine expansion de modèles de fondations ouvertes à télécharger et à exécuter sur leur propre matériel. Cela permet de réduire les coûts par rapport à l'utilisation d'applications et d'API basées sur le cloud, et d'éliminer les problèmes de latence et de connectivité réseau.

Vous pouvez retrouver des cartes graphiques NVIDIA GeForce RTX sur Amazon, Cdiscount et la Fnac.

redacteur vignetteClint008
Rédacteur - Testeur

Commenter 0 commentaire

Soyez le premier à commenter ce contenu !