Création d'un humain numérique IA : comment capter l'attention d'un client

La solution Supermicro Construit en 2 semaines pour l'événement NRF Big Show 2025

Supermicro L'humain numérique de [Nom de l'entreprise] au NRF Big Show, janvier 2025

Alors que nous préparions notre Supermicro Pour la conception et le contenu de notre stand au salon NRF Big Show de janvier 2025, nous souhaitions présenter une démonstration d'un humain numérique capable d'interpréter les questions des visiteurs et d'y répondre de manière détaillée. Il était essentiel que cette démonstration soit hébergée localement afin de garantir une conversation fluide entre un humain et l'humain numérique, avec un temps de latence normal (50 à 100 ms), comparable à celui d'une interaction humaine.

Cet article revient sur les raisons qui nous ont poussés à choisir de présenter un humain numérique, les défis que nous avons rencontrés et surmontés en seulement deux semaines, ainsi que sur l'accueil que nous avons reçu des personnes qui ont interagi avec notre humain numérique.

L'histoire que nous voulions raconter

Compte tenu de notre décision de présenter une application d'humain numérique au NRF Big Show, nous souhaitions choisir un cas d'usage percutant dans le contexte du commerce de détail. Nous voulions également un exemple concret illustrant la valeur intrinsèque d'un humain numérique. Le cas d'usage choisi était celui d'un humain numérique répondant à des questions en langage naturel sur les plats proposés dans un restaurant.

Bien que ce cas d'utilisation puisse paraître simple, il nous a permis de raconter une histoire à trois publics différents susceptibles de visiter notre stand. Ces publics peuvent être décrits comme suit :

Un gérant/propriétaire de restaurant. Notre objectif est de lui présenter une application facile à déployer et à forte valeur ajoutée pour son établissement. Une expérience utilisateur positive, grâce à un assistant virtuel, simplifierait la mise à jour des informations des employés concernant les modifications apportées à la carte. Ce gérant/propriétaire sait que le roulement du personnel est coûteux ; il est donc essentiel de lui démontrer qu'un assistant virtuel peut enrichir l'expérience client à un coût permettant de réaliser des économies.
Un expert en technologies. Cette personne souhaiterait savoir comment nous avons créé notre humain numérique, quels obstacles nous avons rencontrés et comment nous les avons surmontés. Notre objectif est de montrer la réalité de la création d'un humain numérique et pourquoi il s'agit d'une opportunité reproductible.
Un consommateur. Il s'agit d'une personne ayant déjà utilisé les services d'un restaurant ; ainsi, pratiquement tous ceux qui assisteront à la démonstration correspondent à cette définition. Cette personne évaluera l'humain numérique selon sa facilité d'utilisation, la précision de ses réponses et, en fin de compte, la crédibilité de ses interactions. Notre objectif est de montrer à quel point il serait simple d'utiliser un humain numérique au quotidien.

Ce n'est pas notre première expérience avec un humain numérique IA

Notre désir de créer une démonstration d'humain numérique pour le NRF Big Show 2025 n'était pas Supermicro Première expérience de [Nom de l'entreprise] avec la création d'un humain numérique. Nous avons précédemment collaboré avec deux partenaires éditeurs de logiciels indépendants (ISV) pour créer un humain numérique capable de répondre aux questions de recommandation de produits pour [Nom de l'entreprise]. Supermicro Le portefeuille de produits de [nom de l'entreprise]. En fait, il s'agissait de l'une des deux démonstrations d'humains numériques que nous avons présentées au Mobile World Congress 2024 à Barcelone, en Espagne.

Bien que cette première expérience ait été positive, notamment grâce aux interactions en temps réel des utilisateurs avec notre avatar numérique, sa mise en œuvre a nécessité une importante coordination, impliquant trois parties. Cette fois-ci, nous avons décidé de tout gérer nous-mêmes. L'analyse du temps et de l'énergie nécessaires à la création de la démonstration en interne nous a permis de constater qu'il était nettement plus gérable de disposer des ressources et de la capacité de prendre des décisions rapidement au sein de notre organisation.

Qu'avons-nous dû faire pour créer notre humain numérique ?

Nous avons commencé par réunir une équipe composée de nos experts internes en IA et de nos experts du marché de la vente au détail afin de déterminer le cas d'utilisation que nous souhaitions présenter et le message que nous souhaitions transmettre, comme indiqué ci-dessus.

Ensuite, nous avons documenté les exigences et établi un calendrier prévisionnel pour le développement, les tests et le dépannage d'un prototype. Nous avons également prévu de répéter un ou plusieurs de ces cycles afin de finaliser notre humain numérique. Enfin, nous devions prévoir suffisamment de temps pour acheminer nos serveurs périphériques, hébergeant le LLM et l'application de l'humain numérique, jusqu'à l'événement NRF et les installer sur notre stand.

Nous nous sommes mis au travail sans tarder une fois que nous avons défini nos besoins et établi un calendrier que nous pensions pouvoir respecter.

Ce que nous avons utilisé pour construire notre humain numérique

L'une de nos premières décisions a été de tirer parti de notre solide partenariat avec NVIDIA, leader du marché des outils de développement et d'implémentation d'IA. Nous avons conçu notre humain numérique à partir du modèle de conception d'humain numérique de NVIDIA. Cela a accéléré notre délai de rentabilisation (dans notre cas, une démonstration fonctionnelle) tout en appliquant les meilleures pratiques de NVIDIA. De plus, cela nous a permis de nous concentrer sur la personnalisation qui différencie chaque démonstration, comme les caractéristiques de l'avatar et la personnalisation du modèle linéaire.

Les outils de développement de NVIDIA nous ont permis de personnaliser facilement la partie LLM de la solution grâce à la génération augmentée par la recherche (RAG). La RAG est une technique d'IA qui combine un modèle de recherche avec un modèle génératif. Elle extrait des informations pertinentes d'une base de données ou d'un ensemble de documents et les utilise pour générer des réponses plus précises et contextuellement pertinentes. Dans notre projet, nous avons connecté un pipeline RAG aux informations spécifiques de notre restaurant afin de disposer des détails les plus récents sur leurs plats et boissons, leurs prix, leurs horaires d'ouverture et d'autres facteurs, tels que les plats du jour. Cela a permis de garantir que nos données étaient à jour et que notre humain numérique était bien « entraîné ».

Veuillez consulter l'annexe A pour les détails techniques relatifs à la construction de notre humain numérique.

Répondre aux exigences pour qu'un serveur Edge permette de créer un humain numérique

L'un des avantages dont nous disposions pour développer notre humain numérique était un portefeuille préexistant de serveurs périphériques conçus pour répondre aux exigences des applications d'IA en périphérie. Voici nos exigences concernant le serveur qui allait héberger et exécuter notre démonstration d'humain numérique :

Le pipeline de traitement GPU pour le LLM et le RAG nécessitait un système avec deux NVIDIA L40S.
Le système frontal devait prendre en charge deux NVIDIA L40S et le calcul CPU pour assurer l'expérience utilisateur : conversion de la parole en texte (humain vers machine), conversion du texte en parole (machine vers humain), animation et rendu de l'avatar, et synchronisation des lèvres de l'avatar avec ce qu'il dit.
Chaque système nécessitait de stocker les conteneurs d'applications et les données.
Le système dorsal devait pouvoir héberger la base de données pour prendre en charge le pipeline RAG.
Un environnement de vente au détail typique ne disposerait pas d'espace de rayonnage de taille normale.

Pour répondre à ces exigences, nous avons sélectionné Supermicro Le système SYS-221HE-FTNR, qui fait partie de notre Hyper -Famille de serveurs E. Nous avons choisi ce serveur précisément parce qu'il :

Système à faible profondeur optimisé pour les déploiements en périphérie de réseau, là où les racks de centres de données ne sont pas disponibles.
Système à double processeur capable d'accueillir les types et quantités de GPU requis pour l'accélération de l'IA

Une conclusion réussie

Outre les nombreux visiteurs qui se sont rendus sur notre stand, nous avons également accueilli cinq groupes de touristes organisés par la NRF. Ces groupes étaient généralement composés d'une douzaine de participants ou plus, désireux de vivre une expérience immersive. Supermicro a été sélectionné comme étape de cette visite guidée en raison de notre démonstration d'une expérience humaine numérique.

La démonstration a rencontré un vif succès auprès des visiteurs. Nombre d'entre eux ont non seulement perçu l'intérêt du cas d'utilisation présenté, mais ont également commencé à réfléchir à la manière dont le système pourrait être adapté à leurs besoins métiers, ce qui a donné lieu à plusieurs échanges fructueux et à des réunions ultérieures.

Annexe A – Détails techniques de la construction de notre humain numérique

Configuration du système

L'humain numérique se compose de deux systèmes : un système frontal et un système dorsal. Le système frontal assure le rendu de l'humain numérique, tandis que le système dorsal gère le pipeline RAG et héberge les modèles LLM.

Commencez par obtenir une clé API NVIDIA pour télécharger les modèles et les images de conteneur. Vous pouvez obtenir une clé API en vous rendant sur le catalogue d'API NVIDIA . Une fenêtre contextuelle « Développer avec ce modèle » devrait s'afficher ; si ce n'est pas le cas, cliquez sur le bouton correspondant . Cliquez ensuite sur le bouton « Générer une clé API » et enregistrez cette clé.

Configuration du système frontal

Installer Ubuntu 24.04 et assurez-vous que tous les packages sont à jour.
Installer le serveur OpenSSH.
Assurez-vous que l'utilisateur dispose des privilèges sudo et peut exécuter la commande sudo sans mot de passe.

Configuration du système back-end

Installer Ubuntu 24.04 et assurez-vous que tous les packages sont à jour.
Installer le serveur OpenSSH.
Assurez-vous que l'utilisateur dispose des privilèges sudo et peut exécuter la commande sudo sans mot de passe.
Générez une paire de clés SSH pour l'utilisateur et copiez la clé publique sur le système frontal. Cela permettra au système frontal de se connecter au système dorsal sans mot de passe. votre_email@exemple.com avec votre adresse e-mail réelle :
```
ssh-keygen -t rsa -b 4096 -C "votre_email@example.com"
```
Copiez la clé publique dans le système frontal, en la remplaçant <user> avec votre nom d'utilisateur et <frontend_ip_address> avec l'adresse IP réelle du système frontal :
```
ssh-copy-id <user>@<frontend_ip_address>
```

Provisionner le système frontal

Sur le système back-end, téléchargez le script de déploiement en clonant le dépôt GitHub d'ACE.
```
git clone https://github.com/NVIDIA/ACE.git
```
Accédez au répertoire du script baremetal en un clic :
```
cd ACE/workflows/tokkio/4.1/scripts/one-click/baremetal
```

Configurez le script de déploiement en définissant les variables d'environnement. Remplacez les informations du fichier myconfig.env par les valeurs réelles correspondant à cette configuration.

cp config-template-examples/llm-ov-3d-cotrun-1x-stream/my-config.env my-config.env nano my-config.env
export OPENAI_API_KEY="<replace-with-openai-api-key>"
export NGC_CLI_API_KEY="<replace-with-your-NVIDIA-personal-API-Key>"
export NVIDIA_API_KEY="<replace-with-you-NVIDIA-Personal-API-Key>"
export APP_HOST_IPV4_ADDR="<replace-with-the-ip-address-of-front-end-system>"
export APP_HOST_SSH_USER="<replace-with-the-username-of-front-end-system>"
export COTURN_HOST_IPV4_ADDR="<replace-with-the-ip-address-of-front-end-system>"
export COTURN_HOST_SSH_USER="<replace-with-the-username-of-front-end-system>"

Copiez le fichier modèle de configuration et modifiez les valeurs pour qu'elles correspondent à cette configuration.
```
cp config-template-examples/llm-ov-3d-cotrun-1x-stream/config-template.yml my-config-template.yml
```
Exécutez le script de déploiement pour provisionner le système frontal. Cette opération peut prendre un certain temps, veuillez patienter.
```
source my-config.env ./envbuild.sh install --component all --config-file ./my-config-template.yml
```
Vérifiez que le système frontal est opérationnel en exécutant la commande suivante sur le système frontal :
```
kubectl get pods -n app
```

Provisionner les modèles RAG Pipeline et LLM

Sur le système back-end, procédez comme suit pour provisionner le pipeline RAG et les modèles LLM :

Installez Docker et Docker Compose.
Installez les pilotes NVIDIA les plus récents.
Installez et configurez NVIDIA Container Toolkit.
Suivez les instructions ici https://github.com/NVIDIA-AI-Blueprints/rag pour le déploiement à l'aide de Docker Compose.
Remplacez le NIM utilisé par celui du Llama 3.1 8B.
Sur le système frontal, suivez les instructions ci-dessous pour personnaliser le point de terminaison RAG de Digital Human :
https://docs.nvidia.com/ace/tokkio/4.1/customization/customize-reference-workflows.html#rag-endpointcustomization

Infrastructure d'IA

Data Center Building Block Solutions® (DCBBS)

Fabrique d'IA

Edge IA

Stockage pour l'IA

Solutions d'IA pour l'industrie

Solutions NVIDIA

Solutions AMD

Solutions Intel

Solutions Arm AGI

Serveurs Rack

Processeur double

1 Processeur

Multiprocesseur

Serveurs GPU

Gamme GPU 8U/10U

Gamme GPU 4U/5U

2 Lignes GPU U

1 Lignes GPU U

Serveurs Multi-Noeuds

FlexTwin™

BigTwin®

GrandTwin®

TwinPro®

FatTwin®

Serveurs Lames

SuperBlade

MicroBlade

MicroCloud

Serveurs de stockage

Tous les systèmes de stockage

Flash NVMe

Chargement par le haut

JBOF

Stockage Petascale Grace

Stockage optimisé pour l'entreprise

Boîtiers de stockage JBOD

Cartes mères

Cartes pour serveur

Cartes pour station de travail

Cartes embarquées / IoT

Cartes pour PC de bureau / Jeux

Matrice de carte mères

SKUs mondiales

Châssis

Châssis 1U

Châssis 2U

Châssis 3U

Châssis 4U / Tour

Mid / Mini-Tour

Châssis embarqué / IoT

Racks mobiles / Kits disques

Boîtiers de stockage JBOD

SKUs mondiales

SuperRack

Service d'intégration des racks

Accessoires

Matrice des câbles

Matrice des cartes risers

Matrice des cartes de stockages AOC

Matrice des blocs alimentations

Matrice des dissipateurs thermiques

Matrice des ventilateurs

Racks mobiles / Kits disques

Façades avant du châssis

Stockage, E/S, sécurité

Systèmes d'IA et d'IoT en périphérie

Systèmes Edge compacts

Serveurs Edge compacts

Serveurs Edge montés en rack

Composants embarqués

Cartes mères embarquées

Châssis embarqué

Switches

Adaptateurs

SuperWorkstations

Plateforme de développement de l'IA à refroidissement liquide

Monoprocesseur

Double processeur

Ordinateur de bureau