Bauen eines KI Digitaler Mensch – So gewinnen Sie die Aufmerksamkeit eines Kunden

Die Lösung Supermicro Innerhalb von 2 Wochen für die NRF Big Show 2025 errichtet.

Supermicro Der digitale Mensch von [Name des Unternehmens] auf der NRF Big Show, Januar 2025

Während wir unsere Supermicro Für die Gestaltung und die Inhalte unseres Messestandes auf der NRF Big Show im Januar 2025 war uns wichtig, eine digitale Person zu präsentieren, die Fragen von Besuchern unseres Standes beantworten und detaillierte Antworten geben kann. Dabei war uns besonders wichtig, dass die Demonstration lokal durchgeführt wird, um sicherzustellen, dass die Kommunikation zwischen Mensch und digitaler Person innerhalb der üblichen Latenzzeit (50–100 ms) stattfindet, die man auch bei der menschlichen Kommunikation erwartet.

Dieser Artikel beleuchtet die Vorgeschichte, warum wir uns entschieden haben, einen digitalen Menschen zu präsentieren, die Herausforderungen, denen wir uns stellen mussten und wie wir sie in nur zwei Wochen bewältigt haben, sowie die Reaktionen der Menschen, die mit unserem digitalen Menschen interagiert haben.

Die Geschichte, die wir erzählen wollten

Da wir uns entschieden hatten, auf der NRF Big Show eine Anwendung für einen digitalen Menschen vorzustellen, wollten wir eine überzeugende Geschichte aus dem Einzelhandelsumfeld präsentieren. Außerdem war uns ein praxisnahes Beispiel wichtig, das den Mehrwert eines digitalen Menschen verdeutlicht. Wir entschieden uns für einen digitalen Menschen, der in einem Restaurant auf Fragen zu Menüoptionen in natürlicher Sprache antwortet.

Dieser Anwendungsfall mag zwar einfach erscheinen, bot uns aber die Möglichkeit, drei verschiedenen Zielgruppen, die unseren Stand besuchen konnten, eine Geschichte zu erzählen. Diese Zielgruppen lassen sich wie folgt beschreiben:

Ein Restaurantleiter/Inhaber. Unser Ziel für diese Zielgruppe ist es, ihm eine Anwendung vorzustellen, die sich einfach implementieren lässt und einen Mehrwert für sein Unternehmen bietet. Eine positive digitale Interaktion würde es ihm erleichtern, die Mitarbeiter über Änderungen im Menü und bei den Speisenangeboten auf dem Laufenden zu halten. Diese Person weiß, dass Mitarbeiterfluktuation teuer ist und möchte zeigen, dass es möglich ist, mit einem digitalen Assistenten das Kundenerlebnis zu verbessern und gleichzeitig Kosten zu sparen.
Ein Technologieexperte. Diese Person würde wissen wollen, wie wir unseren digitalen Menschen erschaffen haben, welche Herausforderungen wir bewältigen mussten und wie wir sie gemeistert haben. Wir möchten die Realität der Entwicklung eines digitalen Menschen aufzeigen und verdeutlichen, warum dieses Projekt eine übertragbare Chance bietet.
Ein Konsument. Damit ist jemand gemeint, der Restaurantdienstleistungen in Anspruch nimmt; praktisch jeder, der die Demonstration sieht, erfüllt diese Definition. Diese Person beurteilt den digitalen Menschen nach Benutzerfreundlichkeit, Genauigkeit seiner Antworten und letztendlich nach der Glaubwürdigkeit seiner Interaktionen. Unser Ziel ist es, zu zeigen, wie einfach die Nutzung eines digitalen Menschen im Alltag wäre.

Nicht unser erstes Mal KI Digitales menschliches Erlebnis

Unser Wunsch, eine digitale Menschendemonstration für die NRF Big Show 2025 zu entwickeln, war nicht Supermicro Dies ist die erste Erfahrung von [Name des Unternehmens] mit der Entwicklung eines digitalen Menschen. Zuvor hatten wir mit zwei ISV-Partnern zusammengearbeitet, um einen digitalen Menschen zu entwickeln, der Produktempfehlungsfragen beantworten kann. Supermicro Das Produktportfolio von [Name des Unternehmens]. Tatsächlich war dies eine von zwei Demonstrationen digitaler Menschen, die wir auf dem Mobile World Congress 2024 in Barcelona, Spanien, gezeigt haben.

Die erste Erfahrung war zwar positiv, insbesondere die Echtzeit-Interaktionen der Nutzer mit unserem digitalen Menschen, doch der Koordinierungsaufwand war enorm, vor allem mit drei beteiligten Parteien. Diesmal beschlossen wir, die gesamte Arbeit selbst zu übernehmen. Die Analyse des Zeit- und Energieaufwands für die Entwicklung der Demonstration zeigte, dass die Umsetzung mit den vorhandenen Ressourcen und der Möglichkeit, innerhalb unserer Organisation schnell Entscheidungen zu treffen, deutlich einfacher wäre.

Was mussten wir tun, um unseren digitalen Menschen zu erschaffen?

Wir begannen damit, ein Team aus unseren internen Mitarbeitern zusammenzustellen. KI Experten und unsere Experten für den Einzelhandelsmarkt, um zu entscheiden, welchen Anwendungsfall wir präsentieren und welche Botschaft wir vermitteln wollten, wie oben besprochen.

Anschließend dokumentierten wir die Anforderungen und erstellten einen Zeitplan für die Entwicklung, das Testen und die Fehlerbehebung eines Prototyps. Wir planten außerdem, einen oder mehrere dieser Zyklen zu wiederholen, um unseren digitalen Menschen fertigzustellen. Zudem mussten wir genügend Zeit einplanen, um unsere Edge-Server, auf denen das LLM und die Anwendung für den digitalen Menschen liefen, zur NRF-Veranstaltung zu transportieren und an unserem Stand aufzubauen.

Sobald wir unsere Anforderungen und einen Zeitplan hatten, den wir unserer Meinung nach einhalten konnten, machten wir uns sofort an die Arbeit, um das Projekt zu realisieren.

Was wir zum Erstellen unseres digitalen Menschen verwendet haben

Eine unserer ersten Entscheidungen war es, unsere enge Beziehung zu NVIDIA, einem Marktführer für KI Entwicklungs- und Implementierungswerkzeuge. Wir haben unseren digitalen Menschen auf Basis des Digital Human Blueprint von NVIDIA entwickelt. Dies beschleunigte die Wertschöpfung (in unserem Fall eine funktionierende Demonstration) und ermöglichte uns gleichzeitig die Anwendung der Best Practices von NVIDIA. Darüber hinaus konnten wir uns auf die individuellen Anpassungen konzentrieren, die jede Demonstration einzigartig machen, wie z. B. die Avatar-Eigenschaften und die LLM-Anpassung.

Die Entwicklungswerkzeuge von NVIDIA ermöglichten es uns, den LLM-Teil der Lösung mithilfe von Retrieval-Augmented Generation (RAG) einfach anzupassen. RAG ist ein KI Diese Technik kombiniert ein Retrieval-Modell mit einem generativen Modell. Sie ruft relevante Informationen aus einer Datenbank oder einem Dokumentensatz ab und generiert daraus präzisere und kontextbezogenere Antworten. In unserem Projekt haben wir eine RAG-Pipeline mit den spezifischen Informationen unseres Restaurants verknüpft, um stets die aktuellsten Details zu Speisen und Getränken, Preisen, Öffnungszeiten und anderen Faktoren wie beispielsweise den wöchentlichen Angeboten zu erhalten. So stellten wir sicher, dass unsere Daten aktuell waren und unser digitaler Mensch optimal trainiert wurde.

Bitte lesen Sie Anhang A für die technischen Details zum Erstellen unseres digitalen Menschen.

Erfüllung der Anforderungen an einen Edge-Server zur Ermöglichung eines digitalen Menschen

Einer unserer Vorteile bei der Entwicklung unseres digitalen Menschen war ein bereits bestehendes Portfolio an Edge-Servern, die speziell für die Anforderungen von Edge-Computing ausgelegt waren. KI Anwendungen. Wir hatten folgende Anforderungen an den Server, der unsere digitale Menschendemonstration hosten/ausführen sollte:

Für die GPU-Verarbeitungspipeline von LLM und RAG wurde ein System mit zwei NVIDIA L40S benötigt.
Das Front-End-System musste zwei NVIDIA L40S und CPU-Computing unterstützen, um die Benutzererfahrung zu gewährleisten: Umwandlung von Sprache in Text (Mensch zu Maschine), Umwandlung von Text in Sprache (Maschine zu Mensch), Animation und Darstellung des Avatars sowie Synchronisierung der Lippenbewegungen des Avatars mit dem, was er sagt.
Jedes System benötigte Speicher für Anwendungscontainer und Daten.
Das Backend-System musste in der Lage sein, die Datenbank zur Unterstützung der RAG-Pipeline zu hosten.
In einem typischen Einzelhandelsumfeld gäbe es keine Regalfläche in voller Größe.

Um diese Anforderungen zu erfüllen, haben wir die folgende Auswahl getroffen: Supermicro SYS-221HE-FTNR-System, das Teil unseres Hyper -E-Serverfamilie. Wir haben diesen Server speziell deshalb ausgewählt, weil er:

Flaches System, optimiert für Edge-Bereitstellungen, bei denen keine Rechenzentrumsracks verfügbar sind
Dualprozessorsystem, das die erforderlichen GPU-Typen und -Mengen aufnehmen kann für KI Beschleunigung

Ein erfolgreicher Abschluss

Neben den unzähligen Besuchern an unserem Stand konnten wir auch fünf Reisegruppen der NRF begrüßen. Diese Gruppen bestanden in der Regel aus einem Dutzend oder mehr Messebesuchern, die ein intensives Erlebnis suchten. Supermicro wurde aufgrund unserer Demonstration einer digitalen menschlichen Erfahrung als Station dieser geführten Tour ausgewählt.

Die Demonstration kam bei den Besuchern sehr gut an. Viele erkannten nicht nur den Nutzen des gezeigten Anwendungsfalls, sondern begannen auch, darüber nachzudenken, wie das System an ihre Geschäftsanforderungen angepasst werden könnte. Dies führte zu mehreren anregenden Gesprächen und anschließenden Nachbereitungstreffen.

Anhang A – Technische Details zum Aufbau unseres digitalen Menschen

Systemkonfiguration

Der digitale Mensch besteht aus zwei Systemen: einem Frontend-System und einem Backend-System. Das Frontend-System ist für die Darstellung des digitalen Menschen zuständig, während das Backend-System die RAG-Pipeline ausführt und die LLM-Modelle hostet.

Um die Modelle und Container-Images herunterzuladen, benötigen Sie zunächst einen NVIDIA-API-Schlüssel. Diesen erhalten Sie im NVIDIA-API-Katalog . Normalerweise erscheint dort ein Popup-Fenster mit der Option „Mit diesem Blueprint entwickeln“ . Falls nicht, klicken Sie auf die Schaltfläche „Mit diesem Blueprint entwickeln“ . Klicken Sie anschließend auf „API-Schlüssel generieren“ und speichern Sie den Schlüssel.

Frontend-Systemkonfiguration

Installieren Ubuntu 24.04 und stellen Sie sicher, dass alle Pakete auf dem neuesten Stand sind.
Installieren Sie den OpenSSH-Server.
Stellen Sie sicher, dass der Benutzer über sudo-Berechtigungen verfügt und sudo ohne Passwort ausführen kann.

Backend-Systemeinrichtung

Installieren Ubuntu 24.04 und stellen Sie sicher, dass alle Pakete auf dem neuesten Stand sind.
Installieren Sie den OpenSSH-Server.
Stellen Sie sicher, dass der Benutzer über sudo-Berechtigungen verfügt und sudo ohne Passwort ausführen kann.
Generieren Sie ein SSH-Schlüsselpaar für den Benutzer und kopieren Sie den öffentlichen Schlüssel auf das Frontend-System. Dadurch kann sich das Frontend-System ohne Passwort mit dem Backend-System verbinden. Ihre_E-Mail-Adresse@Beispiel.com mit Ihrer tatsächlichen E-Mail-Adresse:
```
ssh-keygen -t rsa -b 4096 -C "your_email@example.com"
```
Kopieren Sie den öffentlichen Schlüssel in das Frontend-System und ersetzen Sie ihn. <user> mit Ihrem Benutzernamen und <frontend_ip_address> mit der tatsächlichen IP-Adresse des Frontend-Systems:
```
ssh-copy-id <user>@<frontend_ip_address>
```

Bereitstellung des Frontend-Systems

Laden Sie auf dem Backend-System das Bereitstellungsskript herunter, indem Sie das ACE GitHub-Repository klonen.
```
git clone https://github.com/NVIDIA/ACE.git
```
Navigieren Sie zum Verzeichnis der Bare-Metal-One-Click-Skripte:
```
cd ACE/workflows/tokkio/4.1/scripts/one-click/baremetal
```

Konfigurieren Sie das Bereitstellungsskript, indem Sie die Umgebungsvariablen festlegen. Ersetzen Sie die Informationen in der Datei „myconfig.env“ durch die tatsächlichen Werte für diese Konfiguration.

cp config-template-examples/llm-ov-3d-cotrun-1x-stream/my-config.env my-config.env nano my-config.env
export OPENAI_API_KEY="<replace-with-openai-api-key>"
export NGC_CLI_API_KEY="<replace-with-your-NVIDIA-personal-API-Key>"
export NVIDIA_API_KEY="<replace-with-you-NVIDIA-Personal-API-Key>"
export APP_HOST_IPV4_ADDR="<replace-with-the-ip-address-of-front-end-system>"
export APP_HOST_SSH_USER="<replace-with-the-username-of-front-end-system>"
export COTURN_HOST_IPV4_ADDR="<replace-with-the-ip-address-of-front-end-system>"
export COTURN_HOST_SSH_USER="<replace-with-the-username-of-front-end-system>"

Kopieren Sie die Konfigurationsvorlagendatei und bearbeiten Sie die Werte so, dass sie dieser Konfiguration entsprechen.
```
cp config-template-examples/llm-ov-3d-cotrun-1x-stream/config-template.yml my-config-template.yml
```
Führen Sie das Bereitstellungsskript aus, um das Frontend-System zu provisionieren. Dies kann einige Zeit dauern, bitte haben Sie Geduld.
```
source my-config.env ./envbuild.sh install --component all --config-file ./my-config-template.yml
```
Überprüfen Sie, ob das Front-End-System betriebsbereit ist, indem Sie den folgenden Befehl auf dem Front-End-System ausführen:
```
kubectl get pods -n app
```

Bereitstellung der RAG-Pipeline- und LLM-Modelle

Führen Sie im Backend-System die folgenden Schritte aus, um die RAG-Pipeline und die LLM-Modelle bereitzustellen:

Installieren Sie Docker und Docker Compose.
Installieren Sie die neuesten NVIDIA-Treiber.
Installieren und konfigurieren Sie das NVIDIA Container Toolkit.
Folgen Sie den Anweisungen hier https://github.com/NVIDIA- KI -Blueprints/rag für die Bereitstellung mit Docker Compose.
Ersetzen Sie das verwendete NIM durch das Llama 3.1 8B.
Befolgen Sie im Frontend-System die hier aufgeführten Anweisungen, um den RAG-Endpunkt des Digital Human anzupassen:
https://docs.nvidia.com/ace/tokkio/4.1/customization/customize-reference-workflows.html#rag-endpointcustomization

KI Infrastruktur

Data Center Building Block Solutions® (DCBBS)

KI Fabrik

Rand KI

KI Lagerung

Industrie KI Lösungen

NVIDIA- Lösungen

AMD Lösungen

Intel -Lösungen

Arm AGI Solutions

Rackmount-Server

Dualprozessor

Einzelprozessor

Mehrprozessor

GPU-Server

8U/10U GPU-Reihen

4U/5U GPU-Linien

2U-GPU-Leitungen

1U-GPU-Leitungen

Doppelserver

FlexTwin™

BigTwin®

GrandTwin®

TwinPro®

FatTwin®

Blade-Server

SuperBlade®

MicroBlade®

MicroCloud

Speicherserver

Alle Speichersysteme

All-Flash NVMe

Toplader- Aufbewahrung

JBOF

Petascale Grace Storage

Für Unternehmen optimierter Speicher

JBOD-Speichergehäuse

Motherboards

Serverplatinen

Arbeitsplatztafeln

Embedded-/IoT-Boards

Desktop-/Gaming-Mainboards

Motherboard-Matrix

Globale SKUs

Chassis

1U-Gehäuse

2U-Gehäuse

3U-Gehäuse

4U / Tower-Gehäuse

Mittel-/Mini-Turm

Eingebettetes / IoT-Chassis

Mobile Gestelle / Antriebssätze

JBOD-Speichergehäuse

Globale SKUs

SuperRack®

Rack-Integrationsservice

Zubehör

Kabelmatrix

Riser-Kartenmatrix

Speicher-AOC-Matrix

Stromversorgungsmatrix

Kühlkörpermatrix

Systemlüftermatrix

Mobile Gestelle / Antriebssätze

Frontgehäuseblenden

Speicher, E/A, Sicherheit

Rand KI und IoT-Systeme

Kompakte Kantensysteme

Kompakte Edge-Server

Rackmount Edge-Server

Eingebettete Komponenten

Eingebettete Motherboards

Eingebettetes Chassis

Schalter

Adapter

SuperWorkstations

Flüssigkeitsgekühlt KI Entwicklungsplattform

Einzelprozessor

Dualprozessor

Desktop