Construyendo un humano digital con IA: mostrando cómo captar la atención del cliente.

La solución Supermicro Construido en 2 semanas para el evento NRF Big Show 2025.

Supermicro El Humano Digital de en el NRF Big Show, enero de 2025

Mientras preparábamos nuestro Supermicro Para el diseño y el contenido del stand de la National Retail Federation (NRF) Big Show en enero de 2025, sabíamos que queríamos una demostración con un humano digital capaz de interpretar las preguntas de los visitantes y ofrecer respuestas detalladas. Era fundamental que la demostración se alojara localmente para garantizar que la conversación entre un humano y un humano digital se mantuviera dentro de los parámetros de latencia habituales (50-100 ms) al hablar con otra persona.

Este artículo profundiza en la historia de por qué decidimos presentar un humano digital, los desafíos que enfrentamos y cómo los superamos en solo 2 semanas, y la acogida que recibimos de las personas que interactuaron con nuestro humano digital.

La historia que queríamos contar

Dado que decidimos presentar una aplicación de humano digital en el NRF Big Show, quisimos elegir una historia interesante en el contexto del comercio minorista. También quisimos seleccionar un ejemplo real que demostrara el valor intrínseco de un humano digital. El caso de uso que decidimos mostrar fue el de un humano digital que respondería a preguntas en lenguaje natural sobre las opciones del menú de un restaurante.

Aunque este caso de uso pueda parecer sencillo, nos brindó la posibilidad de contar una historia a tres públicos diferentes que podrían visitar nuestro stand. Estos públicos se pueden describir de la siguiente manera:

Gerente/propietario de un restaurante. Nuestro objetivo con este perfil es mostrarle una aplicación que pueda implementarse fácilmente y que aporte valor a su negocio. Una experiencia positiva con un asistente virtual facilitaría a los empleados la tarea de mantenerse al día sobre los cambios en el menú. Esta persona sabe que la rotación de personal es costosa, y le interesará demostrar que es posible contar con un asistente virtual que enriquezca la experiencia de sus clientes a un costo que le permita ahorrar dinero a su negocio.
Un tecnólogo. Esta persona querría saber cómo creamos nuestro humano digital, cuáles fueron nuestros desafíos y cómo los superamos. Nuestro objetivo es mostrar la realidad de la creación de un humano digital y por qué representa una oportunidad replicable.
Un consumidor. Se trataría de alguien que consume servicios de restaurante, por lo que prácticamente cualquier persona que vea la demostración encajaría en esta definición. Esta persona evaluaría al humano digital en función de su facilidad de uso, la precisión de sus respuestas y, en última instancia, la credibilidad de sus interacciones. Nuestro objetivo es mostrar lo sencillo que sería utilizar un humano digital en su vida cotidiana.

No es nuestra primera experiencia con humanos digitales de IA.

Nuestro deseo de construir una demostración humana digital para el NRF Big Show de 2025 no era Supermicro primera experiencia de con la creación de un humano digital. Anteriormente trabajamos con dos socios ISV para crear un humano digital capaz de responder preguntas de recomendación de productos para Supermicro cartera de productos de la empresa. De hecho, esta fue una de las dos demostraciones de humanos digitales que mostramos en el Mobile World Congress 2024 en Barcelona, España.

Si bien la primera experiencia fue positiva, sobre todo al observar las interacciones en tiempo real de los usuarios con nuestro humano digital, requirió mucha coordinación, especialmente con tres partes involucradas. Esta vez, decidimos encargarnos de todo nosotros mismos. Al analizar el tiempo y la energía que nos llevó desarrollar la demostración, concluimos que era mucho más manejable contando con recursos y la capacidad de tomar decisiones rápidas dentro de nuestra organización.

¿Qué necesitábamos hacer para crear nuestro humano digital?

Comenzamos reuniendo a un equipo formado por nuestros expertos internos en IA y nuestros expertos en el mercado minorista para decidir qué caso de uso queríamos mostrar y qué mensaje queríamos transmitir, como se mencionó anteriormente.

A continuación, documentamos los requisitos y creamos un cronograma propuesto para desarrollar, probar y solucionar problemas de un prototipo. También planeamos repetir uno o más de estos ciclos necesarios para finalizar nuestro humano digital. Además, debíamos asegurarnos de dejar tiempo suficiente para enviar nuestros servidores perimetrales, que alojaban el LLM y la aplicación del humano digital, al evento de la NRF y configurarlos en nuestro stand.

Nos pusimos manos a la obra para hacerlo realidad una vez que tuvimos claros los requisitos y un cronograma que creíamos poder cumplir.

Lo que utilizamos para construir nuestro humano digital

Una de nuestras primeras decisiones fue aprovechar nuestra sólida relación con NVIDIA, líder del mercado en herramientas para el desarrollo e implementación de IA. Creamos nuestro humano digital basándonos en el Digital Human Blueprint de NVIDIA. Esto aceleró la obtención de valor (en nuestro caso, una demostración funcional) al tiempo que implementábamos las mejores prácticas de NVIDIA. Además, nos permitió centrarnos en la personalización que diferencia cada demostración, como las características del avatar y la personalización del LLM.

Las herramientas de desarrollo de NVIDIA nos facilitaron la personalización de la parte LLM de la solución mediante la generación aumentada por recuperación (RAG). RAG es una técnica de IA que combina un modelo de recuperación con un modelo generativo. Recupera información relacionada de una base de datos o conjunto de documentos y la utiliza para generar respuestas más precisas y contextualmente relevantes. En nuestro proyecto, conectamos una canalización RAG a la información específica de nuestro restaurante para obtener los detalles más recientes sobre sus opciones de comida y bebida, precios, horarios de atención y otros factores, como las ofertas semanales. Esto garantizó que nuestros datos estuvieran actualizados y que nuestro asistente virtual estuviera bien capacitado.

Consulte el Apéndice A para obtener los detalles técnicos sobre la creación de nuestro humano digital.

Cumplir con los requisitos para que un servidor perimetral permita un ser humano digital

Una de las ventajas que tuvimos al desarrollar nuestro humano digital fue una cartera preexistente de servidores perimetrales diseñados para satisfacer los requisitos de las aplicaciones de IA perimetral. Teníamos los siguientes requisitos para el servidor que iba a alojar/ejecutar nuestra demostración del humano digital:

El proceso de procesamiento mediante GPU para LLM y RAG requería un sistema con dos tarjetas NVIDIA L40S.
El sistema frontal debía ser compatible con dos tarjetas gráficas NVIDIA L40S y con la computación de la CPU para brindar soporte a la experiencia del usuario: convertir voz a texto (de humano a máquina), convertir texto a voz (de máquina a humano), animar y renderizar el avatar y sincronizar los labios del avatar con lo que dice.
Cada sistema necesitaba almacenar contenedores de aplicaciones y datos.
El sistema de back-end debía ser capaz de alojar la base de datos para dar soporte al flujo de trabajo RAG.
Un entorno comercial típico no tendría espacio para estanterías de tamaño completo.

Para cumplir con estos requisitos, seleccionamos el Supermicro sistema SYS-221HE-FTNR, que forma parte de nuestro Hyper -Familia de servidores E. Elegimos este servidor específicamente porque:

Sistema de poca profundidad optimizado para implementaciones en el borde donde no hay racks de centro de datos disponibles.
Sistema de doble procesador capaz de albergar los tipos y cantidades de GPU necesarios para la aceleración de IA.

Una conclusión exitosa

Además de los innumerables visitantes que acudieron a nuestro stand, también recibimos a cinco grupos turísticos organizados por la NRF. Estos grupos solían estar formados por una docena o más de asistentes a la feria que buscaban una experiencia inmersiva. Supermicro Fue seleccionada como parada en esta visita guiada debido a nuestra demostración de una experiencia humana digital.

La demostración tuvo una excelente acogida entre los visitantes. Muchos no solo comprendieron el valor del caso práctico que estábamos mostrando, sino que también comenzaron a generar ideas sobre cómo adaptar el sistema a sus necesidades empresariales, lo que dio lugar a varias conversaciones muy interesantes y a reuniones posteriores al evento.

Apéndice A – Detalles técnicos de la construcción de nuestro humano digital

Configuración del sistema

El humano digital consta de dos sistemas: un sistema de interfaz y un sistema de back-end. El sistema de interfaz se encarga de renderizar el humano digital, mientras que el sistema de back-end se encarga de ejecutar el pipeline RAG y alojar los modelos LLM.

Para empezar, obtén una clave API de NVIDIA para descargar los modelos y las imágenes de contenedor. Puedes obtenerla en el Catálogo de API de NVIDIA . Debería aparecer una ventana emergente llamada «Desarrollar con este plano» , pero si no aparece, haz clic en el botón «Desarrollar con este plano» . A continuación, haz clic en el botón «Generar clave API» y guarda la clave.

Configuración del sistema de interfaz

Instalar Ubuntu 24.04 y asegúrese de que todos los paquetes estén actualizados.
Instalar el servidor OpenSSH.
Asegúrese de que el usuario tenga privilegios de sudo y pueda ejecutar sudo sin contraseña.

Configuración del sistema back-end

Instalar Ubuntu 24.04 y asegúrese de que todos los paquetes estén actualizados.
Instalar el servidor OpenSSH.
Asegúrese de que el usuario tenga privilegios de sudo y pueda ejecutar sudo sin contraseña.
Genera un par de claves SSH para el usuario y copia la clave pública al sistema front-end. Esto permitirá que el sistema front-end se conecte al sistema back-end sin contraseña. Reemplazar tu_correo_electrónico@ejemplo.com con tu dirección de correo electrónico real:
```
ssh-keygen -t rsa -b 4096 -C "tu_correo@ejemplo.com"
```
Copie la clave pública al sistema front-end, reemplazando <user> con tu nombre de usuario y <frontend_ip_address> con la dirección IP real del sistema front-end:
```
ssh-copy-id <user>@<frontend_ip_address>
```

Configurar el sistema de interfaz.

En el sistema back-end, descargue el script de despliegue clonando el repositorio de ACE en GitHub.
```
git clone https://github.com/NVIDIA/ACE.git
```
Navegue hasta el directorio de scripts de un solo clic para instalación en hardware físico:
```
cd ACE/workflows/tokkio/4.1/scripts/one-click/baremetal
```

Configure el script de despliegue estableciendo las variables de entorno. Reemplace la información en myconfig.env con los valores reales para esta configuración.

cp config-template-examples/llm-ov-3d-cotrun-1x-stream/my-config.env my-config.env nano my-config.env
export OPENAI_API_KEY="<replace-with-openai-api-key>"
export NGC_CLI_API_KEY="<replace-with-your-NVIDIA-personal-API-Key>"
export NVIDIA_API_KEY="<replace-with-you-NVIDIA-Personal-API-Key>"
export APP_HOST_IPV4_ADDR="<replace-with-the-ip-address-of-front-end-system>"
export APP_HOST_SSH_USER="<replace-with-the-username-of-front-end-system>"
export COTURN_HOST_IPV4_ADDR="<replace-with-the-ip-address-of-front-end-system>"
export COTURN_HOST_SSH_USER="<replace-with-the-username-of-front-end-system>"

Copia el archivo de plantilla de configuración y edita los valores para que coincidan con esta configuración.
```
cp config-template-examples/llm-ov-3d-cotrun-1x-stream/config-template.yml my-config-template.yml
```
Ejecuta el script de despliegue para configurar el sistema front-end. Esto tardará un tiempo en completarse, así que ten paciencia.
```
source my-config.env ./envbuild.sh install --component all --config-file ./my-config-template.yml
```
Verifique que el sistema front-end esté en funcionamiento ejecutando el siguiente comando en el sistema front-end:
```
kubectl obtener pods -n app
```

Provisión de los modelos RAG Pipeline y LLM.

En el sistema back-end, siga los siguientes pasos para aprovisionar la canalización RAG y los modelos LLM:

Instala Docker y Docker Compose.
Instala los controladores NVIDIA más recientes.
Instale y configure el kit de herramientas de contenedores de NVIDIA.
Siga las instrucciones que encontrará aquí https://github.com/NVIDIA-AI-Blueprints/rag para la implementación mediante Docker Compose.
Sustituya el módulo NIM utilizado por el de Llama 3.1 8B.
En el sistema de interfaz, siga las instrucciones que se indican aquí para personalizar el punto final RAG del Humano Digital:
https://docs.nvidia.com/ace/tokkio/4.1/customization/customize-reference-workflows.html#rag-endpointcustomization

Infraestructura de IA

Data Center Building Block Solutions® (DCBBS)

Fábrica de IA

Inteligencia Artificial

Almacenamiento de IA

Soluciones de IA para la industria

Soluciones NVIDIA

AMD Soluciones

Soluciones Intel

Soluciones Arm AGI

Servidores Rack

Procesador dual

Procesador único

Multiprocesador

Servidores GPU

Líneas de GPU 8U/10U

Líneas de GPU 4U/5U

2 Líneas de GPU U

1 Líneas de GPU U

Servidores Twin

FlexTwin™

BigTwin®

GrandTwin®

TwinPro®

FatTwin®

Blade

SuperBlade

MicroBlade

MicroCloud

Almacenamiento

Todos los sistemas de almacenamiento

Todo flash NVMe

Almacenamiento de carga superior

JBOF

Almacenamiento Grace a escala Petascale

Almacenamiento optimizado para empresas

Cajas de almacenamiento JBOD

Placas base

Servidores

Mesas de trabajo

Placas integradas / IoT

Sobremesa / Placas de juego

Matriz de la placa base

SKU globales

Chasis

Chasis 1U

Chasis 2U

Chasis 3U

Chasis de torre 4U

Torre mediana/minitorre

Chasis integrado/IoT

Soportes móviles / Kits de accionamiento

Cajas de almacenamiento JBOD

SKU globales

SuperRack®

Servicio de integración en bastidor

Accesorios

Matriz de cables

Matriz de tarjetas elevadoras

Matriz AOC de almacenamiento

Matriz de suministro de energía

Matriz de disipación de calor

Matriz de ventiladores del sistema

Soportes móviles / Kits de accionamiento

Embellecedores del chasis delantero

Almacenamiento, E/S, Seguridad

Sistemas de IA e IoT de borde

Sistemas de bordes compactos

Servidores Edge compactos

Servidores perimetrales para montaje en rack

Componentes integrados

Placas base integradas

Chasis integrado

Interruptores

Adaptadores

SuperWorkstations

Plataforma de desarrollo de IA con refrigeración líquida

Procesador único

Procesador dual

De oficina