La IA agente tiene un problema de datos no estructurados: IBM presenta una solución

Por: Redacción de ITSitio
8 de mayo 2025

Columna de Opinion

Compartir nota:

Por Edward Calvesbert, Vice President Product Management, watsonx Platform.

Esta semana, en Think, IBM está simplificando radicalmente la pila de datos para IA.

La compañía está mostrando una vista previa de la importante evolución de watsonx.data , que puede ayudar a las organizaciones a preparar sus datos para la IA y proporcionar una base de datos híbrida y abierta, así como una gestión de datos estructurados y no estructurados lista para la empresa.

¿El resultado? Una IA con un 40 % más de precisión que la RAG convencional, según pruebas realizadas con watsonx.data. Entre los productos y funciones que se espera que se lancen en junio se incluyen:

IBM presenta una evolución significativa de watsonx.data en Think 2025, diseñada para simplificar radicalmente la pila de datos para IA. — La marca presenta una evolución significativa de watsonx.data en Think 2025, diseñada para simplificar radicalmente la pila de datos para IA.

Integración de Watsonx.data, software para orquestar el acceso a datos y la ingeniería a través de diversos estilos y formatos de integración en una única interfaz, con flexibilidad y escalabilidad en su núcleo.
Watsonx.data intelligence , software para transformar la forma en que las organizaciones seleccionan, gestionan y utilizan datos significativos, aprovechando el poder de la IA para simplificar la gobernanza de datos.
La incorporación de watsonx como proveedor de API dentro de Llama Stack de Meta, mejorando la capacidad de las empresas para implementar IA generativa a escala y con la apertura como núcleo.

La integración de Watsonx.data y la inteligencia de Watsonx.data estarán disponibles como productos independientes, y algunas capacidades también estarán disponibles a través de Watsonx.data, maximizando la elección y la modularidad del cliente.

Para complementar estos productos, anunció recientemente su intención de adquirir DataStax, empresa líder en el aprovechamiento de datos no estructurados para la IA generativa. Con DataStax, los clientes pueden acceder a funciones adicionales de búsqueda vectorial.

Basado en pruebas internas que comparan la exactitud de las respuestas de los resultados del modelo de IA utilizando la capa de recuperación watsonx.data Premium Edition con RAG solo vectorial en tres casos de uso comunes con conjuntos de datos propietarios de IBM, utilizando el mismo conjunto de modelos de inferencia, evaluación e incrustación de código abierto seleccionados y variables adicionales. Los resultados pueden variar.

La nueva arquitectura híbrida de watsonx.data permite gestionar eficientemente datos estructurados y no estructurados desde una sola plataforma.

El contexto de esta importante evolución

Las empresas se enfrentan a un importante obstáculo para una IA generativa precisa y eficaz, especialmente la IA agencial. Pero este obstáculo no es lo que la mayoría de los líderes empresariales creen.

El problema no son los costos de inferencia ni el difícil de alcanzar, sino los datos.

Las organizaciones necesitan datos confiables y específicos de cada empresa para que la IA con agentes realmente genere valor: los datos no estructurados de correos electrónicos, documentos, presentaciones y videos. Se estima que en 2022, el 90 % de los datos generados por las empresas eran no estructurados, pero IBM proyecta que solo el 1 % se contabiliza en los LLM.

Los datos no estructurados pueden ser extremadamente difíciles de aprovechar. Están altamente distribuidos y son dinámicos, se encuentran en diversos formatos, carecen de etiquetas claras y, a menudo, requieren contexto adicional para su interpretación completa. La Recuperación-Generación Aumentada (RAG) convencional no es eficaz para extraer su valor y no puede combinar adecuadamente los datos estructurados y no estructurados.

Según pruebas internas de IBM, la integración de watsonx.data mejora la precisión de la IA en un 40 % en comparación con la RAG tradicional.

Mientras tanto, una variedad de herramientas desconectadas puede hacer que la pila de datos para IA sea compleja y engorrosa. Las empresas hacen malabarismos con almacenes de datos, lagos de datos y herramientas de gobernanza e integración de datos. La pila de datos puede resultar tan desorientadora como los datos no estructurados que se supone que debe gestionar.

Muchas organizaciones no están abordando el problema de raíz. Se centran únicamente en la capa de aplicación de IA generativa, en lugar de la capa de datos esencial subyacente. Hasta que las organizaciones arreglen su infraestructura de datos, los agentes de IA y otras iniciativas de IA generativa no alcanzarán su máximo potencial.

Ayudando a las organizaciones a preparar sus datos para la IA

Las nuevas capacidades de IBM permitirán a las organizaciones ingerir, gobernar y recuperar datos no estructurados (y estructurados) y, a partir de allí, escalar una IA generativa precisa y de alto rendimiento.