Inteligencia Artificial

Data quality en la era de la IA

La Inteligencia Artificial Generativa volvió a poner en primer plano un concepto que parecía haber quedado relegado: la calidad de los datos. Hoy, empresas como Oracle, Microsoft, NaranjaX y Econat explican por qué contar con datos precisos, completos y gobernados ya no es opcional, sino una condición indispensable para entrenar modelos robustos y obtener resultados confiables.

Varios años atrás —más de 15, si la memoria no me falla—, con el advenimiento de Business Intelligence y Data Analytics, se empezó a hablar de “data cleansing” que, en el fondo, no era más que una forma más sofisticada de la famosa “normalización” de las bases de datos.

Como ocurre con muchas de las innovaciones —que no lo son tanto, pero le dan argumentos a la gente de marketing—, la ahora denominada “Data Quality” estuvo en el candelero un tiempo y después se “esfumó” tan silenciosamente como apareció.

Usted me dirá “eso siempre existió” o “la limpieza de los datos siempre formó parte del servicio de desarrollo y operación de aplicaciones basadas en bases de datos” —perdón por la redundancia— y quizá tenga razón.

Pero apareció otro contendiente en el mercado, y ese contendiente no sólo requiere, exige que los datos sean correctos, veraces, verificables… es decir, datos limpios y sin mácula: ChatGPT o, más precisamente, la Inteligencia Artificial Generativa.

Y, de repente, Data Quality se hizo indispensable.

Los expertos en datos

Si hay una empresa que construyó su ecosistema a partir del manejo de los datos, esa es Oracle. Por supuesto, no podían dejar de tener sus procesos de Data Quality en funcionamiento.

“En Oracle, la calidad de los datos se evalúa según su precisión, completitud, consistencia, actualidad y adecuación al uso previsto” arranca Mario Cuniberti, vicepresidente de Tecnología y Transformación para Multi-Country Región de Oracle.

Oracle ofrece herramientas para la limpieza y preprocesamiento de datos. “Estas herramientas permiten definir y verificar reglas de calidad de datos, como validaciones de rango, longitud de datos, valores nulos, duplicados y más. Además, facilitan la corrección de datos mediante transformaciones y estandarizaciones automatizadas” explica Cuniberti.

Aunque muchas de estas tareas pueden automatizarse, la intervención humana sigue siendo crucial para definir las reglas de calidad, supervisar los procesos y tomar decisiones informadas sobre la gestión de los datos.

En un contexto de entrenamiento de una IA, “es esencial que los datos sean de alta calidad para garantizar resultados precisos y confiables. La calidad de los datos afecta directamente la eficacia de los modelos de IA, ya que si estos son deficientes pueden llevar a modelos inexactos o sesgados” sostiene Cuniberti.

Además, “la API de detección de sesgos de datos —continúa el ejecutivo— permite identificar y cuantificar sesgos en conjuntos de datos, utilizando métricas como el desequilibrio de clases, la paridad estadística y la disparidad demográfica condicional. Además, ofrece métodos de mitigación, como el reponderamiento, para abordar estos sesgos antes de entrenar modelos de aprendizaje automático”.

Los que usan los datos

Pocas semanas atrás, confluyeron en un mismo evento NaranjaX y Microsoft. Aprovechamos, entonces, para conversar con las responsables de datos de ambas compañías.

Gisele Cabrera es Chief Data & Analytics Officer de Naranja X opina que “estamos viviendo un momento único en todas nuestras vidas donde la tecnología disruptiva y la inteligencia artificial, ya no es cosa del futuro, vino para quedarse. Pero ¿qué pasa con todo este sueño, no? De automatizar e ir hacia la inteligencia artificial necesito una base sólida, necesito una base robusta con datos confiables, con datos de calidad, con datos bien gobernados porque si no, de otra manera, no es posible generar impacto a partir del uso de esa tecnología o de esa inteligencia artificial”.

Por su parte, Yamila Zakhem, Digital Apps, Data & AI Sales Director for Spanish South America de Microsoft, agrega: “El concepto y sobre todo en el momento en el que estamos hablando es central, todo lo que tiene que ver con la calidad, pero también con la disponibilidad y uso de los datos, ¿no? Lo que hoy decimos es que el resultado de una implementación de inteligencia artificial o que las soluciones basadas en inteligencia artificial son tan buenas como los datos que tenemos por detrás para poder construirlos. De alguna manera todo tenía que ver con la definición de los modelos, que en el ámbito de datos estructurados está como mucho más determinado».

“Cuando yo arranqué allá por el 2008″ —relata Cabrera— «ya desde aquel momento fue muy difícil posicionar estratégicamente todo este tema del gobierno y de la calidad de los datos. Cada uno estaba como más en su ‘bueno, hago mi dashboard para mi área o analizo los datos de mi equipo particularmente’, como una competencia a ver quién manejaba una mayor cantidad de datos. Pero hoy la cosa pasa por otro lugar, pasa por tener la data AI ready ¿Y qué es esa data AI ready? Que esté curada, que esté gobernada y que esté disponible para que se pueda usar en toda la compañía”.

Yendo a un punto más técnico, la ejecutiva de Microsoft explica: “Tal vez estamos más acostumbrados a guardar en tablas y que esas tablas después alimentan la solución y eso tiene cierta forma y esperamos que tenga ciertas características a la hora de implementarlas. Pero cuando hablamos, por ejemplo, de una imagen, un audio, un video, que son datos no estructurados y mucho más amplios y que cubren un espectro mayor, decimos, ‘Bueno, también necesito enriquecer mis fuentes con esos datos y que sean parte del producto de la inteligencia artificial.’ Entonces, lo que vemos es cómo se redefine lo que se llama más comúnmente como el modern data state o yo le suelo decir la plataforma de datos».

“En esa plataforma de datos hoy tiene que poder convivir el mundo estructurado, el semiestructurado y el no estructurado y que garanticen la trazabilidad de punta a punta, que podamos nosotros identificar el linaje de esos datos que luego van a poder responder a construir esas soluciones”.

En una época uno tenía una X cantidad de datos, un dataset determinado, se trabajaba sobre ese dataset, incluso para las redes neuronales había tablas. Y en esa época se hablaba también de normalizar las tablas. Pero ahora estamos hablando de millones de parámetros con lo cual se necesitan millones de datos para que la IA generativa dé una respuesta consistente incluso en lenguaje natural.

“Por eso hay que arrancar ordenando la casa, digamos» —precisa la ejecutiva de NaranjaX—, «¿y qué es ordenar la casa? Es justamente organizar los datos para que puedan estar disponibles para su consumo por la inteligencia artificial”.

Los que trabajan de limpiar los datos

Ya nos quedó muy claro que hay empresas que hacen Data Quality como parte de un portafolio más completo, y que hay otras que pueden hacer su propia limpieza de los datos. Pero también están aquellas que se dedican, entre otras cosas, a ofrecer el servicio de data cleansing.

Es el caso de Econat, una empresa de consultoría de sistemas que, entre sus ofertas, figura un servicio específico de Data Quality. Si bien sus mejores éxitos los están obteniendo en oil & gas, no hay industrias que no precisen, de vez en cuando, una buena barrida, y no debajo de alfombra precisamente.

Gabriel Katz es Business Development Manager del Grupo Econat.
Gabriel Katz es Business Development Manager del Grupo Econat.

Gabriel Katz es Business Development Manager del Grupo Econat y quien responde a nuestra requisitoria: “La calidad de los datos es el grado en que los datos cumplen con los requisitos necesarios para ser utilizados eficazmente en su propósito previsto. Implica que los datos deben ser precisos, completos, coherentes, actualizados y relevantes para garantizar su valor en contextos específicos, como la toma de decisiones, análisis o automatización de procesos, inteligencia artificial. Los datos son un valor en sí, pero lo más importante es cuál es el resultado que uno obtiene de la explotación y el uso de esos datos. Entonces, antes de que hablásemos de inteligencia artificial, venimos hablando mucho de inteligencia de negocios”.

La compañía se enfoca en verificar y asegurar la calidad de los datos mediante un motor de reglas de validación, configurado en colaboración con el cliente. El objetivo es garantizar la consistencia y coherencia de los datos y reducir así la probabilidad de que se manifiesten sesgos durante los procesos de análisis o toma de decisiones posteriores.

“Si bien en los datos relativos al proceso de perforación, terminación y mantenimiento de pozos, por ejemplo, tenemos mucho know-how —continúa Katz—, hay muchos detalles que los maneja en realidad el negocio. Entonces, por ejemplo, para definir la consistencia de un dato, normalmente lo que hace el usuario es pasar la regla a nivel sintáctico, a nivel de texto y lo que se genera desde el desarrollo interno es el prompt que pasa a ser la regla de validación que se incorpora al motor de validación de datos. Es sí importante destacar que la etapa de corrección, en general, la realiza el cliente porque implica la manipulación de datos de la empresa, que son propietarios y confidenciales”.

La IA depende de información precisa, consistente y confiable para aprender patrones y comportamientos de manera efectiva. Si los datos utilizados son incompletos, erróneos o sesgados, el modelo entrenado producirá resultados inexactos o poco útiles. Por tanto, garantizar la alta calidad de los datos es esencial para obtener modelos de IA robustos y con buen desempeño.

Y sigue el ejecutivo: “El factor humano desempeña un rol esencial tanto en la fase de construcción y mantenimiento del modelo de validación, como en el seguimiento y análisis de los hallazgos, asegurando que el sistema evolucione de acuerdo con los cambios del negocio y sus necesidades específicas”.

Garantizar la calidad de los datos es esencial para cualquier organización. Para eso, es necesario realizar una inversión en herramientas de gestión de datos, así como capacitar al personal en prácticas de calidad de datos. Además, es imprescindible realizar esfuerzos continuos para monitorizar y mejorar la calidad de los datos. Los errores y la falta de calidad en los datos pueden llevar a consecuencias costosas, como decisiones empresariales erróneas, pérdidas financieras y daños a la reputación de la empresa.

Si de Inteligencia Artificial se trata, no podemos olvidarnos de que hay dos campos. Por un lado, el de los datos que se utilizan para entrenarla. Por el otro, el uso de la GenAI para automatizar y facilitar la calidad de esos datos. En resumen, es evidente que la garantía de la calidad de los datos representa una inversión que se justifica por los beneficios indiscutibles que aporta en términos de reducción de riesgos, mejora en la toma de decisiones y aumento de la eficiencia empresarial.

Leer mas

Autor

[mdx-adserve-bstreet region="MED"]

Publicaciones relacionadas

Botón volver arriba