La incorporación de la Inteligencia Artificial en el Aseguramiento de Calidad está transformando profundamente tanto sus procesos como el rol del QA dentro del ciclo de desarrollo de software. Este artículo analiza el estado actual del uso de la IA en QA, sus beneficios, riesgos y costes de adopción, así como la aparición de nuevas métricas orientadas a evaluar la eficacia y fiabilidad de estos sistemas.
Asimismo, se aborda la evolución del rol de QA hacia un perfil más estratégico, integrado en un modelo de calidad asistido por sistemas inteligentes, donde la intervención humana seguirá siendo un factor esencial para la supervisión, validación y control de sus resultados.
Nacimiento y evolución del QA y la irrupción de la IA
Con la aparición del software y las aplicaciones digitales, el control de calidad adoptó un enfoque predominante reactivo centrado casi en exclusiva en la detección de defectos. Sin embargo, la creciente complejidad de los sistemas evidenció las limitaciones de este modelo, impulsando la evolución hacia un aseguramiento de calidad más preventivo y colaborativo. Este cambio se apoyó en prácticas como el shift-left, la automatización de pruebas o el testing continuo en entornos de CI/CD, consolidando así el QA como una disciplina esencial dentro del ciclo de vida del desarrollo de software.
En este marco, la irrupción de la inteligencia artificial introdujo un nuevo paradigma en la concepción de los procesos de calidad. No se trata meramente de una evolución incremental, sino de un cambio estructural en la forma en que se diseñan, priorizan y ejecutan los procesos de validación del software.
El impacto de la IA en el SDLC y en el QA
Sin embargo, la irrupción de la Inteligencia Artificial no se limitó exclusivamente al ámbito del QA. Su integración se ha producido de forma progresiva y transversal, afectando tanto a las fases de desarrollo como a las de validación, lo que ha generado un impacto directo en la calidad final del software.
Por un lado, los equipos de desarrollo han incorporado herramientas de IA generativa para la creación de código, como Copilot o Claude, lo que ha incrementado significativamente la velocidad de entrega. Sin embargo, este avance también introduce nuevos riesgos relacionados con la calidad y mantenibilidad del código generado debido a una posible falta de coherencia con el contexto de la aplicación.
Por otro lado, el área de QA ha integrado la IA en múltiples fases del proceso de testing, transformando la forma en que se diseñan, ejecutan y mantienen las estrategias de aseguramiento de calidad.
Y es que según diversos informes como QA and Software Testing in 2025 (basado en más de 100 equipos de desarrollo) o State of AI in Software Testing 2026 de BrowserStack (basado en más de 250 líderes técnicos), más del 60% de las organizaciones ya ha incorporado la IA en parte de sus flujos de testing, especialmente en regresión, smoke o priorización basada en riesgo.
Asimismo, su adopción se extiende a otras áreas del SDLC como negocio, donde se utiliza para la definición de requisitos o funcionalidades, o diseño, facilitando la generación de interfaces y prototipos en herramientas como Figma, evidenciando así un impacto cada vez más transversal en todo el ciclo de vida del software.
Por lo tanto, la sensación de que la IA ya forma parte del stack habitual de todos los actores partícipes dentro del ciclo de vida de desarrollo de software es creciente dentro de la industria, y esta adopción está generando un impacto tanto a nivel operativo como estratégico, redefiniendo procesos, roles y métricas de calidad.
Beneficios
En relación a este impacto, y tras varios años desde la adopción de estos modelos de IA generativa, pueden identificarse los siguientes beneficios principales en el ámbito de QA:
- Test Case Generation: Generación automática de casos de prueba a partir de código, requisitos funcionales o historias de usuario
- Ejemplo: A partir de una user story como que el usuario pueda reestablecer su contraseña, el sistema genera automáticamente casos como el de contraseña válida/inválida, sesión expirada, múltiples intentos fallidos, validaciones de formato de los campos, etc.)
- Test Prioritization: Priorización inteligente de pruebas basada en criticidad, impacto de cambios y análisis de riesgo
- Ejemplo: Tras un cambio en el checkout, el sistema prioriza automáticamente las pruebas relacionadas con cálculo de tasas, descuentos y pasarelas de pago.
- Log Analysis & Processing: Análisis, reescritura y resumen de logs, así como detección de duplicidades en casos de prueba o incidencias
- Ejemplo: En una ejecución que ha generado cientos de líneas de logs, el sistema permite agrupar errores repetidos, resumir el problema en una única incidencia y reducir el ruido y tiempo de análisis manual.
- Self-healing Tests: Mantenimiento automático de pruebas, adaptándose a cambios en interfaces o flujos del sistema
- Ejemplo: Si un botón cambia de id=”submit-btn” a id=”submit-button” el sistema ajusta automáticamente el selector sin necesidad de intervención manual
- Root Cause Analysis: Análisis automatizado de fallos y apoyo en la identificación de causa raíz
- Ejemplo: Ante un fallo en un test de login, el sistema es capaz de correlacionar logs de backend, cambios en autenticación y errores de base de datos sugiriendo como causa raíz un problema en el servicio de tokens.
- LLM-based Evaluation: Evaluación automatizada de resultados mediante modelos LLM capaces de analizar salidas de tests, respuestas de sistemas y logs, y determinar su validez o relevancia en función de criterios definidos
- Ejemplo: En lugar de validar únicamente códigos de estado, un LLM analiza que un mensaje de error de una API sea coherente con el contexto del fallo
- Agentic Testing Systems: Sistemas autónomos basados en agentes capaces de planificar, explorar aplicaciones, generar escenarios, ejecutar pruebas y reportar resultados de forma iterativa, adaptando su comportamiento en función de los resultados obtenidos
- Ejemplo: Un agente autónomo explora una aplicación detectando flujos críticos, generando pruebas de manera dinámica y ejecutando escenarios y ajustando la estrategia según los resultados.
En conjunto, estos avances permiten acelerar el ciclo de testing en sus distintas fases (análisis, diseño, ejecución y reporting), especialmente en entornos bien estructurados y con suficiente contexto disponible.
Riesgos
No obstante, su incorporación también introduce nuevos riesgos y limitaciones relevantes como:
- Incomplete test cases: Generación de casos de prueba incompletos o incorrectos debido a sesgos en los datos de entrenamiento (algunos informes indican que entre un 20% y 40% de los tests generados automáticamente requieren revisión o corrección manual)
- Ejemplo: El sistema genera tests para un formulario de registro, pero omite escenarios clave como validaciones de seguridad debido a sesgos en los datos de entrenamiento
- Scenario complexity: Dificultad para modelar escenarios complejos, especialmente en sistemas críticos
- Ejemplo: En un sistema bancario, el sistema puede fallar al modelar correctamente flujos que dependen de múltiples condiciones regulatorias, estados intermedios o sistemas externos.
- Contextual understanding gaps: Dificultad para detectar defectos derivados de lógica de negocio, integración entre sistemas o coherencia de contexto
- Ejemplo: Una prueba pasa a nivel técnico porque el sistema no detecta que está aplicando un descuento incorrecto al no comprender la lógica de negocio asociada a esa promoción.
- False positives/negatives: Detección incorrecta de defectos, ya sea reportando errores inexistentes o no identificando fallos reales en determinadas condiciones
- Ejemplo: El sistema acepta como correcto un resultado incorrecto a nivel de datos, pero válido en estructura y forma
- Excessive dependency: Posible erosión del conocimiento técnico dentro de los equipos por dependencia excesiva de herramientas automatizadas
- Automation Bias: Sesgo de automatización que puede llevar a aceptar resultados sin suficiente validación (diversas investigaciones evidencian que hasta un 30-40% de las decisiones incorrectas por parte de sistemas de Inteligencia Artificial no son cuestionadas)
- ROI: Dificultad para medir de forma objetiva el retorno de inversión
- Hallucinations: Alucinaciones del modelo, es decir, generación de resultados incorrectos pero coherentes en apariencia (tasa estimada de entre un 5% a un 30% en tareas complejas dependiendo del contexto)
- Non-functional testing: Limitada capacidad para aportar valor en pruebas de rendimiento, escalabilidad, seguridad u observabilidad en comparación con el testing funcional.
En definitiva, riesgos que reflejan una brecha aún significativa entre el potencial teórico de la IA y su desempeño real en contextos complejos o críticos, donde la supervisión humana sigue siendo un elemento esencial.
La aparición de nuevas métricas
En este nuevo escenario donde la incorporación de modelos de lenguaje (LLMs) permite que la generación de casos de prueba pueda ser automatizada y masiva, resulta necesario incorporar nuevas métricas que permitan evaluar estos sistemas no deterministas mediante nuevos enfoques de medición que no se limiten exclusivamente a indicar cuánto se testea, sino la utilidad real de dicho testing.
Y es que a diferencia del testing tradicional, donde los resultados son binarios (éxito/error), los sistemas basados en IA requieren métricas que capturen grados de adecuación, coherencia o utilidad de las respuestas generadas.
Algunas de las propuestas más relevantes y emergentes que se han podido destacar son:
- Test Effectiveness Rate (TER): proporción de tests que detectan defectos reales frente al total ejecutado
- Signal-to-Noise Ratio: relación entre resultados relevantes (defectos válidos) y ruido generado (falsos positivos o tests redundantes)
- AI-generated Test Reliability: grado de confianza en los casos de prueba generados automáticamente, evaluado mediante validación cruzada, datasets de referencia (golden datasets) o revisión asistida por modelos
- Defect Detection Efficiency (DDE): capacidad para detectar defectos en fases tempranas del ciclo de desarrollo
- Actual coverage vs. generated coverage: diferencia entre la cobertura teórica generada por IA y la cobertura efectiva sobre funcionalidades críticas
- Test maintenance overhead: esfuerzo necesario para mantener, corregir o filtrar tests generados automáticamente
- LLM Evaluation Score: evaluación de la calidad de respuestas generadas mediante modelos evaluadores (LLM-as-a-judge), basados en criterios como relevancia, coherencia o corrección
- Hallucination Rate: proporción de respuestas generadas por IA que contienen información incorrecta o no verificable
- Task Success Rate: porcentaje de tareas completadas correctamente por sistemas autónomos o asistentes basados en IA
- Consistency Score: grado de estabilidad de las respuestas generadas ante inputs equivalentes o ligeramente modificados
Estas métricas reflejan un cambio de paradigma en la evaluación de calidad, pasando de un enfoque determinista basado en cobertura y ejecución, a un modelo probabilístico centrado en la fiabilidad, consistencia y utilidad de los sistemas asistidos por IA.
Adaptación del rol de QA en un entorno asistido por IA
Otra transformación significativa que supone la adopción de la inteligencia artificial más allá de los procesos de desarrollo y de QA y de las métricas de validación, es la que afecta directamente a las competencias y responsabilidades de los profesionales de QA.
Tradicionalmente, el rol del QA se centraba en el análisis de requisitos, el diseño de casos de prueba, la ejecución de tests y el reporte de defectos. En el contexto actual, este rol evoluciona hacia un perfil más estratégico, orientado a la supervisión, validación y gobernanza de sistemas automatizados.
Se consolida así el paradigma human-in-the-loop, en el que el profesional de QA asume funciones de supervisión, validación y auditoría que pueden variar según la seniority del perfil.
Impacto diferencial según nivel de experiencia
Perfiles junior (testers)
La IA actúa como un acelerador de aprendizaje y productividad, permitiendo:
- Generación asistida de casos de prueba
- Estandarización de reportes de defectos
- Incremento de la velocidad de ejecución
- Reducción de la barrera de entrada técnica
Perfiles intermedios (analysts)
El valor se centra en:
- Mejora del análisis de requisitos
- Supervisión y validación de escenarios generados por IA
- Incorporación de conocimiento de negocio en los modelos
- Identificación de edge cases y dependencias complejas
Perfiles senior (leads)
La IA facilita:
- Definición y optimización de estrategias de calidad
- Análisis de métricas avanzadas y nuevos KPIs
- Filtrado del ruido derivado de la automatización masiva
- Alineación entre calidad técnica y objetivos de negocio
Capacidades transversales
De forma transversal, emerge una nueva competencia clave para todos los niveles: la capacidad de definir prompts efectivos y proporcionar contexto adecuado a los sistemas de IA.
Asimismo, adquiere relevancia el conocimiento de prácticas DevOps para integrar estos sistemas en pipelines de CI/CD de manera eficiente y habilitar, así, ejecución selectiva de tests, donde estos mismos sistemas determinan qué pruebas ejecutar en función de cambios en el código, dependencias e historial de defectos, así como su priorización en función del riesgo.
A su vez, los denominados feedback loops permiten que estos sistemas aprendan continuamente a partir de los resultados obtenidos, optimizando progresivamente la cobertura, la priorización y la eficacia del testing.
No obstante, esta automatización avanzada requiere supervisión constante para evitar sesgos, decisiones incorrectas o pérdida de control sobre el proceso de calidad por lo que, en consecuencia, el QA pasa a convertirse en un orquestador de calidad en entornos asistidos por inteligencia artificial.
Nuevo rol: QA de sistemas y agentes de IA
Sin embargo, esta adopción de la IA y su transformación del QA funcional a orquestador de calidad no es el único cambio en relación al rol que la industria ha experimentado.
Y es que la proliferación de sistemas basados en inteligencia artificial introduce una nueva dimensión en el ámbito del QA: la necesidad de validación de estos sistemas no deterministas.
A diferencia del software tradicional, donde el comportamiento esperado es fijo y verificable mediante asserts deterministas, los sistemas de IA generan resultados probabilísticos y variables ante un mismo input. Por lo que el QA debe validar no tanto la exactitud de una respuesta concreta, sino la adecuación del comportamiento dentro de un rango aceptable. Esto implica evaluar aspectos como:
- Coherencia y relevancia de las respuestas
- Robustez ante inputs diversos o adversariales
- Consistencia de resultados ante inputs equivalentes
- Presencia de sesgos en las respuestas generadas
- Degradación del modelo a lo largo del tiempo (model drift)
En este contexto, adquieren especial relevancia los frameworks de evaluación de modelos de lenguaje, que combinan el uso de datasets de referencia (golden datasets), evaluaciones automatizadas mediante otros modelos (LLM-as-a-judge) y validación humana.
En definitiva, un nuevo rol de QA cuyo objeto de prueba dejará de ser las diferentes tipologías de aplicaciones con las que venía trabajando hasta la fecha para convertirse en asegurador de calidad de modelos no deterministas donde el enfoque de la validación ya no estará en outputs esperados sino en la adecuación del comportamiento o respuesta dentro de un rango variable y aceptable.
Costes y retos de adopción de la IA en QA
Toda esta adopción de inteligencia artificial y su proceso de transformación en los procesos de desarrollo y QA implica una inversión significativa, no solo a nivel tecnológico, sino también organizativo, operativo y de talento. Esta transformación, estrechamente ligada a la evolución del rol del QA, introduce nuevas exigencias que deben ser abordadas desde una perspectiva estratégica.
Desde el punto de vista técnico, conlleva desafíos relevantes:
Costes técnicos
- Integración de herramientas de IA en pipelines existentes
- Adaptación de arquitecturas para soportar automatización avanzada
- Gestión de infraestructuras más complejas (procesamiento, almacenamiento, observabilidad)
- Necesidad de herramientas adicionales para monitorizar, auditar y validar sistemas de IA
Costes operativos
- Incremento en la complejidad de los procesos
- Necesidad de supervisión continua de los sistemas automatizados
- Gestión del ruido generado por la automatización masiva
- Mantenimiento de modelos, prompts y configuraciones asociadas
Costes organizativos y de talento
- Necesidad de capacitación en nuevas competencias (prompt engineering, AI literacy, DevOps)
- Mayor exigencia de perfiles con conocimiento técnico profundo para validar resultados generados por IA
- Riesgo de dependencia tecnológica y pérdida de conocimiento interno si no se gestiona adecuadamente
Costes económicos
- Licencias de herramientas especializadas basadas en IA
- Costes de computación asociados al uso de modelos avanzados
- Inversión en formación y capacitación de equipos
- Incremento potencial en perfiles senior necesarios para supervisión y validación
Diversos estudios del sector reflejan que los costes iniciales de implementación pueden ser significativamente superiores a los de frameworks tradicionales, especialmente en fases de integración. Asimismo, la falta de talento especializado y la dificultad de integración con sistemas legacy se sitúan entre los principales obstáculos para su adopción ya que esta depende de la maduración de los modelos, la adaptación organizativa y la curva de aprendizaje de los equipos.
En consecuencia, la adopción de IA en QA debe abordarse como una inversión estratégica a medio y largo plazo, y no como una optimización inmediata de costes.
¿Sustitución o complementariedad?
Con todo lo anteriormente visto, abordemos, entonces, uno de los debates más recurrentes en la industria: ¿La inteligencia artificial sustituirá a los profesionales de QA?
La evidencia actual apunta claramente hacia un escenario de complementariedad. La IA actúa como un copiloto que automatiza tareas repetitivas y de bajo valor añadido, permitiendo a los profesionales centrarse en actividades de mayor complejidad, como el testing exploratorio, la validación de escenarios complejos, la evaluación de la experiencia de usuario o el análisis contextual ejerciendo un papel más estratégico centrado en la validación, supervisión y toma de decisiones.
De hecho, investigaciones académicas indican que la adopción de IA en testing aún se encuentra por detrás de su uso en desarrollo, evidenciando un testing gap donde las capacidades humanas siguen siendo críticas para garantizar la calidad final del software.
En definitiva, lejos de desaparecer, el rol evoluciona: cuanto mayor es la automatización, mayor es la necesidad de supervisión, criterio técnico y comprensión del negocio.
Y es que tal como dice Margarita Simonova para Forbes Technology Council en The State of Testing in 2025, la IA sugiere, pero la decisión sigue perteneciendo a los humanos.
Conclusión
La inteligencia artificial se ha consolidado como un elemento transformador en el ámbito del QA, redefiniendo tanto los procesos como los roles asociados al aseguramiento de calidad.
Lejos de representar una amenaza, su adopción constituye una oportunidad para evolucionar hacia un modelo más eficiente, estratégico y alineado con la creciente complejidad del desarrollo de software.
En un contexto caracterizado por la aceleración en la generación de código y la producción masiva de software, el QA adquiere un papel aún más relevante como garante de la calidad. La integración efectiva de la IA permitirá a los profesionales no solo incrementar su productividad, sino también reforzar su posicionamiento como actores clave dentro del SDLC.
No obstante, es necesario adoptar una visión realista frente al actual contexto de alta expectativa en torno a la inteligencia artificial. Si bien las capacidades de la IA son significativas, su implementación dista de ser completamente autónoma o exenta de limitaciones. Problemas como la generación de resultados inconsistentes, la falta de contexto de negocio, la presencia de sesgos o la necesidad de supervisión constante evidencian que estas tecnologías aún requieren una intervención humana significativa.
En este sentido, el valor de la IA no reside en sustituir al profesional de QA, sino en amplificar sus capacidades. La diferencia entre el potencial esperado y la realidad actual radica, en gran medida, en la correcta integración de estas herramientas, en la calidad del contexto proporcionado y en la capacidad crítica de los equipos para interpretar y validar los resultados generados.
En este nuevo escenario, la ventaja competitiva no residirá únicamente en adoptar IA, sino en la capacidad de integrarla de forma crítica, eficiente y alineada con los objetivos de calidad del producto. Porque, en última instancia, la calidad no es una propiedad del software, sino el resultado de las decisiones que toman quienes lo construyen y lo validan.
Referencias
- BrowserStack. (2026). State of AI in Software Testing 2026. Recuperado de https://www.browserstack.com/blog/inside-the-state-of-ai-in-software-testing-2026/
- CopilotQA. (2025). QA and Software Testing in 2025: Trends, Challenges, and AI Adoption. Recuperado de https://copilotqa.com/qa-and-software-testing-in-2025/
- Forbes Technology Council. (2025). The State of Testing in 2025: The AI Adoption Gap. Recuperado de https://www.forbes.com/councils/forbestechcouncil/2025/12/15/the-state-of-testing-in-2025-the-ai-adoption-gap/
- Forbes Technology Council. (2025). AI Is About to Reshape Millions of Software QA Jobs. Recuperado de https://www.forbes.com/councils/forbestechcouncil/2025/10/06/ai-is-about-to-reshape-millions-of-software-qa-jobs/
- Wifitalents. (2025). AI in Quality Assurance Testing: Statistics and Trends. Recuperado de https://wifitalents.com/ai-quality-assurance-testing-industry-statistics/
- Anthropic. (2024). Understanding AI Hallucinations and Model Behavior. Recuperado de https://www.anthropic.com/research
- Financial Times. (2025). AI hallucinations become a growing concern for enterprises. Recuperado de https://www.ft.com/content/e074d3a9-7fd8-447d-ac0a-e0de756ac5c5
- arXiv. (2026). An Empirical Study on AI-Assisted Software Testing in Real-World Repositories. Recuperado de https://arxiv.org/abs/2603.13724
- arXiv. (2026). The Testing Gap: Adoption of AI in Software Development vs Quality Assurance. Recuperado de https://arxiv.org/abs/2601.21305
- arXiv. (2025). Challenges and Limitations of AI in Software Testing: A Systematic Review. Recuperado de https://arxiv.org/abs/2504.04921



