IA, DESARROLLO-PRODUCTO, VOICIT, ARQUITECTURA-TÉCNICA, ENTREVISTA-CONDUCTUAL, EVALUACIÓN-COMPETENCIAS

Cómo construimos un sistema de IA para evaluar competencias a partir de conversaciones

Nov 18, 2025 Rafa Torres García

En Voicit generamos informes de entrevistas para procesos de selección. Una de nuestras funcionalidades más complejas es la evaluación de competencias por incidentes críticos: un sistema que analiza conversaciones y determina el nivel de competencia de un candidato en base a evidencias conductuales.

Esta es la historia técnica de cómo lo construimos, la metodología detrás y lo que aprendimos por el camino.

Contexto: Qué problema resolvemos

En Voicit, los usuarios pueden generar informes de sus entrevistas usando plantillas de informe. Estas plantillas permiten añadir secciones que extraen información específica: experiencia laboral, rango salarial, skills técnicas, etc.

Entre estas secciones, algunas son sencillas y otras complejas. La evaluación de competencias por incidentes críticos es de las complejas.

Los usuarios pueden seleccionar competencias de nuestro diccionario de competencias, que incluye tanto competencias definidas por Voicit como personalizadas que los equipos pueden crear y compartir. Cada competencia tiene:

Nombre
Definición o descripción
Niveles de evaluación (Ej: Básico, Intermedio, Avanzado, Experto)

El resultado para cada competencia incluye:

Nivel detectado con su definición
Justificación del nivel analizando los patrones y limitaciones detectadas en los incidentes críticos
Incidentes críticos usados para determinar el nivel
Recomendaciones sobre qué profundizar

El reto era: ¿cómo extraer evidencia conductual de una conversación y mapearla a niveles de competencia de forma fiable y útil para combinarlo con los resultados de tests formales?

La arquitectura en tres fases

Dividimos el problema en tres fases, cada una con una responsabilidad clara.

Fase 1: Extracción y clasificación de incidentes críticos

Objetivo: Identificar fragmentos de conversación que demuestren la presencia (o ausencia) de una competencia específica.

El sistema de IA analiza:

La transcripción de la entrevista
El nombre de la competencia
La definición de la competencia (del diccionario del usuario)

Insight clave: No toda evidencia es un incidente crítico, pero todo incidente crítico sí es evidencia.

Esta distinción es clave al trabajar con IA, que tiende a interpretar cualquier evidencia como incidente crítico válido. Necesitábamos evidencia conductual sólida: relatos completos de comportamiento.

Cada incidente crítico sigue el modelo SAR (Situación-Acción-Resultado) y se clasifica en un objeto JSON:

Campo	Rol	Observaciones
impact	Valoración global del episodio	“positivo” / “negativo” – refleja eficacia conductual
intensity	Nivel de fuerza del incidente	“débil” / “moderada” / “fuerte”
intensity_reason	Justificación de la intensidad	Permite auditar y automatizar ponderaciones
context.situation	Contexto o entorno	Indispensable (define el escenario)
context.task	Responsabilidad u objetivo	Indispensable (define el rol de la persona)
behavior	Acción(es) específica(s)	Opcional si el candidato no detalla conductas claras
result	Consecuencia o impacto observable	Opcional, pero valioso para calibrar la eficacia
learning	Reflexión o aprendizaje derivado	Opcional, muestra madurez o autoconciencia
timeKeys	Localización temporal	Muy útil para auditar o revisar extractos de audio/video

Esta clasificación asegura que los incidentes críticos tengan parámetros de calidad suficientes para servir en la evaluación posterior de nivel. Por eso, de momento no hay una fase intermedia para evaluar la calidad de los incidentes extraídos: la propia estructura fuerza la calidad.

Fase 2: Evaluación del nivel de la competencia

Objetivo: Determinar el nivel alcanzado en una competencia específica basándose en los incidentes críticos extraídos en la Fase 1, integrando tanto evidencias positivas como negativas.

Fundamento metodológico: Basado en modelos BEI (Behavioral Event Interview) y la Técnica del Incidente Crítico (Flanagan, 1954).

El nivel de competencia se deduce de:

Consistencia de comportamientos observados en distintas situaciones
Complejidad de contextos donde se manifiestan los comportamientos
Grado de autonomía e impacto demostrado
Capacidad de aprendizaje o transferencia a nuevos escenarios

El sistema analiza todos los incidentes críticos (positivos y negativos) y los contrasta con las definiciones de nivel del diccionario de competencias.

Estructura de salida:

Campo	Rol	Observaciones
level_label	Identificador del nivel asignado	Nombre de los niveles existentes en la competencia dentro del diccionario.
level_definition	Descripción del nivel asignado	Definición del nivel existente en la competencia dentero del diccionario.
confidence_score	Grado de confianza (1–10)	1 = muy baja confianza (poca/débil evidencia), 10 = máxima confianza (múltiples incidentes sólidos y consistentes).
critical_gaps	Lista de deficiencias críticas	Identifica áreas sin evidencia o con evidencia insuficiente (ej: “Falta de resultados medibles”, “No se observaron comportamientos de liderazgo”).
critical_incidents_justification	Vínculo entre incidentes y nivel	Lista describiendo cómo cada incidente crítico contribuye (o limita) el nivel asignado.
critical_incidents_justification[].incident_id	Identificador único del incidente	ID de la Fase 1, mantiene la trazabilidad.
critical_incidents_justification[].content	Descripción del incidente y relevancia	Resumen interpretativo describiendo qué comportamiento o hecho fue relevante.
critical_incidents_justification[].relevance_to_level	Interpretación del impacto en el nivel	Explica cómo el incidente refuerza o limita la competencia respecto al nivel seleccionado.

Criterios clave:

Los incidentes positivos fuertes refuerzan niveles altos si muestran comportamientos observables con impacto o autonomía
Los incidentes negativos fuertes pueden limitar el nivel máximo posible si afectan aspectos esenciales (ética, liderazgo, resultados)
Si los incidentes son insuficientes, ambiguos o rutinarios, se asigna un nivel inferior y se documenta el gap de evidencia
El confidence_score refleja el grado de certeza del modelo (1–10) basándose en cantidad, coherencia e intensidad de incidentes disponibles

El resultado de esta fase no es narrativo, sino estructurado y explicativo. Define el nivel alcanzado, los motivos y áreas sin evidencia suficiente. Esto se convierte en la base para la Fase 3.

Fase 3: Generación del resumen de la competencia

Objetivo: Transformar la evaluación estructurada de la Fase 2 en un resumen narrativo interpretativo que:

Presente claramente los hechos que sustentan la evaluación del nivel
Sintetice patrones conductuales, consistencia y transferibilidad de la competencia
Destaque los gaps críticos identificados

Este resumen está diseñado para que el consultor de selección o reclutador se apoye en él junto con su juicio profesional y el test formal de competencias, para obtener una conclusión clara.

Estructura del resumen:

Nivel asignado y definición

Indica nivel final junto con su descripción

Justificación del nivel: patrones y limitaciones

Explica comportamientos recurrentes, cómo se relacionan y qué nivel de complejidad o autonomía implican
Limitaciones encontradas, relacionándolas con el nivel de competencia asignado

Evidencias de soporte

Resume comportamientos, contextos y resultados observados en los incidentes críticos más representativos
Qué hizo (comportamiento)
En qué contexto y tarea
Qué resultado obtuvo
Qué aprendizaje o desarrollo mostró
Ofrece las referencias de tiempo para encontrarlo en la conversación

Aspectos a profundizar

Análisis de aspectos que necesitan explorarse más para mejorar la evaluación de la competencia

Cómo lo utilizan realmente los equipos de selección

Una parte importante de este análisis de competencias por incidentes críticos es cómo lo usan los equipos de selección.

Voicit les ofrece orientación sobre el nivel de competencia y evidencias sobre su experiencia profesional que pueden usar para:

Contrastar con sus propias conclusiones
Comparar con resultados de tests de competencias
Complementar resultados de tests con incidentes críticos detectados

Esto permite una evaluación final de competencia más completa y objetiva.

No se trata de reemplazar el juicio humano, sino de dar a los consultores evidencia estructurada y trazable para tomar mejores decisiones.

El aprendizaje sorprendente: los modelos de razonamiento no siempre son mejores

Uno de los hallazgos más interesantes durante el desarrollo: los LLMs de razonamiento no son necesarios para este tipo de análisis.

No mejoran los resultados y añaden un delay de tiempo muy alto.

Para análisis conductual estructurado con frameworks claros (como el modelo SAR y diccionarios de competencias), los LLMs tradicionales con buen prompting superan a los modelos de razonamiento tanto en calidad como en velocidad.

Esto fue contraintuitivo pero consistente en todas nuestras pruebas.

Resumen de implementación

La sección de evaluación de competencia por incidentes críticos extrae incidentes críticos que incluyen: impacto, intensidad, razón de intensidad, situación, tarea, comportamiento, resultado, aprendizaje y referencias temporales.

Con estos datos se evalúa el nivel de competencia basándose en el diccionario de competencias. La evaluación genera:

Nivel y definición de la competencia
Confianza de la evaluación
Limitaciones críticas
Justificación del nivel según incidentes críticos

Finalmente, se crea un resumen para el consultor, mostrando el nivel asignado y su definición, justificación, incidentes críticos analizados y recomendaciones para profundizar basadas en limitaciones detectadas.

Por qué importa esto

Construir este sistema nos enseñó que la IA no reemplaza la experiencia, la estructura.

La metodología (BEI, Técnica del Incidente Crítico) existía mucho antes de los LLMs. Lo que la IA permite es:

Escala - Analizar horas de conversación en minutos
Consistencia - Aplicar el mismo framework uniformemente
Trazabilidad - Vincular cada conclusión a evidencia específica
Aumento - Dar a los consultores herramientas para tomar mejores decisiones más rápido

La magia no está en la IA. Está en combinar metodología sólida con la capacidad de la IA para procesar y estructurar información a escala.

FAQs

¿La definición del mismo nivel de competencia puede variar entre candidatos? +

No. La definición del nivel se mantiene fija, según el diccionario de competencias.

Lo que sí varía es la justificación: se adapta a los incidentes críticos y evidencias observadas en cada entrevista, que son únicos para cada candidato.

¿Qué información se genera para una competencia? +

Las competencias se analizan basándose en incidentes críticos mencionados en la conversación. De estos incidentes críticos extraemos:

Nivel detectado y definición
Justificación del nivel detectado basada en incidentes críticos
Lista de evidencias
Recomendaciones sobre qué puntos profundizar para mejorar la evaluación de la competencia

Esta es otra píldora de cómo he construido producto en Voicit. Si estás trabajando en desafíos similares con IA y análisis estructurado, me encantaría conocer tu enfoque.