Objetivos
Evaluar de forma independiente la aplicación móvil de la Organización Mundial de la Salud (OMS) dirigida a las enfermedades cutáneas tropicales desatendidas (Skin NTDs App), centrándose en el desempeño diagnóstico de su modelo de inteligencia artificial subyacente en la detección de la lepra. El objetivo principal fue determinar la proporción de imágenes en las que la lepra aparecía entre las cinco mejores predicciones diagnósticas del modelo. El objetivo secundario fue analizar cualitativamente los patrones de error diagnóstico.
Métodos
Se analizó un conjunto de datos de 439 imágenes clínicas anonimizadas de casos confirmados de lepra (1996-2024), que abarcaban todo el espectro clínico (formas indeterminada, tuberculoide, limítrofe o dimórfica, y lepromatosa o virchowiana) e incluían presentaciones reactivas y atípicas. Tras descartar 16 imágenes debido a errores de procesamiento, se conservaron 423 imágenes: 367 lesiones clásicas de lepra y 56 presentaciones reactivas o atípicas relacionadas con la lepra. Todas las imágenes se evaluaron con la versión de escritorio del clasificador visual de la OMS. Se estimó la sensibilidad (capacidad de detección) para la lepra considerando las cinco primeras opciones diagnósticas propuestas por el modelo, junto con un análisis cualitativo de errores centrado en las incongruencias entre lesiones de un mismo paciente y en los tipos de lesiones difíciles de clasificar.
Resultados
El modelo alcanzó una sensibilidad general del 84,9% dentro de las cinco primeras predicciones diagnósticas, y mostró mayor sensibilidad para las lesiones clásicas (87,2%) que para las presentaciones reactivas o atípicas (69,6%). La revisión cualitativa puso de manifiesto incongruencias en las predicciones frente a lesiones visualmente similares de un mismo paciente, y se observó una concentración de errores de clasificación en las lesiones necróticas, inflamatorias e infiltrativas.
Conclusiones
La aplicación Skin NTDs App resulta muy prometedora como herramienta educativa y de apoyo para la toma de decisiones clínicas, sobre todo en el caso de la lepra clásica. Las diferencias de desempeño en el caso de las formas reactivas y atípicas hacen patente la necesidad de perfeccionar el algoritmo. Aumentar la diversidad de los conjuntos de datos e integrar el contexto a nivel del paciente podría mejorar la solidez diagnóstica.
