Mejorando la detección de fracturas con inteligencia artificial

Resumen

Objetivos: presentamos nuestra experiencia implantando un software de inteligencia artificial (IA) para detectar fracturas en radiografías. En la medicina laboral es crucial el diagnóstico temprano y preciso de las fracturas para reducir los casos no detectados.

Métodos: revisamos el proyecto de implantación de la IA para el análisis de radiografías en nuestra mutua explicando cómo se utiliza en la práctica clínica y analizando los resultados más relevantes obtenidos (encuesta a médicos usuarios e indicadores asistenciales) tras un año de uso.

Resultados: más de un 80% de los médicos consultados utiliza la valoración de la IA y considera que es una ayuda en el diagnóstico de las fracturas. Hemos observado una significativa reducción de las fracturas no detectadas que llegan a la resonancia magnética (RM) sin diagnosticar (62% de reducción en fracturas de muñeca) y una disminución del 11% en la demanda de RM. Revisamos el comportamiento de la IA en el diagnóstico de fracturas, analizando falsos positivos y negativos. Exponemos las dificultades y controversias a las que nos hemos enfrentado en el desarrollo del proyecto y discutimos la eficacia y la seguridad de esta tecnología, así como algunos aspectos médico-legales de interés.

Conclusiones: en nuestra experiencia, la IA ayuda a los médicos en el diagnóstico de fracturas, mejora la seguridad al reducir errores y retrasos, y su integración en el proceso asistencial es sencilla. Es esencial que el médico supervise los resultados, ya que él establece el diagnóstico final. La evaluación de la eficacia de los modelos de IA va más allá de la eficacia clínica y es necesario considerar que su introducción puede también generar riesgos.

Relevancia clínica: la IA puede facilitar la detección de fracturas, reduciendo errores diagnósticos y contribuyendo a un mejor resultado en la práctica clínica.

Abstract

Objectives: we present our experience implementing artificial intelligence (AI) software to detect fractures in X-rays. In occupational medicine, early and accurate diagnosis of fractures is crucial to reduce undetected cases.

Methods: we review the project of implementing AI for X-ray analysis in our mutual insurance, explaining how it is used in clinical practice, and analyzing the most relevant results obtained (user surveys and clinical indicators) after one year of use.

Results: more than 80% of the consulted physicians use the AI assessment and consider it helpful in diagnosing fractures. We have observed a significant reduction in undetected fractures that reach magnetic resonance imaging (MRI) without diagnosis (62% reduction in wrist fractures), and an 11% decrease in MRI demand. We reviewed the AI’s performance in fracture diagnosis, analyzing false positives and negatives. We discuss the difficulties and controversies encountered during the project’s development and discuss the effectiveness and safety of this technology, as well as some medico-legal aspects of interest.

Conclusions: in our experience, AI assists physicians in diagnosing fractures, improves safety by reducing errors and delays, and its integration into the care process is straightforward. It is essential that the physician supervises the results, as they make the final diagnosis. The evaluation of the effectiveness of AI models goes beyond clinical effectiveness, and it is necessary to consider that its introduction may also generate risks.

Clinical relevance: AI can facilitate the detection of fractures, reducing diagnostic errors and contributing to better outcomes in clinical practice.

Palabras clave

Keywords

Fractures Radiography Artificial intelligence Radiology Occupational medicine

Introducción

Las fracturas constituyen un problema sanitario de primer orden⁽¹⁾ cuyo diagnóstico preciso y a tiempo tiene un gran impacto en el tratamiento y el pronóstico de la persona. Sin embargo, las fracturas son la causa más frecuente de diagnóstico fallido en los servicios de urgencias^(2,3,4). Las radiografías son el método utilizado inicialmente para diagnosticar una fractura por su amplia disponibilidad, sencillez y eficacia diagnóstica. No obstante, es un hecho conocido que un porcentaje considerable (hasta un 15%) no se detectan con esta técnica de imagen^(5,6,7,8,9); son las llamadas “fracturas ocultas”.

La interpretación de una radiografía depende de la experiencia y la formación específica del personal médico para el análisis radiológico de fracturas. Pero, además, está sujeta a la subjetividad y al error humano, especialmente en determinadas localizaciones, en fracturas múltiples y en fracturas con signos sutiles, y su interpretación consume un tiempo importante en la asistencia a urgencias. Algunas facturas son obvias en la radiografía, mientras que otras con signos sutiles pueden pasar inadvertidas o, en otros casos, la imagen se malinterpreta como una variante anatómica o secuela de una lesión antigua⁽³⁾. Debido a estos factores, es complejo definir en qué proporción estas fracturas ocultas corresponden a fallos diagnósticos que se podrían haber evitado. Algunos de estos casos no llegan a diagnosticarse adecuadamente y en otros casos se establece finalmente el diagnóstico empleando técnicas de imagen más avanzadas como la tomografía axial computarizada (TAC) o la resonancia magnética (RM), con el consiguiente retraso en el diagnóstico y la instauración de un tratamiento apropiado.

Estos aspectos cobran más importancia en el contexto de la medicina laboral, ya que el diagnóstico definitivo de fractura incide en la determinación de la contingencia, con repercusión en la situación de incapacidad laboral temporal. En nuestra mutua, los traumatismos agudos constituyen la primera causa de asistencias y se realiza al menos una radiografía a más de la mitad de los pacientes atendidos. Otro factor que tener en cuenta es el hecho de que en las mutuas suelen coexistir diferentes perfiles de médicos, con experiencia y formación variables en la interpretación de radiografías.

La inteligencia artificial (IA) está revolucionando el ámbito sanitario, al aportar una serie de herramientas informáticas que ejecutan funciones comparables a las que realiza la mente humana, como el razonamiento, el aprendizaje, la resolución de problemas y la toma de decisiones, con diferentes grados de autonomía. Las soluciones de IA están demostrando ser especialmente valiosas en el diagnóstico por imagen. Gracias a su capacidad para manejar grandes volúmenes de datos y aprender de ellos, los sistemas de IA son capaces de identificar patrones y anomalías que pueden pasar desapercibidos para el ojo humano, mejorando así la precisión diagnóstica y reduciendo el tiempo necesario para llegar a un diagnóstico.

En este artículo presentamos la experiencia en nuestra mutua implantando una solución de IA que identifica y señala las fracturas en las radiografías de un modo sencillo, rápido y totalmente automatizado, con el objetivo de disminuir en la medida de lo posible el volumen de fracturas ocultas y los errores y retrasos diagnósticos.

Métodos

Tras tomar la decisión de implantar una solución de IA para la detección de fracturas, se constituye un equipo de proyecto integrado por personas de las áreas de Dirección, Sistemas de Información y Asistencia Sanitaria. Comenzamos evaluando los sistemas existentes en el mercado, la literatura científica y las experiencias presentadas en congresos médicos del sector, así como en otras organizaciones sanitarias. Seleccionamos el proveedor (Gleamer), apoyándonos en los buenos resultados publicados en la literatura científica y su liderazgo en el sector. Según los estudios publicados^(10,11,12), este algoritmo de IA reduce en un 30% las fracturas no detectadas, consigue hasta un 98% de sensibilidad y un 88% de especificidad para la detección de fracturas, e incrementa la detección de fracturas en un 10%, aproximadamente. A la hora de redactar y firmar el contrato con el proveedor de la tecnología, tuvimos en cuenta los aspectos relacionados con la confidencialidad, la calidad y la integridad de los datos, y la seguridad de las comunicaciones.

La solución se integra en el proceso asistencial de manera sencilla, de modo totalmente automatizado (Figura 1), gracias a la naturaleza digital de la imagen médica desde que se genera hasta que se archiva y distribuye por medio de un PACS (picture archiving and communication system). La implantación no requiere instalación de infraestructura de sistemas de información. Tras una recogida de requisitos técnicos, se realiza la conexión entre nuestro PACS y el servidor de la empresa proveedora, con una configuración que garantiza la seguridad de las comunicaciones. Las imágenes son pseudoanonimizadas durante su análisis para asegurar la confidencialidad y la protección de datos de la persona, y son borradas del servidor de la empresa proveedora tras 24 horas.

En nuestro caso, decidimos que toda radiografía que llega al PACS se enviara directamente y de manera automática al análisis por la IA, evitando un uso “a demanda” del médico, para favorecer su consulta. El resultado del análisis es devuelto al PACS en un plazo de 1-2 minutos, poniéndolo a disposición del personal médico para su valoración. Los resultados se presentan de manera clara y fácil de interpretar, en 3 niveles: negativo, dudoso o positivo (Figura 2); los dos últimos señalan con un recuadro en la radiografía la imagen de fractura. La diferencia entre un resultado positivo (recuadro con línea continua) y uno dudoso (recuadro con línea discontinua) estriba en un nivel de confianza alto o intermedio para la lesión detectada. Esta solución de IA detecta fracturas en todas las localizaciones anatómicas excepto el cráneo y la columna cervical, y, además, identifica derrames articulares, luxaciones y lesiones óseas. Como control de calidad, se indica el número de imágenes recibidas y el número de imágenes analizadas.

Tras realizar las primeras pruebas, presentamos el proyecto a los profesionales sanitarios en una sesión clínica. La implantación transcurrió sin problemas desde el punto de vista técnico, analizándose todas las radiografías realizadas en toda nuestra red asistencial (3 clínicas y 12 centros asistenciales) y también las realizadas por proveedores externos que son incorporadas a nuestro PACS. Mantuvimos reuniones de seguimiento del proyecto con la empresa proveedora al mes de su implantación y a los 3 meses, y organizamos una segunda sesión clínica 2 meses después de implantar la IA para solucionar las dudas que hubieran podido surgir al personal sanitario durante su uso. En este tiempo no han ocurrido incidencias técnicas, estando siempre disponibles los resultados del análisis en el tiempo previsto.

A los 3 meses de la implantación, hemos llevado a cabo una encuesta entre los médicos para evaluar su opinión sobre la IA. Además, hemos realizado un seguimiento de los resultados obtenidos, analizando los falsos negativos y positivos detectados. En una localización anatómica específica (muñeca), hemos valorado la posible reducción de fracturas no detectadas inicialmente en la radiografía. Para ello, hemos medido las fracturas de muñeca que llegan a la RM sin diagnosticar comparando un periodo previo a la introducción de la IA con otro tras dicha implantación.

Resultados

Mejora en el diagnóstico de fracturas

Aunque no hemos realizado un estudio de sensibilidad y especificidad por la complejidad que entraña en la práctica asistencial, consideramos que los resultados son satisfactorios, en línea con lo publicado en la literatura científica. Destacamos la eficacia del algoritmo en la detección de pequeñas fracturas arrancamiento (Figura 3), fracturas de radio distal y proximal (Figura 4), y fracturas múltiples (Figura 5).

Otro resultado importante es la reducción del número de pacientes con fractura que deben acceder a técnicas avanzadas de imagen, como la RM, para conseguir un diagnóstico de su patología, tras un tiempo variable de persistencia de la sintomatología y una radiografía inicial negativa para fractura. En el periodo de 6 meses antes de la introducción de la IA se identifican 52 fracturas de muñeca no conocidas, entre 550 RM de muñeca realizadas, con una tasa de fracturas “ocultas” del 9,5%. En el periodo de 3 meses postimplantación de la IA, se identifican 10 fracturas de muñeca no conocidas entre 222 RM realizadas, con una tasa de fracturas ocultas del 4,5%. Hemos observado, por lo tanto, una reducción del 62% de las fracturas ocultas de muñeca que llegan a la RM sin diagnosticar.

Los falsos positivos corresponden a imágenes patológicas interpretadas como fracturas por la IA pero que, en realidad, se deben a otras patologías que en general son fácilmente identificables: patología degenerativa, fracturas antiguas, calcificaciones (Figura 6), etc. En la valoración de estos falsos positivos es esencial la correlación clínica, valorando si el mecanismo lesional es congruente con la posible fractura señalada y si la clínica es consistente. Como regla general, hay que considerar seriamente la posibilidad de fractura cuando la IA señala una fractura y la sintomatología es coincidente. En algunos casos, la IA señala erróneamente como fracturas algunas imágenes de superposición o debidas a una mala técnica radiográfica.

Es importante entender que la IA señala las fracturas antiguas como “fractura”. En el caso de las fracturas aplastamientos vertebrales, la IA detecta los aplastamientos, pero únicamente una RM puede establecer si el aplastamiento es reciente, al identificar el edema óseo asociado (Figura 7).

Los resultados falsos negativos también pueden ocurrir, normalmente en un porcentaje menor que los falsos positivos. Hay que recordar que este proceso diagnóstico no sustituye al personal médico: se trata de un proceso supervisado en el que la IA es una herramienta de ayuda, pero es el personal médico quien emite un diagnóstico final, contextualizando la recomendación de la IA.

Resultados en los médicos usuarios

El 80,65% del personal encuestado reconoce consultar la IA durante la elaboración de sus diagnósticos y en un 92% de los casos los resultados coinciden con el diagnóstico final. Por otro lado, el 88% considera que la IA ayuda a detectar fracturas y un 80% reconoce que ayuda a ganar tiempo en la elaboración del diagnóstico. El 93,55% considera que ha sido una buena decisión implantar la IA en la organización.

Resultados en los pacientes

Los pacientes son los destinatarios finales de esta tecnología, ya que un diagnóstico precoz y preciso de sus fracturas facilita un tratamiento apropiado desde el principio, disminuyendo los riesgos y mejorando su pronóstico.

Resultados para la mutua

Aunque no lo hemos medido, esta mejora de la eficacia de nuestra prestación asistencial tiene un impacto económico, al evitar el uso de técnicas de imagen más costosas e innecesarias y al reducir el tiempo de asistencia sanitaria y de incapacidad laboral. Hemos constatado una reducción del 11% en el número de RM solicitadas en un periodo equivalente el año anterior. Son muchos los factores que influyen en la demanda de RM, pero creemos que es posible que la IA sea responsable en parte de ello. Además, esta herramienta tiene el potencial de evitar quejas y reclamaciones por fallos y retrasos diagnósticos.

Discusión

En los últimos años han comenzado a aparecer en el mercado soluciones de IA que detectan y señalan las fracturas en las radiografías, pero no ha sido hasta hace poco cuando han alcanzado una fiabilidad y una rapidez en el análisis que permitieran integrarlas con garantías en la práctica asistencial⁽¹³⁾. La plataforma Grand Challenge⁽¹⁴⁾ recoge y actualiza las soluciones de IA en imagen biomédica que cumplen con las regulaciones establecidas, así como sus principales características.

Estamos ante una tecnología disruptiva que está introduciendo cambios sustanciales en la práctica clínica, obligando a las organizaciones sanitarias a adaptarse para sacar el máximo beneficio de esta nueva herramienta. Son aún pocos los centros sanitarios que las han incorporado a su práctica asistencial por incertidumbres médico-legales y por la resistencia en algunos casos de los propios profesionales sanitarios, a quienes esta transformación puede generar más preguntas que respuestas. La decisión de implantar una solución de IA para analizar las radiografías en nuestra mutua ha resultado positiva en términos generales, como lo demuestran los resultados obtenidos en los diferentes grupos de interés.

En este escenario, la elección de un proveedor concreto entre las múltiples opciones disponibles puede resultar compleja⁽¹⁵⁾, ya que nos enfrentamos a una tecnología innovadora. A pesar de los excelentes resultados en la literatura científica y las presentaciones optimistas de los proveedores, la implantación en la práctica clínica presenta algunos retos, como conocer los límites y los riesgos potenciales, y hay pocos estándares de calidad definidos. Desde el punto de vista asistencial, al analizar esta tecnología en la práctica clínica debemos considerar y evaluar su eficacia (¿cumple el objetivo de detectar fracturas?), su seguridad (¿genera algún riesgo en el proceso asistencial?, ¿cumple con las regulaciones y la legislación?) y la satisfacción del usuario de la herramienta (¿está satisfecho el médico que la utiliza?).

La eficacia de la IA para identificar fracturas se puede determinar a través de diferentes métodos. El más empleado es la correlación con un estándar que se considera el patrón oro, como puede ser una técnica de imagen avanzada (TAC o RM), la opinión de un facultativo considerado experto o el consenso de varios expertos. Sin embargo, ninguno de estos patrones oro pueden garantizar una detección del 100% de las fracturas. Teniendo en cuenta estas limitaciones, consideramos que los resultados publicados en la literatura con sensibilidades y especificidades en general por encima del 80%^(10,11,12) apoyan la validez de estos sistemas. Otro método para medir su eficacia es comparar la tasa de detección de fracturas sin emplear la IA frente a la valoración del profesional asistido por la IA, lo cual reproduce más fielmente la práctica clínica habitual. En general, los mejores resultados se obtienen cuando se evalúa la eficacia diagnóstica del médico asistido por la IA^(10,12,16), si bien se ponen de manifiesto las diferencias entre un lector experto y uno no experto, que es el que más se beneficia de una herramienta de ayuda. Un estudio reciente señala que la valoración por el médico radiólogo supera a la de la IA en la detección de fracturas⁽¹⁶⁾, aunque en la mayoría de los estudios publicados, todos los lectores de radiografías incrementan la detección de fracturas cuando usan la valoración de la IA.

Al evaluar el impacto de estas tecnologías en la práctica asistencial no solo hay que valorar su precisión diagnóstica, sino también conocer los aspectos regulatorios y de seguridad. Estos softwares se consideran productos sanitarios y, como tales, deben tener el marcado CE para comercializarse en la Unión Europea y la aprobación de la U.S. Food and Drug Administration (FDA) en el caso de los Estados Unidos. La Comisión Europea clasifica los productos sanitarios en 4 grupos de riesgo (I, IIa, IIb, III). Debido al potencial de afectar a la seguridad de los pacientes, las herramientas de IA en imagen biomédica se clasifican generalmente como sistemas de tipo II, siendo considerados por lo tanto como sistemas de medio riesgo. Las instituciones europeas están desarrollando además una importante actividad legislativa sobre la IA para garantizar que se cumplan unos requisitos de seguridad y prevenir daños a los usuarios. La Ley de Inteligencia Artificial de la Unión Europea⁽¹⁷⁾ (ley IA-UE) considera 4 niveles de riesgo (mínimo, limitado, alto e inaceptable), aunque aún no se ha definido con claridad qué prácticas son de alto riesgo. El principio de supervisión de los resultados de la IA es uno de los pilares fundamentales de la ley de IA-UE, que impone como requisito imprescindible que los softwares de IA sean supervisados de manera efectiva por personas físicas. Es necesario definir, por lo tanto, con qué nivel de supervisión se va a integrar la IA en un proceso diagnóstico concreto: como herramienta supervisada, como asistente o como un diagnóstico totalmente automatizado⁽¹⁸⁾. Lo recomendable desde un enfoque de riesgos es utilizar la IA como una herramienta, supervisando el médico el 100% de los casos. En este escenario, se usa como apoyo a la decisión del médico, que es quien determina el diagnóstico final. Es siempre el médico el responsable legal en caso de error y no supervisar los resultados de la IA se considera una conducta de alto riesgo legal. Los algoritmos que identifican las fracturas se basan en un aprendizaje a través de imágenes anotadas (imagen radiológica que asocia el diagnóstico final), pero carecen de contexto clínico, que es precisamente lo que aporta el juicio del médico. En cualquier caso, es importante que la organización disponga de una política de IA que garantice el cumplimiento de los principios fundamentales establecidos en la Ley IA-UE: privacidad y gobernanza de datos, solidez y seguridad técnica, intervención y supervisión humana, y transparencia.

La integración de la IA requiere una adaptación no solo tecnológica, sino también organizativa, con una formación adecuada de los profesionales y la implementación de protocolos claros que aseguren su correcta aplicación y supervisión. La aceptación y la confianza por parte del personal médico son elementos cruciales para el éxito de esta innovación. En este sentido, es fundamental que los médicos vean la IA como una herramienta de apoyo que complementa y mejora su labor, sin reemplazar su juicio clínico. La interacción entre los médicos y la IA puede presentar desafíos, como el sesgo de automatización, donde la tendencia humana a confiar en las decisiones de la IA puede llevar a errores diagnósticos si la evaluación de la IA no es correcta. También puede ocurrir el sesgo contrario, cuando la persona tiende a rechazar la decisión de la IA. En nuestra experiencia, la aceptación por parte del personal médico ha sido mayoritariamente positiva, valorando su integración como una herramienta complementaria que optimiza sus capacidades diagnósticas. Creemos que esta herramienta es más valorada por profesionales con menor experiencia o formación en radiografías, y en equipos pequeños de trabajo, con menor posibilidad de interconsulta. Asimismo, es importante la percepción de apoyo que tiene el médico y la posibilidad de contemplarlo como una herramienta que favorece el aprendizaje. La doble comprobación que supone la IA reduce el tiempo dedicado al análisis y la interpretación de la radiografía, y aumenta la confianza diagnóstica.

Uno de los aspectos que generó más problemas a los médicos al implantar la IA fue el hecho de que los resultados eran accesibles para los pacientes de manera inmediata a través de nuestra aplicación, ya que iban unidos a la propia radiografía, que es subida de manera automática a la aplicación y puesta a disposición del paciente. Esto fue algo no previsto, que obligaba a los médicos a explicar a los pacientes en qué consiste este análisis de la IA. Decidimos añadir un mensaje junto a la valoración de la IA: “Esta información preliminar ha sido obtenida por inteligencia artificial (IA) y su resultado solo será válido cuando lo valide el servicio médico de la mutua”. Actualmente, estamos preparando una solución para que la valoración de la IA no suba junto con las radiografías a la aplicación, ya que consideramos que la persona cualificada para valorar este análisis es el médico.

Conclusiones

Consideramos que esta experiencia ha aumentado la eficacia y la eficiencia de nuestro proceso diagnóstico, al mejorar la detección de fracturas y reducir el uso de técnicas de imagen más avanzadas, y abre la puerta a futuras implantaciones de IA en el diagnóstico por imagen. Adicionalmente, hemos observado que la satisfacción de los médicos con la herramienta ha sido un resultado relevante, según demuestra la encuesta de satisfacción. La doble comprobación que supone la IA reduce el tiempo dedicado al análisis y la interpretación de la radiografía, y aumenta la confianza diagnóstica, especialmente en los casos de profesionales con menor experiencia o formación y equipos de trabajo pequeños. Sin embargo, también se han identificado desafíos relacionados con la implementación de la IA en la práctica clínica. Es esencial conocer y comprender sus límites, riesgos e implicaciones médico-legales para garantizar su uso adecuado y minimizar posibles errores.

Figuras y tablas