Dé rienda suelta a la IA de predicción de ataques cardíacos con herramientas ‘sin código’
Este es el segundo episodio de exploración del aprendizaje automático “sin código”. En nuestro primer artículopresentamos nuestro conjunto de problemas y discutimos los datos que usaríamos para probar si una herramienta de ML altamente automatizada diseñada para analistas de negocios podría producir resultados rentables cerca de métodos más intensivos en código lo que implica un poco más de ciencia de datos orientada al ser humano.
Si no has leído este artículo, deberías volver atrás y al menos barrer. Si está listo, veamos qué haríamos con nuestros datos de ataque cardíaco en condiciones de aprendizaje automático “normales” (es decir, más intensivos en código), luego deséchelo todo y presione el botón “fácil”.
Como discutimos anteriormente, trabajamos con datos de salud cardíaca de investigaciones en el Instituto Clínico de Cleveland y el Instituto Húngaro de Cardiología en Budapest (así como otros lugares cuyos datos hemos excluido por razones de calidad). Toda la información está disponible archivo que hemos creado en GitHub, pero su forma original es parte almacén de datos mantenido por la Universidad de California-Irvine para proyectos de aprendizaje automático. Usamos dos versiones del conjunto de datos: uno más pequeño y completo, que consta de 303 registros de pacientes de la Clínica Cleveland, y una base de datos más grande (597 pacientes) que incluye datos del Instituto Húngaro, pero faltan dos conjuntos más pequeños de datos diferentes. .
Los dos campos que faltan en los datos húngaros parecen potencialmente importantes, pero los datos de la Clínica Cleveland en sí mismos pueden ser un conjunto demasiado pequeño para algunas aplicaciones de aprendizaje automático, por lo que intentaremos cubrir ambos.
Plan
Con múltiples conjuntos de datos para entrenamiento y pruebas, era hora de comenzar a trabajar. Si tuviéramos que hacer esto como suelen hacer los científicos de datos (y como intentamos el año pasado), haríamos lo siguiente:
- Divida los datos en un conjunto de entrenamiento y un conjunto de prueba
- Use datos de entrenamiento con un tipo de algoritmo existente para crear un modelo
- Valide el modelo con un conjunto de pruebas para verificar su precisión
Podríamos hacerlo codificándolo en un cuaderno Jupyter y ajustando el modelo hasta que alcancemos una precisión aceptable (como hicimos el año pasado, en un ciclo continuo). Pero en cambio, primero probaremos dos enfoques diferentes:
- Un enfoque “sin código” con Sagemaker Canvas de AWS: Canvas toma los datos como un todo, los divide automáticamente para entrenamiento y prueba, y crea un algoritmo predictivo
- Otro enfoque “sin código/bajo código” con Sagemaker Studio Jumpstart y AutoML: AutoML es una gran parte del contenido detrás de Canvas; evalúa los datos y prueba varios tipos diferentes de algoritmos para determinar cuál es el mejor
Una vez hecho esto, intentaremos usar uno de los muchos enfoques de ML probados en batalla que los científicos de datos ya han probado en este conjunto de datos. Algunos de ellos han reclamado más del 90 por ciento de precisión.
El producto final de estos enfoques debería ser un algoritmo que nos permita ejecutar una consulta predictiva basada en los puntos de datos. Pero el resultado real es observar las ventajas y desventajas de cada enfoque en términos de tiempo de finalización, precisión y costo de tiempo computacional. (En nuestra última prueba, AutoML en sí mismo prácticamente arruinó todo nuestro presupuesto de crédito de cómputo de AWS).
Especialista web. Evangelista de viajes. Alborotador. Fanático de la música amigable con los hipster. Experto en comida