Blog (español)

Buscando patrones entre los muertos

Queríamos investigar los datos en agreagdo para saber más sobre como se está desarollando o cambiando la ola de violencia en el cual México ha estado sumergido durante las últimas dos décadas. Para esto, subimos los datos de Quinto Elemento a una versión modificada de Datasette, un programa Python que permite la rápida exploración y visualización de datos. Usando gráficos, consultas SQL y machine learning buscamos patrones interesantes.

Dale clic en una grafica para ver la consulta SQL que lo produjo.

Datos incompletos

Lo primero que vimos es el lamentable estado de los datos. En cada registro falta algún dato clave, y muchos no llevan información alguna. Casi 18% de los registros no tienen fecha de descubrimiento, 27% no indica el sexo del deceso, 55% omite el lugar del hallazgo, 54% no indican ni la causa de muerte, este último debería ser la principal aportación de un trabajo forense.

En segundo lugar, hay muchas inconsistencias en los datos, sobre todo en cuanto a la causa de muerte. Algunas entradas son verdaderas narrativas de la forma de morir...

Muchos otros se comforman con un simple “hechos de tránsito” o “decapitación.” Algunos registros describen la causa médica de la muerte, por ejemplo “trauma toráxica”. Otros indican también cual fué el implemento humano que lo causo, sea arma blanca, bala, o tren.

El vinculo con la violencia

En tales condiciones, los datos no revelan grandes sorpresas. Vemos, por ejemplo, que los casos de cuerpos no identificados estan incrementando año por año.

Hay menos mujeres que hombres entre los cuerpos no identificados, pero la taza sigue la misma tendencia temporal que los hombres. Esta tendencia se ve reflejada, a su vez, en la taza de homicidio en México, tanto para hombres como para mujeres. Se nota, sin embargo, que es sólo una aproximación, ya que el declive en los homicidios entre 2011 y 2015 no aparece en el correspondiente número de cuerpos no identificados.

fuente: Inegi

Es de esperar que mientras menos violencia, menos cuerpos no identificados, y vice versa. Que puede causar este discrepencia con la tasa de homicidio? Una posibilidad es el gran número de registros que no tienen el dato de hallazgo. Este cifra es mas alta, incluso, que la cantidad de cuerpos encontrados en 2019, el año con más hallazgos registrados. Teniendo las fechas de estos registros, quizá veríamos una tendencia temporal mas acorde con la de los homicidios. Mas adelante veremos como detectar el declive oculto en los datos.

La relación entre índices de violencia y cuerpos no identificados es más claro con los datos divididos por estado.

Se destacan el Estado de México, Baja California (sobre todo Tijuana), la Ciudad de México y Chihuahua, reconocidos por su narcoviolencia. Sin embargo, la relación no es 100% fiable. Aunque Guanajuato ha sido entre los estados más violentos en los últimos años, segun el Inegi, ha tenido pocos casos de muertes no identificados.

fuente: Inegi

Refinando los datos con machine learning

Uno pensaría que el dato mas revelador debería ser la causa de muerte. ¿Hay una tendencia de usar cuchillos más que pistolas en algunos estados? ¿Los narcos estan evolucionando sus técnicas de silenciar enemigos? ¿Que tan común es el desmembramiento que tanto se ve en los periódicos? Desafortunadmente, los registros contienen 3,658 diferentes causas de muerte.

Es notorio la falta de una sistematizacion de la manera de registrar las causas de muerte. Cada investigador forense ha descrito la causa a su libre albedrío. Esto resulta en muchas variantes textuales de la misma causa.

Es casi imposible sacar estadísticas con datos tan irregulares. Sistematizarlos manualmente tardaría horas o quizás días. Además, un repaso por los datos muestra que muchos registros no son de víctimas de violencia, sino de accidentes, problemas de salud u otras causas.

Para facilitar nuestra investigación, recurrimos a machine learning, una especie de inteligencia artificial sencilla. Pasamos los datos por un programa llamado SpaCy, que tiene la virtud de ser relativamente fácil de operar, y está escrito en Python, que es un lenguaje de programación bastante accesible. Entrenamos a la computadora para reconocer diferentes categorías de muerte enseñándole ejemplos previamente etiquetados a mano con las siguientes categorías: violencia, salud, accidente, aborto y desconocido. Palabras como “arma”, “golpe” y “proyectil” pueden indicar una muerte violenta. Palabras como “infarto” o “hipertension” sugiere un problema de salud. El programa es suficientemente inteligente para reconocer palabras parecidas a éstas aún cuando no aparecieron en el entrenamiento.

Es importante señalar que este proceso no es exacto y no invertimos mucho tiempo en verificar los resultados. Puede haber errores e inexactitudes que un trabajo más preciso y cuidadoso puede eliminar. Sin embargo, al trazar la incidencia de muertes violentas, vemos algo interesante...

Tomando en cuenta sólo las muertes violentas, ahora si vemos la misma tendencia que la de los homicidios, con un declive entre 2011 y 2015. Esto sugiere fuertemente que nuestra metodología es fiable.

Algo importante en el caso de las muertes por problemas de salud es que en 2013 hubo un número muy elevado de estos.

No tenemos el conocimiento experto para poder explicarlo. Lo que sí podemos decir es que se puede llevar la técnica de análisis por machine learning mucho más lejos, refinando las categorías aún más, por ejemplo distinguiendo entre tipos de patología, de muertes por arma de fuego o arma blanca, de accidente por tren o automobil. Dependeria de los objectivos del investigador.

La calidad de los datos bajo la lupa

La calidad misma de los datos puede ser un objeto de análisis. Quinto Elemento ha escrito sobre una crisis forense en México. Datos forenses pobres es un síntoma de ello. Pero cuáles estados son los peores? Con Datasette, podemos hacer consultas SQL para ver que porcentaje de las entradas están incompletos por estado. En el siguiente gráfico, vemos el porcentaje de los registros de cuerpos no identificados de cada estado fue reportado como “sin dato.” Una barra al 100% quiere decir que ningún registro tuvo un dato para este estado.

Segun año...

En Guanajuato y el Estado de México ningún registro de cuerpo no identificado indica el año de hallazgo.

Segun lugar de hallazgo...

Muy pocos estados se tomaron la molestia de indicar un lugar de hallazgo.

Segun necropsía...

Aquí vemos una inconsistencia fundamental. Mas de la mitad de los estados del pais cumplieron necropsia con un record de 100% (los que no tienen barra). Pero muchos de los mismos reportaron pocas causas de muerte!

De hecho, vemos que muchos no reportaron ninguna causa de muerte (los que tienen barra). Entonces porque hicieron necropsia? Se destacan el Estado de Mexico y Guerrero, hicieron necropsía a todos sus cuerpos no identificados y no reportaron ninguna causa de muerte!

Y entre los que sí reportaron causa de muerte, quienes hiceron el mejor trabajo? Tomaremos el numero de carácteres textuales como un indicador de calidad—mientras más largo la causa de muerte, mejor calidad—y pondremos un límite arbitrario de 50 caracteres. Aqui vemos el número de registros con una causa de muerte mas larga del límite.

Oaxaca es el estado mas diligente en reportar la causa de muerte como porcentaje del total de cuerpos hallados en la entidad. Le siguen Nuevo Leon, Coahuila y Puebla.

Llendo mas alla

Hay mucho mas que se puede hacer con este información, sobre todo en el campo de machine learning. Se podria refinar las categorias de muerte para identificar que tipo de arma se uso, e incluso mapear los lugares de hallazgo para identificar zonas calientes. Sigue este blog para estar enterrado de actualizaciones a la investigacion.

Si tu organizacion requiere ayuda con analizar datos o aplicando machine learning para entender mas sobre temas sociales, o si le gustaria aprender como usar paquetes de Python para hacer periodismo numerico, no dudas en contactarnos. studiocanek@fastmail.fm.


Our team

Conrad Fox is an award-winning journalist and producer. He has reported from Mexico, Central America and Haiti, with his work appearing on the CBC, NPR, BBC World Service and other outlets. He is dynamic and creative instructor, and has taught journalism, English, robotics, soccer, physics and anthropology in classrooms, lecture halls, boardrooms, mud huts, playing fields and online. He is also a developer, specialized in Python and the web.

Rosi Rodriguez is a social anthropologist with specializations in education, migration and the environment. She has spent more than 30 years involved in education of children and adults, in formal and informal settings. She was co-founder of the first indigenous-led community development organization in Southern Veracruz, bringing together dozens of communities through workshops, events and educational activities. She is still happiest seated in front of a palapa with a group of neighbours, sharing thoughts and experiences.