El pasado 5 de noviembre se celebró el primer debate a 5 de la democracia española, en el que los candidatos de los cinco partidos con mayor representación en el Parlamento pudieron hablar, en un ambiente más distendido y menos encorsetado de lo habitual, sobre sus propuestas de gobierno.

Mucho podríamos discutir sobre las verdades y mentiras expuestas tras los cinco atriles donde se encontraban los candidatos. Igualmente sobre las propuestas para sacar a España del bloqueo en el que se encuentra desde hace 4 años, en los que se han celebrado 4 elecciones generales sin llegar a ningún acuerdo de gobierno.

Sin embargo, para ello hay otros foros y otros medios donde se explica todo esto mucho mejor para el lector más interesado en informarse. De momento vamos a hablar de datos que pueden resultar más fehacientes que promesas por cumplir.

¿Cuáles fueron las palabras más empleadas en el debate?

(Al final del post están las fuentes y los archivos)

Me parece una pregunta relevante para comprobar en dónde se centró el debate. Lo complicado es encontrar una transcripción del mismo, que sólo encontré en los subtítulos de la emisión del debate en la web de RTVE. Aún así, los subtítulos llegan hasta 1 hora 42 minutos de 2 horas 33 minutos que duró el debate, por lo que nos perdemos casi la hora final de las palabras de los candidatos.

Una vez capturada la transcripción, lo siguiente es la fase de limpieza. Con las mismas herramientas de Word (o cualquier otro programa para tratamiento de textos) se realizan las siguientes acciones:

  • Todo el texto en minúsculas.
  • Se eliminan signos de puntuación ( ) . , ; ¿ ? ¡ !
  • Se eliminan las tildes á é í ó ú
  • Se eliminan conjunciones. En mis tiempos estaban las copulativas y disyuntivas, pero se ve que ha cambiado la terminología.
  • Se eliminan los artículos, determinados e indeterminados: el, la, lo, los, la, las, un, una, uno, unos, unas.
  • Se eliminan las preposiciones: a, ante, bajo, cabe, con, contra, de, desde, etc.
  • Se eliminan los pronombres personales, dejando los numerales: yo, tú, él, mi, me, etc.
  • Se eliminan algunos verbos conjugados. Yo he elegido ha, hay, hemos, han, etc. Esto es a gusto del analista, en función de los verbos conjugados que puedan tener relevancia o no en la suma de las palabras.

Para ser sistemáticos limpiando palabras de un texto se pueden utilizar las stop words o «palabras vacías» que se utilizan en documentación, buscadores, etc. Son una colección de palabras que los motores de búsqueda ignoran para hacer más eficientes las búsquedas. Cada idioma tiene las suyas. Aquí hay un listado específico para SEO y aquí otro. Cuidado porque puede eliminar palabras que nos interesen, como usted, señor, no, pero, etc.

Hecho esto, ya podemos empezar a hacer experimentos. No he encontrado ninguna fórmula eficiente para contar palabras con Excel (o cualquier hoja de cálculo) en la que no tenga que especificar la palabra una por una (si alguien conoce alguna lo puede indicar en los comentarios). Sin embargo, en internet hay diversas páginas que realizan esta función inmediatamente y, lo mejor, es fácilmente exportable a Excel. En el siguiente gráfico podemos ver las palabras más utilizadas del debate:

Conteo de palabras más utilizadas en el debate electoral del 4N

Podemos hacer otra comparación según la encuesta del CIS de octubre de 2019 sobre las preocupaciones de los españoles. Seleccionando las palabras clave de los problemas con más de un 1% de incidencia en la población, obtenemos las siguientes:

Paro, politicos, politica, economia, economico, corrupcion, fraude, inestabilidad, acuerdos, sanidad, empleo, calidad, inmigracion, educacion, pensiones, social, cataluña, independencia, violencia, mujer, inseguridad, gobierno, vivienda, medioambiente, justicia, valores.

Las preocupaciones de los españoles en palabras.
Haz click en la imagen para ampliar.

Seleccionamos las mismas palabras de la transcripción del debate. No sería justo comparar ambos porcentajes ya que las palabras del debate se corresponden con un conjunto mucho más amplio. Así que normalizamos proporcionalmente los porcentajes respecto del total en ambos casos, lo que en estadística se llama tasa.

Porcentajes de repetición (frecuencia) y proporción (tasa) de las palabras del Debate 4N y las palabras del CIS. Haz click en la imagen para agrandar.

Descubrimos que el paro, la política, la corrupción y la economía le preocupan mucho más a los ciudadanos que Cataluña y el gobierno, palabras coincidentes más usadas en el debate. El siguiente gráfico lo aclara mejor:

Comparación de palabras más usadas en el Debate del 4N y las preocupaciones de los españoles según el CIS. Haz click en la imagen para agrandar.

Jugando con las palabras

Con estos datos, además de los gráficos «crudos», podemos hacer algo visualmente más atractivo. Para ello usamos la fantástica aplicación gratuita y on line nubedepalabras.es, donde, además de crear imágenes con las palabras en proporción a su uso, podemos subir una imagen propia. Obviamente, la imagen que elegimos es la silueta del territorio español.

Haz click para agrandar

Por otro lado, podemos confrontar las palabras más usadas en el debate del 4N (en rojo) con las más usadas en las preocupaciones de los españoles (en azul) en un símbolo de ying y yang.

Yin g y yang de las preocupaciones de los españoles frente a lo debatido el 4N.
Haz click en la imagen para agrandar.

Aunque no es riguroso, con este ejercicio de periodismo de datos podemos comprobar que los temas de la agenda política, aunque no muy lejos, difieren de las preocupaciones reales de los españoles. Asuntos como el paro, la sanidad y las pensiones pasan de largo en el debate político, que conforma una agenda centrada en cuestiones territoriales o inmigración que, según los datos, no quitan el sueño a los ciudadanos.

Fuentes:

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *