La información en Internet pasa por la Wikipedia. Es allí donde se encuentra información relativa al número de habitantes de un país, los años que tiene un actor determinado o las más conocidas tradiciones. Es un lugar utilizado por muchos para confirmar su información, sobre todo si se está jugando a los clásicos juegos de mesa de cultura general y se ha convertido en una fuente fiable de la que nadie desconfía.
Wikipedia cuenta con 318 versiones en diferentes idiomas y cientos de palabras que se repiten en sus páginas. La pregunta es cuáles son las palabras que más se utilizan en un determinado país, y esa pregunta la ha resuelto Crossword-Solver.
Así, la palabra más utilizada en Wikipedia de Estados Unidos fue “nativo”, mientras que en Reino Unido fue “devolver” y en México “indígena”.
En el caso de España no es una palabra muy afín a la cultura del país, pero sí que se utiliza mucho en todas partes, así la palabra más utilizada fue “autonomía”, refiriéndose a las comunidades autónomas y la autonomía de cada una de ellas.
Según explican desde Crossword Solver, “la palabra más utilizada en Wikipedia de cualquier país tiende a reflejar la cultura nacional, un elemento de la naturaleza o un aspecto de la historia local”. Así, el mapa de la palabra más usada en Wikipedia en Europa revela una “obsesión kafkiana” con la burocracia, ya que “los seguros” es la palabra de Países Bajos e impuestos es para Dinamarca. En el caso de Finlandia la palabra más utilizada es “sauna” y en Islandia es “erupciones”.
Las palabras principales de África están dominadas por una bendición mixta de recursos naturales explotables, como “cobalto” para Congo, “tabaco”, para Malawi, y “diamante” para Botsuana, Lesotho y Namibia.
En el caso de Canadá, la palabra principal es “porcentaje”, aunque eso puede tener más que ver con un colaborador de Wikipedia centrado en las estadísticas que con las diversas culturas del país.
El estudio de Crossword Solver se basó en un estudio de las páginas de Wikipedia excluyendo secciones como “ver también”, “Referencias”, “lecturas adicionales”, etc, además de eliminar gentilicios, nombres de ciudades importantes, nombres de los propios países y todas las palabras vacías como son los artículos y preposiciones, entre otras.
Después de compilar todas las palabras que aparecen en la entrada de Wiki de un determinado país, se agruparon las diferentes formas de las mismas para que pudieran analizarse como un solo elemento.
Las palabras más populares para cada país se determinaron utilizando el algoritmo TF-IDF que es una medida que evalúa cómo de relevante es una palabra para un texto en particular en una colección de textos. Usando ese algoritmo, se pudo determinar qué palabra era la más relevante para cada entrada de Wikipedia, excluyendo también los apellidos de personas, nombres de empresas, partidos políticos u organizaciones.