La explotación de los datos a nivel cuantitativo, en la actualidad, es una parte que tanto analistas como empresas podemos considerar que está controlada. Ahora bien, en toda base de datos existen variables de texto procedentes de campos libres que generalmente no son analizadas y si lo son, no en profundidad comparable a las variables cuantitativas.
En este campo juega un papel fundamental el Text Mining, es la herramienta que nos faltaba para poder enlazar el conocimiento cuantitativo con el cualitativo.
El objetivo, por ejemplo, es poder desglosar qué ha querido decir un cliente cuando nos ha dejado unas observaciones anotadas en una hoja de reclamaciones, y cómo afecta ese hecho al negocio que nos genera dicho cliente.
El Text Mining consta de dos partes fundamentales, la extracción de los términos clave y la relación existente entre los diferentes términos. Tradicionalmente la primera parte se solucionaba con la codificación de las palabras claves para la generación de distribuciones de términos más frecuentes. Pero y la relación entre éstos?
Antes de responder esta cuestión clave, resumiré muy brevemente en qué consiste hacer un análisis de Text Mining:
- Generar un Corpus: repositorio dónde se ubicará todos los textos que se quieren analizar.
- Crear una matriz TD (Término-Documento): pieza básica del análisis que contiene las frecuencias de cada término desglosada para cada uno de los documentos a analizar.
- Proceso de depuración datos: existen múltiples funciones ya generadas que depuran el contenido que no aporta valor al análisis.
- Aplicación del diccionario: es el punto clave de todo el proceso. Es la parte dónde aplicaremos sinónimos (en término generales y de negocio), eliminaremos palabras que carecen de sentido por si solas, traduciremos palabras. Cuando más potente sea el diccionario más calidad tendrá el análisis final.
- Explotación del Wordcloud: es la forma más generalizada de presentar los términos más frecuentados.
Generalmente, y con conocimiento específico de la temática estudiada, el Wordcloud puede dar muchas pistas de lo que está pasando. Ahora bien, para poder completar el análisis es preferible realizar un diagrama de flujo entre los términos con más presencia en el Wordcloud.
A través del estudio de las relaciones de los términos, sacado de analizar la matriz TD, seremos capaces de poder entrelazar términos y así poder llegar a conclusiones conceptuales de lo que nos ha querido comunicar un conjunto de clientes en concreto.
Estos análisis, potentes ya de por sí, llegan a nivel superior si somos capaces de relacionarlos con la variables cuantitativas de negocio, pudiendo estudiar la causa efecto de cada concepto aplicando luego planes estratégicos para sacar el mayor rendimiento a este conocimiento.
El Text Mining, no es una técnica nueva pero sí que está cogiendo relevancia dado que muchas de las fuentes que proveen datos en la actualidad, en especial las redes sociales tienen un alto porcentaje de información en formato texto libre.
Aquellos que sepan introducir este conocimiento en el día a día de la empresa conseguirán mejores resultados a corto plazo.
Hay muchos software que pueden realizar Text Mining, ahora bien yo recomiendo R y os dejo un link para que podáis hacer pruebas.