Recientemente he tenido la oportunidad de trabajar con una consultora de renombre y de poder recordar y apreciar lo importante que es la forma de tratar los datos para realizar un análisis. El debate se centraba básicamente en categorizar o no un conjunto de variables para posteriormente hacer una segmentación de clientes.
Personalmente el uso de la categorización de variables sí que te aporta un valor añadido depende en qué situaciones pero también resta potencia en los datos en muchas otras.
Concretamente, en una segmentación donde lo importante es analizar perfiles de clientes que tienen un mismo patrón el cual agruparemos en clusters no es tan necesario como la eliminación de los outliers o bien la normalización de los datos para eliminar la influencia de las métricas.
La dispersión que recoge una variable y como interactúa ésta con el resto de variables que hemos escogido es la guía que sigue el método de segmentación para generar los clusters. Si categorizamos las variables recortamos el nivel de dispersión con lo cual si nuestra muestra no viene definida por patrones muy diferenciados de comportamiento encontraremos clusters que en media tenderán a valores muy similares.
Esto implica que los datos categorizados no son útiles? No, todo lo contrario. Imaginemos que queremos estimar la propensión de compra de un producto en concreto teniendo en cuenta una serie de variables. Este caso es diferente ya que tenemos una variable objetivo.
El procedimiento óptimo sería analizar de forma conjunta cada variable explicativa y el efecto que produce sobre la variable objetivo. En los puntos dónde se produce un cambio de pendiente será el punto óptimo para crear una nueva categoría. Así pues, en este modelo tendríamos las variables explicativas categorizadas, perdiendo información al no tener el dato real, pero teniendo marcado el punto óptimo dónde se produce un cambio en la variable objetivo como nivel o categoría de la variable explicativa.
Resumiendo, el uso de la categorización de la variables es correcto? Depende. En la segmentación es preferible no usarla ya que si no existen patrones muy nítidos en los datos perderemos información y tendemos a encontrar clusters muy poco diferenciados. En un modelo de regresión sí que es correcto el uso de una variable categorizado, siempre con un estudio previo para determinar los puntos óptimos para establecer los cortes.
Espero que con esta reflexión os ayude en el planteamiento de vuestros futuros análisis.