Thursday, March 17, 2016

汽车之家新车销售分析

没有进入真正的分析之前,我们先来看几个关于汽车之家车商城的数据(公开发布,咱们只看趋势好了,数据我去掉了):
1.销售趋势
车商城在15年4季度迎来销售高峰
2.买车的热门城市
3.车主偏爱的颜色
4.以北京为例,采购多来自经销商
怎么判断是经销商呢?上面的886买的车其实是由下面的人贡献的
5.卖的最好的车
6.真实的买家,很喜欢用手机号做用户名呀,如果我是卖保险的,那机会来了
7.大家偏爱的购买时间


Wednesday, March 9, 2016

随机森林变量重要性

数据分析或挖掘中,探查事件的驱动因素和特征选择,都牵涉到变量重要性的问题,scikit-learn 树模型相关,都提供了对变量重要性的判定,比如:http://scikit-learn.org/stable/auto_examples/ensemble/plot_forest_importances.html

但是这个变量重要性到底怎么算的呢?


http://scikit-learn.org/stable/modules/tree.html中介绍了gini和信息熵的计算

http://stackoverflow.com/questions/15810339/how-are-feature-importances-in-randomforestclassifier-determined 中提到这些

通过上述描述,找到这个http://papers.nips.cc/paper/4928-understanding-variable-importances-in-forests-of-randomized-trees.pdf



这里给出了例子http://stats.stackexchange.com/questions/92419/relative-importance-of-a-set-of-predictors-in-a-random-forests-classification-in




这下终于搞明白了
再看一个例子
http://blog.datadive.net/selecting-good-features-part-iii-random-forests/