免费开放 33.5 万条 贫困户记录,用来做 机器学习

2016-12-07 22:04:31 +08:00
 crayonyi

github 地址: https://github.com/bowenpay/poormining

我们公司正在做一个贫困户的征信模型 v0.1 ,以发展农村金融。

为了争取开源世界的力量,开放了 2 个县的数据,共 33.5 万条 贫困户记录,每条记录有 33 个字段。时间跨度为 2014 年~2016 年, 3 年共 3 张表。这 2 个县,一个县用于建模,另一个县用于验证。

其中,需要建模预测下一年是否能脱贫以及下一年的人均年收入。

目前用随机森林模型预测是否脱贫,准确率高达 98% ;

用线性回归模型预测下一年人均年收入,在误差为 10%的情况下,准确率为 60%;

使用 Lasso 回归模型 和 岭回归模型 预测效果也为 60%左右。

欢迎大家来修改代码,使用更多的模型来预测,或者调整模型参数,以提高预测准确度。

6783 次点击
所在节点    互联网
45 条回复
ooxxcc
2016-12-08 17:23:10 +08:00
@crayonyi 不能只看准确度 accuracy ,还要考虑 recall

参考一下这里 https://www.coursera.org/learn/machine-learning/home/
blublu
2016-12-08 18:02:48 +08:00
374757828@qq.com 来晚了...最近正打算研究机器学习方面的知识.求楼主分享一波数据.谢谢
woyao
2016-12-08 19:05:47 +08:00
upmost
2016-12-08 21:00:47 +08:00
这种信息不能公开在网上吧!
mikumkf
2016-12-20 10:42:56 +08:00
我们是江西师范大学的一个研究团队,最近在和政府机构合作试图在这方面做一些工作,希望能拿到这些贫困户记录来训练样本,能联系下嘛 mikumkf#gmail.com

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/326041

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX