ausdm13.ausdm.org
AusDM13
http://ausdm13.ausdm.org/tutorial.html
Tutorial: Data Analytics using R. An Introudction to Data Mining with Rattle and R. Dr Graham Williams,. Senior Director, Data Mining,. Wednesday, 13 November 2013, 15:30 - 17:30. R has become the statistical programming language of choice for practising data miners. It is the most feature rich statistical package, outshining the commercial data mining tools, and is free and open source. There are over 2000 packages available to support any kind of analysis required. Computer Science and Information Tech...
xccds1977.blogspot.com
数据科学中的R和Python: 03/01/2015 - 04/01/2015
http://xccds1977.blogspot.com/2015_03_01_archive.html
Data Science is the art of turning data into actions. 星期四, 三月 12, 2015. 参考官网步骤,但注意读卡器有时会出问题,选择高质量的设备。 设置各种参数,例如ssh enable之类的,方面后面远程登陆。 注意:把locale设置好,否则后面你还得用dpkg-reconfigure locales. 参考地址:http:/ www.chengxuyuans.com/Windows/61812.html. 参考地址:http:/ rpi.linux48.com/rpi-wlan.html. Http:/ blog.appdevp.com/archives/188. 注意:要买正确的网卡,再设置一下静态网址。 进X看是否可以上网了,再试一下ssh, scp之类的。 参考地址:http:/ xwlogic.github.io/2014/08/NAS/. 注意:先要更新软件源;挂载移动硬盘的时候得有电;设置samba很多参数,得保证可写。 一开始的设备一定要全,后面可以不需要键盘鼠标,只用ssh了。 标签: raspcherry pi.
xccds1977.blogspot.com
数据科学中的R和Python: R和python的整合
http://xccds1977.blogspot.com/2015/04/rpython.html
Data Science is the art of turning data into actions. 星期五, 四月 17, 2015. 订阅: 帖子评论 (Atom). Simple模板. 由 Blogger.
xccds1977.blogspot.com
数据科学中的R和Python: 浅谈ROC曲线
http://xccds1977.blogspot.com/2013/01/roc.html
Data Science is the art of turning data into actions. 星期五, 一月 04, 2013. 如果我们选择一系列的临界点,就会得到一系列的TPR和TNR,将这些值对应的点连接起来,就构成了ROC曲线。ROC曲线可以帮助我们清楚的了解到这个分类器的性能表现,还能方便比较不同分类器的性能。在绘制ROC曲线的时候,习惯上是使用1-TNR作为横坐标,TPR作为纵坐标。下面来看看如何在R语言中绘制ROC曲线。 R中也有专门用来绘制ROC曲线的包,例如常见的ROCR包,它不仅可以用来画图,还能计算ROC曲线下面积AUC,以评价分类器的综合性能,该数值取0-1之间,越大越好。 ROCR包画图函数功能比较单一,笔者比较偏好使用功能更强大的pROC包。它可以方便比较两个分类器,还能自动标注出最优的临界点,图看起来也比较漂亮。 实际工作中也经常使用K-S曲线,将ROC曲线的X,Y坐标数据画成两条曲线,两条曲线的的最大距离作为模型KS值,衡量模型的区分效果。 应该谈谈为何使用ROC和AUC吧。。。 订阅: 帖子评论 (Atom). Simple模板. 由 Blogger.
xccds1977.blogspot.com
数据科学中的R和Python: R语言资源
http://xccds1977.blogspot.com/2013/02/r.html
Data Science is the art of turning data into actions. 星期四, 二月 21, 2013. 以前人的烦恼是没有书可读,现在人的烦恼是书太多了。关于R语言的书已经出版很多了,博主大约读过其中的四十多本,但是书在精,而不在多,学在透,而不在速。把有限的时间放到无限的书海中,这不是阅读的真意。本着造福学习者的角度,博主精选出十二本R书。什么是好书的标准?我以为是:有案例,有代码,有习题,有讲解,逻辑清楚,排版精良,体系完备,互有补充,内容千锤百炼,值得反复揣摩。书单均为英文版,都可以从网上找到。当然这份书单的选择是有主观偏见的。 12298;R in Action》. 12298;The Art of R Programming》. 入门者可首选两本,前者从统计角度入手,分高中低三部分由浅入深的讲解了如何用R来实现统计分析,另外此书已经有中文版面世。后者从程序编写的角度入手,对R的本身特点进行了清晰的介绍。中文版应该快有了。 更新:《learning R》. 12298;Modern Applied Statistics With S》. 12298;R P...
xccds1977.blogspot.com
数据科学中的R和Python: 04/01/2015 - 05/01/2015
http://xccds1977.blogspot.com/2015_04_01_archive.html
Data Science is the art of turning data into actions. 星期二, 四月 21, 2015. 星期六, 四月 18, 2015. 中,谈到了使用奇异值分解来对一个文本词项矩阵进行降维。本文是使用同样的数据,但是使用不同的工具来处理,也就是非负矩阵分解。nmf的好处在于比svd更容易解释,而且自带正则功能。 星期五, 四月 17, 2015. 星期六, 四月 04, 2015. 将选项("强烈同意","同意","反对","强烈反对") 映射为分值(2,1,-1,-2). 对出生年份进行转换,计算出在2015年的年龄并分为10个年龄组(0,18,22,25,30,35,40,50,60,70,120). 发现第3题和第6题的回答相关性最高(0.13)。 1] "发生重大社会安全事件时.即使认为信息公开会导致骚乱的风险.政府仍应该开放信息传播.". 1] "两个成年人之间自愿的性行为是其自由.无论其婚姻关系为何.". 第35题相关性较高,为0.01。而且这个题目和收入的相关性也是最高的。 订阅: 帖子 (Atom).
xccds1977.blogspot.com
数据科学中的R和Python: 用spark进行数据挖掘
http://xccds1977.blogspot.com/2015/04/spark.html
Data Science is the art of turning data into actions. 星期二, 四月 21, 2015. 订阅: 帖子评论 (Atom). Simple模板. 由 Blogger.
xccds1977.blogspot.com
数据科学中的R和Python: 用ggmap包进行地震数据的可视化
http://xccds1977.blogspot.com/2012/06/ggmap.html
Data Science is the art of turning data into actions. 星期四, 六月 28, 2012. 12290;从名字上可以猜测出来,它的作用就是将ggplot2和map相结合。这样R语言用户能方便的获取各种静态地图数据,并在其基础上使用强大的ggplot绘图工具。ggmap包整合了四种地图资源,分别是Google、OpenStreetMaps、Stamen和Cloudmade。为了演示ggmap的作用,本例是从 地震信息网. 获取最近一周的地震数据,得到其经纬度,然后以散点形式绘制在google地图上,另外也显示地震发生的密度估计。这个思路本质上和之前的 一篇博文. Webpage - 'http:/ data.earthquake.cn/datashare/globeEarthquake csn.html'. Tables - readHTMLTable (. Lan - as.numeric. Lon - as.numeric. Date - as.Date. Lan - as.numeric. Lon - as.numeric. P - ggmap (.
xccds1977.blogspot.com
数据科学中的R和Python: 01/01/2015 - 02/01/2015
http://xccds1977.blogspot.com/2015_01_01_archive.html
Data Science is the art of turning data into actions. 星期六, 一月 31, 2015. 一个R语言模型的落地应用有几种方式:可能是一个简单的分析报告,可能是将预测结果输出到数据库,即离线模型,也可能需要实时读入数据进行实时预测输出。第三种情况是最有用,也最难处理的情况。因为要把R和其它通用型语言进行整合并不容易。例如使用Rserve在java中整合R代码就需要开发人员即懂java也懂R,开发量会比较高。一种比较好的思路是将R计算部分作为一个API,其它语言时通过API来调用R的部分。 下面的例子就是一个很简单的预测iris种类。在mac系统中,基于opencpu框架完成,opencpu能将R语言的对象转为http的资源,极大的方便了R语言模型的部署。一共只需要四个步骤。 M = rpart(Species ., data = iris). Save(m, file='model.rda'). Input = as.data.frame(input). Newx = data.frame(Sepal.Length=5.1,.
xccds1977.blogspot.com
数据科学中的R和Python: R语言多元分析系列之五:聚类分析(完)
http://xccds1977.blogspot.com/2012/01/r.html
Data Science is the art of turning data into actions. 星期一, 一月 02, 2012. R语言多元分析系列之五:聚类分析(完). 聚类分析(Cluster Analysis). 是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法,它是在没有先验知识的情况下,对样本按各自的特性来进行合理的分类。 聚类分析被应用于很多方面,在商业上,聚类分析被用来发现不同的客户群,并且通过购买模式刻画不同的客户群的特征;在生物上,聚类分析被用来动植物分类和对基因进行分类,获取对种群固有结构的认识;在因特网应用上,聚类分析被用来在网上进行文档归类来修复信息。 聚类分析有两种主要计算方法,分别是凝聚层次聚类(Agglomerative hierarchical method)和K均值聚类(K-Means)。 LabRow = F ,. LabCol = F ). X = mds$points [. Y = mds$points [. P geom point (. 函数进行K均值聚类,centers参数用来设置分类个数,nst...Cluster扩展包中...
SOCIAL ENGAGEMENT