如何获得“RetailSales2014”列的统计信息?
问题描述:
所以“RetailSales2014”包含货币价值。我知道我需要删除逗号来执行统计分析,但我是否也需要删除前导'$'符号?如果我这样做,我将如何删除它们?如何获得“RetailSales2014”列的统计信息?
# Load packages
库( “XML”) 库( “RCurl”)
指定URL
网址< - “https://nrf.com/2015/top100-table”
下载URL的内容
url_content < - getURL(url)
解析HTML/XML内容以产生表示HTML/XML树的R结构
DOC < - htmlParse(url_content)
表< - readHTMLTable(DOC)
转换的第三元件列表中的数据帧
retailer_df < - data.frame(表)
属性(retailer_df)
分重命名retailer_df列
colnames(retailer_df)< - C( “等级”, “公司”, “总部”, “RetailSales2014”, “USASalesGrowth”, “WorldwideRetailSales”, “USAPercentageOfWorldwideSales”, “Stores2014” , “保增长”)
摘要(retailer_df)
写零售商的数据为csv文件的工作目录下
write.csv(retailer_df,文件= “top100retailers2015.csv”)
答
retailer_df$RetailSales2014 <-
as.numeric(gsub("(\\D)", "", retailer_df$RetailSales2014))
工作正常!我们的教授将教我们如何在本周晚些时候这样做,但我想在理解数字转换方面取得先机。 – user6794408
等等...我帮你做了功课吗? SMH。 – AidanGawronski
否。该作业已使用我提供的代码完成。其中一个问题是“显示数据集的汇总统计数据,您是否获得RetailSales2014变量的最小,中位数,平均值和最大值?为什么?将答案放在下面的框中。”这是确切的措辞。我不是作弊,坦率地说,我认为这个社区对试图学习R的学生不是很欢迎.... – user6794408