如何获得“RetailSales2014”列的统计信息?

问题描述:

所以“RetailSales2014”包含货币价值。我知道我需要删除逗号来执行统计分析,但我是否也需要删除前导'$'符号?如果我这样做,我将如何删除它们?如何获得“RetailSales2014”列的统计信息?

# Load packages 

库( “XML”) 库( “RCurl”)

指定URL

网址< - “https://nrf.com/2015/top100-table

下载URL的内容

url_content < - getURL(url)

解析HTML/XML内容以产生表示HTML/XML树的R结构

DOC < - htmlParse(url_content)

表< - readHTMLTable(DOC)

转换的第三元件列表中的数据帧

retailer_df < - data.frame(表)

属性(retailer_df)

重命名retailer_df列

colnames(retailer_df)< - C( “等级”, “公司”, “总部”, “RetailSales2014”, “USASalesGrowth”, “WorldwideRetailSales”, “USAPercentageOfWorldwideSales”, “Stores2014” , “保增长”)

摘要(retailer_df)

写零售商的数据为csv文件的工作目录下

write.csv(retailer_df,文件= “top100retailers2015.csv”)

retailer_df$RetailSales2014 <- 
    as.numeric(gsub("(\\D)", "", retailer_df$RetailSales2014)) 
+0

工作正常!我们的教授将教我们如何在本周晚些时候这样做,但我想在理解数字转换方面取得先机。 – user6794408

+0

等等...我帮你做了功课吗? SMH。 – AidanGawronski

+0

否。该作业已使用我提供的代码完成。其中一个问题是“显示数据集的汇总统计数据,您是否获得RetailSales2014变量的最小,中位数,平均值和最大值?为什么?将答案放在下面的框中。”这是确切的措辞。我不是作弊,坦率地说,我认为这个社区对试图学习R的学生不是很欢迎.... – user6794408