从R中的word文档中提取原始属性(元数据)

问题描述:

我有数百个发送给我进行分析的word文档(.docx),我正在努力寻找一种方法来提取Origin元数据。我想知道作者的姓名,创建的内容以及上次为每个文档保存的日期 - 请注意,这些属性是您可以在“详细信息”分隔符下使用鼠标右键单击文档并选择时查看的属性“属性”。我想有一个数据框,一个列表或类似的东西: [1]“document.name”“authors.name”“content.created”“date.lastsaved” [2]“document.name2” “authors.name2”“content.created2”“date.lastsaved2”从R中的word文档中提取原始属性(元数据)

有没有人有一个很好的解决方案的问题?

谢谢!

也许是这样的:

setwd("/Desktop/docs") # set directory to wherever your docx files are 

file.info(list.files(getwd())) # obtain file info for docs in folder 
+0

我做过尝试,但它并没有给我只看到在元数据中的“原产地创建”日期。我从其他人处获得了这些文件,并且在复制到我的计算机时丢失了“原始”属性(如创建日期),因此我需要使用元数据 –

+0

我看到是的,复制可能会修改创建的日期。恐怕R中没有直接的解决方案(我知道这一点),所以命令行函数可能更适合。 – timfaber

+0

例如,在你的终端(mac) – timfaber