科研ABC - SCI大数据
SCI大数据
1 何为SCI大数据
- 和写SCI论文有什么关系?
- 利用这些大数据对我们写SCI论文有什么帮助吗?
- 到底应该怎么运用起来呢?自然语言处理技术—>对SCI 论文进行量化分析;
- 在写SCI论文的过程当中,对大量的相关文献进行阅读和系统的整理, 英文写作,需符合英文表达习惯;
- 对SCI论文进行量化分析:运用自然语言处理技术对SCI论文进行词频标注及提取;
2 如何运用SCI大数据
2.1 第一步:大数据的提取
- 读取PDF格式的文献,使用PDFbox 开源工具包自动对文献进行格式转换,将文献转换为txt 格式文档。
- 错位乱码:txt 中无法显示表格,表格中的文字混淆于正文里边;
- 对于文献的边角信息,比如作者、地址等,出现不同程度的混淆。
- 分析目前主流杂志社的文献格式,然后按照不同杂志社可能出现的错误进行初步的降噪处理。
- 去除文献中的页眉、引文等部分,提高文献的纯净度,这有利于后续的进一步处理,也能提高词汇标注的准确性。
2.2 第二步:处理大数据
- 用正则表达式技术,模糊匹配文献各个部分的标题。
将文献按照Introduction、Experiment、Results and discussion、Conclusions 分成四大部分。 - 通过斯坦福大学自然语言处理工具箱对文献进行处理。
比如,我们假设S 是某一个特定的句子,由一串有顺序的单词w1,w2,w3,…,wn 组成(n=句子的长度), 建议同学们使用马尔科夫模型,假设某一词汇的词性只与前一个词有关,把问题简化。 - 计算各个词性出现的条件概率p[wn/(wn–1)],完成词性标注。
把概率最大的词性作为当前词汇的词性
2.3 第三步:对数据进行二次处理
-
对统计结果中
-
由于乱码等格式转换问题进行了二次识别,由此所产生的错误要删除;
-
在第一次降噪时没有识别到的错误,要将其删除。
-
提高结果的代表性
建议只保留出现频率较高的词汇,把一些不常见的低频词汇,比如专有词汇、化学符号这些都可以删除,还有一些冠词也可以删除。
3 SCI“大数据”库
3.1 Introduction 部分
3.2 Experimental 部分
3.3 Results & Discussion 部分
3.4 Conclusions 部分
3.5 结论
有了这些SCI论文的高频词汇统计表,同学们在写SCI论文的时候就可以有选择性的进行使用,从而避免因为语言习惯不同而造成的错误。也可以帮助同学们提高学习效率。