英文分词处理

纯粹的文本我们也叫作语料
文本数据特点:
非结构化
海量数据
高维稀疏性
语义/情感

一句话里面有多少个词就有多少个维度
文本的分析就是他所包含的语义
往往都存在一个倾向性

自然语言处理-NLP
机器翻译
自动摘要(当我们在做舆情分析的时候,找到一个文章,能不能自动生成一个文本的摘要)
文本分类(根据文本的关键词进行文本的分类,在自然语言中有一个实体命名,时间,地点等)
信息检索(通过词相互之间的练习检索到要的内容,既包括详细)
信息抽取
自动问答(聊天机器人,自然语言的先进)
情感分析(对文本进行情感分析,正向,逆向)

文本挖掘在媒体的应用
词频分析
关键词抽取
语义网
文本分类
情感分析
主题模型

对于中文的分词
分词:是将由连续字符组成的语句按照一定规则划分成一个一个独立词语的过程
中文不想英语那样有空格,没有分词
首先一步,能否做到有效的中文分词。

对于英文的自然语言的处理

knime
knime.org
提交e-mail地址
64内的,加上所有的扩展。要不然没有英文处理的模块
这款软件有很多的案例,有非常多的数据挖掘的案例,找到对英文处理的案例的方式
还有操作的节点

四个特点:
1.开源软件
2.有丰富的案例
3.原生是java,也支持r语言
4.开源,有丰富的labs实验。
英文分词处理
英文分词处理
有一百五十篇文章,同时下面是鼠癌。两篇文章叠加在一起,我们想做一个文档文类,根据两种已知的艾滋病额分类,建立一个模型,分类是艾滋病还是鼠癌
首先把标点符号给删掉了。所有的标点符号去掉,还可以把所有字母改为小写,还有一个重要特征,停用词列表。
还有一个work working worked,所以当我们把work ed,ing去掉就变为我们的work.对于英文的处理可以进行。
英文的处理,英文的过程还是相对简单的,我们通过执行,就可以立刻看到,把一个document 切割成了我们看到的词,如果在document中出现了这个词,出现了就是1不出现了就是0,对于这种叫做热编码。之后我们把两列复制上去。之后我们再弄成编码闲置。出现了就是1,不出现就是0.最后标记。

首先我们把文档拆分70训练文章,30测试文章。
decetrasy
当百分之70进到这里面,生成的模型在进行训练。在底下我们选择了下面的选择性。