借助SAP HANA实现文本分析和文本挖掘

十几年来一直致力于数据集成领域的工作,自2010年带领并参与了10多个基于SAP HANA的产品及客户项目. 2005年加入SAP,在此之前任职于德国海德堡大学,负责数据仓库开发工作。本科毕业于北京邮电大学,后获得德国Ulm大学计算机系硕士学位。

  信息爆炸的时代,产生很多的数据,通过对数据的分析了解发生了什么事情,为什么会发生这种事情。  每天产生的数据80%都是非结构化的数据,比如邮件,短信,图片,语音等。过去由于软件和硬件的限制,对于这些数据的挖掘比较滞后。现在硬件和软件技术的更新,能够实时的对数据进行深度挖掘。

  本讲座将向您介绍SAP HANA如何帮助用户解决好文本分析,以及如何结合R语言和SAP HANA自带的预测分析函数库来实现文本分析和文本挖掘。

  结合R语言 SAP HANA做场景的分析和计算

借助SAP HANA实现文本分析和文本挖掘
▲HANA内存数据库平台

  可以和移动端结合在一起,做移动应用,也可以在云端使用HANA。能对企业核心的流程进行加速,对传统的ERP代码push到HANA中,进行加速。HANA可以对计划进行预测,支持和ESP一起处理流数据。

  在文本搜索方面的架构

借助SAP HANA实现文本分析和文本挖掘
▲HAHA文本搜索架构

  通过表的形式存储,通过建立全文的索引,对整个表进搜索。加上文本分析之后,进行语意的处理。建立索引之后,通过建模工具建立搜索模型。通过表的属性建立一个视图,然后确立其他的规则。

  在上层建立了UI Tookit,基于搜索的UI框架,通过简单的修改可以使用。也可以自己通过HMTL5做开发。与HANA交互通过扩展的应用服务。

  建立文本搜索的几个步骤

借助SAP HANA实现文本分析和文本挖掘

  基于SAP HANA建立文本搜索需要遵循如上几个步骤。

借助SAP HANA实现文本分析和文本挖掘
▲InA家族说明

借助SAP HANA实现文本分析和文本挖掘
▲HANA 预测分析库

  预测分析库用于文本挖掘使用,其中包括了所有的通用的算法,做分类,聚类和关联性的算法。这些算法在HANA中通过C++实现。

借助SAP HANA实现文本分析和文本挖掘

SAP HANA+R

  SAP和R是一个很好的结合。R是一个很好的工具,包含了很多的算法,在很多场景进行补充和HAHA结合使用,在HANA中处理的数据在R中运行,然后再返回HAHA,通过R可以做算法的加速。