论文学习WISDM-05:The Impact of Personalization on Smartphone-Based Activity Recognition

论文原文
论文下载
论文被引:144
论文年份:2012

The Impact of Personalization on Smartphone-Based Activity Recognition

Abstract

智能手机集成了许多功能强大的传感器,这为数据挖掘和人机交互创造了令人兴奋的新机遇。 在本文中,我们展示了标准分类算法如何使用基于智能手机的带标签的加速度计数据来识别用户正在进行的身体活动。 我们的主要重点是评估非个人和个人活动识别模型的相对性能。 我们的非个人(即通用)模型是使用来自一组用户的训练数据构建的,然后将其应用于新用户,而我们的个人模型是使用来自每个用户的数据构建的,然后仅应用于该用户的新数据。 我们的结果表明,即使仅从几分钟的数据中进行训练,按人种模型的性能也比按人种模型好得多。 这些个人模型通常甚至优于使用个人数据和非个人数据的混合模型。 这些结果强烈要求在可能的情况下构建个人模型。 我们的研究意味着我们可以毫不费力地获得有关潜在数百万用户习惯的有用知识。 这也意味着我们可以通过使智能手机考虑上下文来促进人机交互,这可以导致新的更有效的应用程序。

Introduction

智能手机和其他移动设备现在包含各种强大的传感器。 这些传感器包括GPS传感器,音频传感器(麦克风),图像传感器(相机),光传感器,方向传感器(罗盘),接近传感器和加速度传感器(加速度计)。 由于这些“智能”移动设备的体积小,其强大的计算能力,发送和接收数据的能力以及它们在我们社会中的几乎无处不在的使用,这些设备为数据挖掘和数据挖掘的研究开辟了令人兴奋的新领域。 人机交互。 我们的WISDM(无线传感器数据挖掘)项目(Weiss 2012a)的目标是探索与从这些功能强大的移动设备中挖掘传感器数据相关的研究和应用问题。 在本文中,我们探索了使用智能手机加速度传感器来识别用户正在执行的活动–这一任务称为活动识别。

我们采用监督学习的方法来解决活动识别任务。 我们从59位用户的步行,慢跑,爬楼梯,坐着,站立和躺下时收集了加速度计数据,然后将这些原始时间序列数据汇总到涵盖10秒活动的示例中。 每个示例都标记有在间隔期间发生的活动,并使用几种标准分类算法导出活动识别模型。 我们利用基于Android的智能手机,因为Android操作系统是免费的,开源的,易于编程的,并且是最受欢迎的移动操作系统。 但是,Android手机中存在的三轴加速度计几乎在所有新的智能手机和智能音乐播放器中都发现了,包括iPhone和iPod Touch(Apple 2009),因此我们在本文中描述的研究可以轻松地应用于其他移动设备。 平台。

加速度计最初包含在智能手机中,以支持高级游戏并启用自动屏幕旋转。 但是,他们还可以支持利用活动识别的应用程序,例如监视用户日常活动的健康应用程序。 这样的应用可以帮助解决因运动不足而引起的健康问题(例如心血管疾病,高血压和骨质疏松症),并有助于应对儿童肥胖对公共健康的严重威胁(Koplan等,2005)。 鉴于世界卫生组织(2002年)坚持认为,由于缺乏运动而导致每年约200万人死亡,因此迫切需要这种应用。 WISDM项目正在通过开发Actitracker应用程序来追求这种健康应用程序(Weiss 2012b)。

活动识别还可以使智能手机根据用户的行为来调整其行为。 这样的上下文敏感应用程序可以在用户锻炼时自动将呼叫转发到语音邮件,或者在用户每天慢跑时开始放慢速度时播放“快节奏”音乐。 像这样的应用程序通过响应用户的自然活动而使人机交互变得透明,而不是需要与界面进行有意识的交互。

基于加速度计的活动识别并不新鲜。 实际上,已经开发了许多活动识别系统,但是实际上,所有这些系统都依赖于绑在对象四肢上的多个加速度计的使用。 我们的工作与此不同之处在于,我们依靠的是大规模销售的商业设备,而不是专用的硬件,并且我们使用方便放置在用户口袋中的单个设备,而不是遍布身体的多个设备。 因此,我们的活动识别工作可以轻松地进行大规模部署。 但是在本文中,我们通过比较和分析个人和非个人活动识别模型的性能,做出了另一个关键贡献。 通过为用户提供标记的活动数据样本来为特定用户生成个人模型,而通用/非个人模型则是从一组用户中构建的,然后应用于新用户。 正如我们的结果所示,即使使用很少的数据构建个人模型,个人模型也大大优于非个人模型。 没有现有的基于智能手机的系统以全面的方式执行这种类型的比较。 活动识别模型的准确性和可移植性是使用这些模型构建的活动表示系统的关键问题。

The Activity Recognition Task

活动识别任务涉及将时间序列加速度计数据映射到单个物理用户活动。 在本文中,我们通过将时间序列数据汇总到示例中,将其公式化为标准分类问题。 我们考虑了六种常见的活动,这些活动通常会占用用户一天中的大部分时间:散步,慢跑,爬楼梯(上下),坐着,站立和躺下。 我们假设智能手机可以放在用户的口袋中,但是将来会考虑使用腰带式智能手机。 与智能手机关联的轴如图1所示对齐。加速度计测量由于重力引起的加速度,约为9.8m / s2,并将其合并到y轴值中,以供用户(或处于至少手机)是直立的。
论文学习WISDM-05:The Impact of Personalization on Smartphone-Based Activity Recognition
我们认识到的六个活动包括三个静态活动(站立,坐下和躺下)和三个动态活动(步行,慢跑和爬楼梯)。 图2显示了站立活动的加速度计图。 由于空间限制,未显示坐下和躺下的图表,但是对于这两个静态活动,重力不再与y轴对齐,因此y轴值不再占主导地位。
论文学习WISDM-05:The Impact of Personalization on Smartphone-Based Activity Recognition

Experiment Methodology

在本节中,我们描述了生成活动识别模型的方法。 我们讨论了数据收集程序,将加速度计数据转换为示例的方法以及模型归纳过程。 我们还将描述用于生成和评估个人,非个人和混合模型的方法。

Data Collection

我们收集了59位用户的口袋中装有基于Android的智能手机,同时执行上述六项日常活动,从而收集了数据。 数据收集过程由我们的传感器集合“ app”控制,该集合可从Android Marketplace获得。 我们的研究团队成员指示参与者执行各种活动,并将活动标签输入到应用程序中。 传感器数据存储在手机上,也发送到我们的服务器。 对于本研究,我们每秒对加速度计采样20次。 使用15种不同的Android智能手机型号来收集数据,运行的Android OS版本为1.5到2.3。 观察到所有这些手机上的加速度计都可以类似地工作。

Data Transformation

标准分类算法不能直接处理时间序列数据,因此我们首先将原始的加速器数据转换为示例(Weiss和Hirsh 1998)。 为了实现这一点,每个示例总结了10秒的数据(此时间足以捕获几次重复的周期性运动,并根据经验显示其效果很好)。 给定每秒20个样本和3个轴,则每个示例产生600个加速度计值。 然后,我们使用以下6个基本特征从这些原始值生成43个特征(每种特征类型所产生的特征数在括号中注明):
论文学习WISDM-05:The Impact of Personalization on Smartphone-Based Activity Recognition
频率特征使用启发式方法来识别波中所有明显不同的峰值,然后计算连续峰值之间的平均时间。 对于无法找到至少三个峰的样本,使用特殊的空值。

表1显示了每个活动的已转换示例的数量和分布。 步行是最常见的活动。 慢跑和爬楼梯所需的时间必须加以限制,因为它们太费力了,而我们限制了在静态活动上花费的时间,因为它们很容易识别。
论文学习WISDM-05:The Impact of Personalization on Smartphone-Based Activity Recognition

Model Induction and Experiments

我们的活动识别模型是使用以下WEKA(Witten和Frank 2005)分类算法从带标签的示例中得出的:决策树(J48和Random Forest,RF),基于实例的学习(IBk),神经网络(多层感知器, NN),规则诱导(J-Rip),朴素贝叶斯(NB),投票特征间隔(VFI)和逻辑回归(LR)。 默认设置用于除NB(启用内核估计)和IBk(设置k = 3(IB3))之外的所有学习方法,因此我们使用3个最近邻居,而不是默认值1。

在我们的研究中,我们得出了三种类型的模型:非典型,个人和混合模型。 每种模型都解决了稍微不同的学习问题,并对如何应用模型做出了不同的假设。 模型的类型会影响我们如何将数据划分为训练和测试数据。 不同的模型如下所述:
论文学习WISDM-05:The Impact of Personalization on Smartphone-Based Activity Recognition
非个人模型的优势在于,它们可以为所有用户建立一次,并且可以包含来自许多用户的数据以进行培训。 这些模型可以看作是通用模型,尽管从技术上讲,它们仅应用于培训集中的用户。 个人模型的优点是,它们可以匹配目标用户的特质,但需要每个用户提供训练数据。 他们还必须依靠来自单个用户的有限数据。 像个人模型一样,混合模型需要为每个用户提供训练数据和模型生成,但是由于它使其他训练数据可用(来自其他用户),因此其性能可能优于个人模型。

与每个模型相关的实验在设置方式上有所不同。 对于非个人模型,来自58个用户的数据被放入训练集中,来自1个用户的数据被放入测试集中。 此过程重复了59次,这使我们能够生成可靠的性能指标,并且还可以轻松地按用户表征性能。 对于个人模型,每个用户的数据均经过10倍交叉验证,因此可以评估590(59×10)个人模型。 由于每个用户的数据量非常有限(平均160个示例),因此必须进行10倍交叉验证。 通过对所有59次运行中每个单元格中的计数求和,可以创建从这两种类型的模型生成的混淆矩阵。 混合模型的设置要简单得多,因为我们只需将所有用户数据放入单个文件中,然后使用10倍交叉验证即可。 因此,在这种情况下,训练和测试集具有重叠的用户集。

Results

表2显示了与个人,杂种和非个人模型相关的8种分类算法的预测准确性。表2中显示了这些活动。频繁发生的活动对性能产生更大的影响。 这些结果非常清楚地表明,对于每种分类算法,个人模型的表现最佳,混合模型的表现次之,非个人模型的表现最差。 此外,个人模型始终具有很高的准确性,并且其性能要比非个人模型好得多。 尽管此结果易于证明合理性,但由于不同的人可能以不同的方式移动,因此结果远非显而易见,因为从很少的数据(从绝对意义上来说,从少量数据(即 ,平均为0.9×160 = 144个示例)。
论文学习WISDM-05:The Impact of Personalization on Smartphone-Based Activity Recognition
混合模型通常比非个人模型更接近于个人模型。 我们对此感到非常惊讶,因为即使混合模型评估了训练集中用户的性能,我们也认为它不能真正利用59个用户之一的数据。 这些结果清楚地表明这是不正确的,并且混合模型的良好性能归因于专注于和利用少量训练数据的能力(平均1/59)。 这意味着分类算法可以有效地从大量用户中识别特定用户的移动模式。 回想起来,这并不奇怪,因为我们研究小组的最新工作表明,从加速度计数据中得出的生物识别模型可以从一组几乎完美的用户中识别出一个用户(Kwapisz,Weiss和Moore,2010a)。 由于混合模型的性能比个人模型差,但仍然需要从每个用户那里获取带标签的训练数据,因此,我们几乎没有理由使用混合模型-除非在个人数据很少的情况下( 我们将在以后对此进行评估)。

我们主要关注这三种模型的比较性能,但是我们的结果表明,考虑到问题的形成,哪种分类方法可能最适合活动识别。 对于个人模型,尽管RF和IB3的性能也很不错,但是NN的效果最好。 对于非个人模型,RF效果最好。

表3显示了针对每个活动的个人和非个人模型以及三个最佳分类算法和“基线”策略的活动识别性能。 基线策略始终会预测指定的活动,或者在评估总体绩效时会预测最常见的活动。 个人模型通常在很多活动上都胜过非个人模型,尽管非个人模型仍然胜过基本策略。
论文学习WISDM-05:The Impact of Personalization on Smartphone-Based Activity Recognition
表4提供了与随机森林学习者相关的个人和个人模型的混淆矩阵。 我们从非人为模型开始分析,因为它们的错误最多。 表4a中的结果表明{步行,爬楼梯}和{躺下,坐着}是最经常混淆的两套活动。 步行和楼梯之间的混乱可能是由于各步之间的时间相似,而人们在执行这些活动中的每一项之间的差异又加剧了这种混乱。 很容易看出躺下和坐下是如何混淆的,因为两种情况下一个人的口袋的方向都将以相似的角度。 尽管表4b中个人模型的结果表明,这两组活动最令人困惑,但此类错误的发生率降低了10倍以上。这表明可以学习特定于用户的活动,这两组活动之间存在差异,而且这些差异并非所有人都一样。 这是进行活动识别的关键课程,也是有关使用个人模型的争论。

论文学习WISDM-05:The Impact of Personalization on Smartphone-Based Activity Recognition
到目前为止提供的结果是所有用户的平均值。 但是,了解用户之间的活动识别性能如何变化很有帮助。 图4为个人模型提供了此信息,并显示了这些模型几乎对所有用户都表现良好。 表现较差的次要异常值主要是由于这些用户数据中的类不平衡程度很高。 例如,错误率第二高的用户有59个步行数据示例,但楼梯,坐着,站立和躺下每个只有5到8个示例。 精度最差的用户具有相似的等级分布,但也有腿部受伤的危险。 因此,对于个人模型确实发生的几个问题似乎是由于阶级失衡的严重程度或伤害造成的。

论文学习WISDM-05:The Impact of Personalization on Smartphone-Based Activity Recognition
图5显示了非个人模型的性能分布。 仍然有一些用户的分类精度在95-100%的范围内,但是许多用户的性能却非常差。 我们的分析表明,在使用个人模型时,这些表现不佳的用户大多数都表现良好。 这提供了明确的证据,表明许多用户的移动方式与其他用户不同,这“混淆”了非个人模型,但没有“私人”模型,后者可以了解特定用户的移动方式。
论文学习WISDM-05:The Impact of Personalization on Smartphone-Based Activity Recognition
作为我们数据收集协议的一部分,我们收集有关每个用户的身体特征(身高,体重,性别,鞋子大小等)的信息。 我们分析了此信息,以确定使用非人格模型时,具有特殊或极端特征的人是否特别难以预测,但是部分由于用户数量有限,我们只能发现提示性模式。 例如,在使用RF非人为模型很难预测的十个用户中,有三个是研究中年龄最大的用户。 将来,我们计划从更多的用户和不同的用户那里收集数据,以便我们可以更好地评估这些因素的影响。

个人模型的成功鼓励我们提供一个自我培训界面,以便用户可以自己生成带有标签的培训数据。 我们已经在很大程度上做到了这一点,这极大地减轻了研究人员的工作量。 在不久的将来,我们还将允许用户自动生成自己的个人模型。 但这并不是说非个人模型的性能不足以适用于所有应用程序。 例如,尽管对每个单独的10秒间隔的预测可能相对较差,但我们仍然能够准确地量化长时间内花在每个活动上的时间。

Related Work

由于消费产品中使用了加速度计,因此活动识别最近引起了极大的关注。 但是,活动识别多年来一直是活跃的研究主题。 早期的工作采用了跨用户身体的多个加速度计。 一项著名的研究使用了五个双轴加速度计来识别20种活动(Bao和Intille 2004)。 这项研究确定了放置在大腿上的加速度计对于区分活动是最有效的。鉴于智能手机通常存储在用户的口袋中,这是一个幸运的发现。 另一项研究(Krishman等人,2008年)使用了两个加速度计,并声称单个大腿加速器不足以对坐下,躺下,行走和跑步等活动进行分类,这是我们的研究提出的反驳。 Tapia等人的研究。 (2007年)使用五个加速度计来识别30个体育馆活动,而另一个使用三个加速度计来识别七个下半身活动(Krishman和Panchanathan 2008)。 尽管这些论文中描述的系统能够准确地识别各种活动,但由于它们依赖于多个专用加速度计,因此无法用于主流应用。 这些研究还涉及相对较少的参与者。

一些研究将其他传感器与加速度计结合使用来执行活动识别,包括:心脏监护仪(Tapia等,2007),光传感器(Maurer等,2006)和腰部佩戴的图像传感器。 (Cho et al.2008)。 智能手机可以支持这种多传感器方法,我们计划在将来加以利用。

几种活动识别系统已集成了智能手机,但仅作为存储设备使用(Gyorbiro等,2008; Ravi等,2005)。 其他系统已经使用商业移动设备作为活动识别系统的主要组件。 一项工作探索了将各种智能手机传感器(麦克风,加速计,GPS和照相机)用于活动识别和移动社交网络应用程序(Miluzzo等,2008)。 使用诺基亚N95手机区分坐姿,站立,行走,跑步,驾驶和骑自行车的活动识别系统能够实现相对较高的活动识别精度,但并未考虑爬楼梯,仅涉及四个用户(Yang 2009 )。 另一项努力还使用诺基亚N95手机识别了六个用户活动,但仅评估了个性化模型(Brezmes等人,2009年),而另一个基于智能手机的系统仅评估了混合模型(Kwapisz,Weiss和Moore,2010b)。 Khan等。 (2010年)在评估来自不同身体位置的智能手机数据的相同活动中,获得了96%的准确性,但该研究仅包括6位用户,该方法还不足以提供确定模型类型的信息。

不同类型的活动识别模型的比较分析相对较少。 像下面这样的大多数研究仅分析一种类型的模型:非人格模型(Brezmes等,2009; Gyorbiro等,2008; Ravi等,2005),个人模型(Miluzzo等,2008; Yang 2009)和 混合模型(Kwapisz,Weiss和Moore,2010b)。 两项研究确实比较了个人模型和非个人模型,但是这些模型都没有使用智能手机,也没有使用五个加速度计,因此任何结论都不一定适用于基于智能手机的系统。 这些研究的第一个结论是,由于附加的训练数据,非人格模型总是优于个人模型。 它进一步表明,当使非个人和私人训练集大小相等时,个人模型仅略胜于非个人模型(Bao和Intille 2004)。 我们的结果显然与该结果矛盾很大(但对于基于智能手机的系统而言)。 在第二项研究中,个人模型优于非个人模型-但实际上没有对此进行分析或讨论-因为本文着重于其他问题(Tapia等,2007)。 因此,我们的论文是关于模型类型对活动识别的影响的最全面的研究,尤其是与基于智能手机的系统有关的研究。 此外,我们还评估了混合模型,并在研究中包含了比以前的研究更多的用户,从而获得了更一般和可靠的结果。

活动识别是人机交互中的关键领域,尤其是在涉及移动设备时。 甚至在智能手机配备传感器之前,研究人员就将传感器绑在这些移动设备上以支持上下文感知(Hinckley等,2000),并允许他们通过旋转显示器来响应基本上下文,例如方向。 Schmidt(2000)提出,隐式交互将是人机交互的下一个重大转变,因为它将进一步减少处理界面的人员开销。 活动识别(包括本文中描述的类型)通过允许设备在没有任何明确输入的情况下响应用户,从而完全消除了这种人力开销。

Conclusion and Future Work

在本文中,我们描述和评估了一种仅使用智能手机即可轻松地实现活动识别的机器学习方法。 我们证明,即使仅使用少量用户特定的训练数据,构建一个按声音分类的模型也可以达到近乎完美的结果。 我们进一步表明,非人格模型的表现要比个人模型差得多。 对数据的分析表明,非人格模型无法有效地区分某些活动,此外,这很大程度上归因于非人格模型在某些用户上的表现令人恐怖。 个人模型几乎可以在任何情况下轻松处理有问题的用户。 我们还评估了混合模型,并表明它们的性能比非个人模型更接近于个人模型-但是由于混合模型需要用户特定的训练数据,因此不妨使用个人模型。 这是第一个对这些不同模型/学习场景进行仔细分析的研究,我们认为这是本文的重要贡献。 这项工作将极大地影响未来活动识别系统和依赖它们的更高级别活动表示系统的设计。

我们计划以几种方式扩展我们的活动识别工作。 我们计划涵盖其他活动并利用其他传感器(例如GPS)。 我们将继续收集数据,因此将为我们的研究增加更多的用户。 我们还计划将身体特征(例如身高,体重,性别)纳入我们的活动识别模型,并期望这将改善我们所有模型的性能,但尤其是非人格模型,可以通过相对容易获得的“个性化”将其个性化 信息。 我们还计划分析那些使用非人称模型表现非常差的用户,以更好地了解他们为什么表现如此差(如果可以纠正)。 我们还计划在几天,几周和几个月的时间内从用户那里收集数据,以确定他们的运动方式随时间变化(当前,根据同一培训课程中的数据对个人模型进行评估)。

我们的主要目标之一是通过可下载的应用程序将活动识别工作提供给智能手机用户和研究人员。 我们已经进行了一年多的研究,现在在NSF赠款1116124的支持下,这项工作正在迅速进行。我们正在构建的Actitracker系统将跟踪用户的活动并通过安全的帐户和网络界面提供报告。 这种应用将帮助人们确保他们和他们的孩子足够活跃以维持良好的健康,并且,如引言中未提到的那样,鉴于与缺乏运动有关的状况和疾病的数量,这可以帮助改善和挽救生命 。 该系统还将具有收集自己标记的训练数据并生成个性化活动识别模型的能力。 这样的系统有望刺**动识别的进一步发展,并突出个人活动识别模型的重要性。 目前正在测试该系统的早期版本以进行部署。