对话夏琳·查布利斯:Primer.AI机器学习工程师是怎样炼成的?

全文共6697字,预计学习时长17分钟

对话夏琳·查布利斯:Primer.AI机器学习工程师是怎样炼成的?

图源:unsplash

过去十年里,人们对数据科学的兴趣与日俱增,越来越多的人正尝试改行跻身于这一领域,有关转行从事数据科学的文章和YouTube视频比比皆是。然而,很多人仍然存在顾虑:社会科学出身的人如何进入数据科学领域?在心理学等其他领域,有哪些重要的技能可以应用于数据科学?

 

夏琳·查姆布利斯不同寻常的职业路径具有启发意义。现在,她正利用最先进的自然语言处理技术来构建分析海量信息的智能工具。在过去的两年里,她写了关于自然语言处理(NLP)的文章,包括命名实体识别的BERT模型和新闻标题分析的word2vec模型等等。

 

然而,在担任机器学习工程师之前,她曾在市场营销、心理学、研究等领域任职,并曾作为数据科学家在护肤行业实习。

 

对话夏琳·查布利斯:Primer.AI机器学习工程师是怎样炼成的?

安布尔:您能说说您的背景吗?

 

夏琳:当然!我步入数据科学的道路不同寻常,我将从头开始讲起,深入一些细节,阐明我所经历的一切。

 

我在一个农业小镇(加利福尼亚州莫德斯托市)长大,我父亲直到现在仍然在喜互惠(Safeway,美国连锁超市)工作,我母亲是一位全职太太。他们很注重对我的教育,我热爱学习,我喜欢成为他们的骄傲。

 

从小我就想成为一名科学家。我喜欢修修补补,学习事物工作的原理。为了满足我的好奇心,母亲会带我去图书馆(我会带回一摞书,大约12本),让我在厨房帮忙(烹饪=化学),偶尔还会给我买套玩具科学装备。

 

这种兴趣一直持续到高中和大学一年级。当时我决定学习化学工程,成为一名风味科学家,因为化学是我最喜欢的学科。我天真地认为我只需发明新的口味,使健康食品更美味,这样人们就可以更轻松地吃沙拉和蔬菜,变得更健康。我讨厌吃沙拉和蔬菜,17岁的我认为自己很聪明,这是一个绝佳的解决办法。

 

高中期间,我一直坚持自己的教育重点和工作理念,并成功入读斯坦福大学。坦白来讲我很意外——我以为我会去加州大学戴维斯分校,如果特别幸运的话,也许能进伯克利分校。即便如此,这也算是很大的野心了,因为我们高中大约有一半的毕业生根本上不了大学。在我那一年的500个毕业生中,只有约5个人能进入“顶尖学校”(伯克利、斯坦福、哈佛)。

 

对话夏琳·查布利斯:Primer.AI机器学习工程师是怎样炼成的?

图源:unsplash

但真正令我意想不到的,是我在斯坦福所经历的文化冲击。

 

斯坦福大学绝大多数学生来自高收入家庭,平均年收入为16.75万美元。他们的父母大部分都受过高等教育,具有专业技能,他们上的是城里最好、资金最充裕的高中,并且雇用家教来帮助他们解决难题。而我的家庭收入是他们的四分之一左右,我对某些知识的掌握程度与我的同龄人相比反映了其中的差距。

突然间,我发现我对自己的能力(尤其是在数学和计算机科学方面的天赋)感到很不安,并且真的怀疑自己是否能达到其他学生的水平。我当时并没有意识到我们的背景是如此不同,因为没有人会谈论这类事情,所以我把自己的表现归因于我能力不足。

 

我也是我们高中那一年唯一一个上斯坦福的人,我刚进斯坦福的时候一个人都不认识,也没有可以倾诉的人。我在斯坦福大学的时候,一直觉得自己是滥竽充数的,这种感觉挥之不去,但我至少伪装得更好——直到我真的做到了。

 

我成功从斯坦福大学毕业了,虽然我最终没有攻读化学工程,而且在大三结束后还休学了一年来帮助我父母处理离婚的事(我母亲有残疾,我要帮她卖房子和搬家)。

 

2017年,我拿到了心理学学士学位。在直系亲属中,我是第一个拿到大学学位的人。但由于缺乏指导和榜样,我觉得自己这一路上犯了很多错误。

 

我第一次找工作时困难重重,因为在面向“受过教育的专业人士”的就业市场上,我只能向职业中心寻求帮助。他们提供的小册子和30分钟的咨询并不能真正填补所有的空缺,但经过大量的研究和职业介绍会,我终于找到了为一家小型中介公司做社交媒体营销的工作。

 

我没有仔细研究过只有学士学位的心理学专业学生的财务状况和总体职业前景,但在从事这项工作的过程中,我清楚地意识到,除非我做出重大改变,否则我的职业生涯不会达到理想目标。

 

因此,在2017年底,我决定进入数据科学领域,尤其是机器学习,并投身于GRE学习,以便及时提交2018年秋季入学的申请。

 

我如期注册了硕士学位,课后尽可能多地做功课和学习,尤其是统计、线性代数、Python和机器学习。学位课程都是用R语言编写的,所以我通过在线课程和1500多页的教科书(《学习Python》)完全自学了Python。

 

在第一年(2019年春季)快结束的时候,我在Curology(美国化妆品公司)获得了一个数据科学的实习机会,并在那里工作到秋季。研二初,我通过Sharpest Minds找到了一位导师尼娜·洛帕蒂娜(Nina Lopatina),因为我决定专注于找一份NLP相关的工作。在为期10周的指导后,我开始寻找工作,并于2019年12月得到了Primer的全职工作机会。

为了全职工作,我需要延迟硕士毕业,这是一个艰难的决定,但这份经历对我来说更重要,所以我这么做了。事实证明,这一决定非常适时,因为仅仅几个月后,疫情就使最近的毕业生就业市场大幅缩减。我有一些同学还在努力找工作,我本来很可能也会陷入同样的境地。

 

总而言之,缺乏数学和编程经验的我,从市场营销转变到一个全职的机器学习工程师,花了大约2年的时间。在2017年之前,我只选修了单变量微积分、基本/入门统计和一门Java编程课程。

 

安: 在进入数据科学行业之前,您在斯坦福大学学习心理学。能说说这段经历对您进入数据科学职业道路有何影响吗?

 

对话夏琳·查布利斯:Primer.AI机器学习工程师是怎样炼成的?

图源:unsplash

夏:总的来说,做好数据科学工作的关键是对晦涩问题驾轻就熟的能力,这能让你的数据得到决策者的信任,而学习社会科学是锻炼这项技能的好方法。

 

这种墨菲定律的思维方式适用于实验结果:对于任何可能“令人困惑”或者影响分析结果的事情我都非常关注,而且我可以在适当的时候提醒大家注意潜在的威胁。这样,他们可以利用自己领域的知识来决定这些注意事项对结果是否重要,以便我们对实验/分析做相应的调整。

 

除此之外,我大概花了一年半的时间在心理学实验室里做实验。虽然这类岗位有很多“乏味的工作”,比如数据录入,但是你可以深入地了解到科学研究从数据收集到统计分析的全过程,并且参与其中的一些决策。

 

这让我很好地适应了数据科学的工作流程,也具备了一些实用技能(比如使用电子表格)和一种“我能行”的态度,这对以后的工作很有帮助。

 

安:您曾在Curology做过数据科学的实习。您能谈谈数据科学在护肤品行业的作用吗?您和您的团队希望解决哪些类型的问题?您在Curology参与过哪些有趣的项目?

 

夏:我认为在Curology的经历很好地体现了数据科学在D2C(直接面向消费者)业务中的表现,尤其是在初创企业中。通常情况下,以消费者为中心的企业首先需要的(当然是在雇佣数据工程师之后)实际上只是大量描述性的统计数据,这些数据通常被称为“消费者洞察”。

 

因为我在用户采购部门,所以主要负责回答问题,来帮助我们在许多不同的采购渠道上做出更好的营销决策。

 

80%的时间里,我都在为我们的数据仓库编写SQL(一种数据库语言),以便更好地了解不同客户群体的行为,跟踪这些行为的变化趋势,并将这些发现转化为可解释的仪表板(Fine Report报表中的一种图表类型,可清晰地展示出某个指标值所在的范围),供团队其他成员使用。

 

另外20%的时间,我使用Python分析客户的调查回答,并将其可视化,以便更好地了解他们的喜好和对Curology的需求。

 

所以我要提出和回答的一些问题有:

 

· 不同客户群(性别、年龄等)的护肤目的有何不同?对于每一类客户来说,什么是最重要的,如何确保我们能够很好地满足他们的所有需求?

 

· 哪个渠道的客户“粘性最强”,即最倾向于长时间使用我们产品?认购时长是否与其他行为或偏好有关?

 

· 我们能否利用客户行为的历史数据建立一个模型,来预测注册时的客户终身价值(CLV,即客户在未来可能为企业带来的收益总和)?出于抽样的考虑,当客户群快速增长时,这实际上非常困难。

 

我获益匪浅。用SQL进行数据分析不仅有助于学习SQL,它实际上可以锻炼分析性思维。

 

首先,你必须学会将某人关于客户的自然语言问题转换成适当的指标(基于不同的使用案例,这些指标通常会有不同的筛选条件和假设),然后还要学习如何以正确的数学和技术方式使用SQL代码来执行这些指标。

 

有时,甚至需要确保所使用的表/数据是正确的,因为表已被弃用,管线中的错误,或者X轴上的数据在6个月前才开始被跟踪等因素,都会导致一些数据不能放入表中。在做这类工作时,需要考虑很多现实的因素。做可靠的数据分析和机器学习的IMO(国际数学奥林匹克竞赛)一样具有挑战性,尽管有时原因不尽相同。

 

对话夏琳·查布利斯:Primer.AI机器学习工程师是怎样炼成的?

图源:CharleneChambliss

 

安:您一直都知道自己想做数据科学吗?是什么激励您从事自然语言处理的职业?您能介绍一下Primer.Ai应用研究团队吗?

夏:并不是的。我认为如今从事数据科学工作的人中很少有人曾预料到这一领域会崛起,我甚至直到大四才真正了解应用统计学在私营产业的广泛应用。

 

当我大学毕业并开始第一份市场营销的工作时,很快发现这并不适合我。我开始探索其他路径,想在找到更符合个性和价值观的职业之间有个过渡。还要薪水更高,因为入门级市场营销的薪水只够在旧金山湾区勉强过活)。

 

经过几个月的努力,我最终锁定了数据科学。这是一项非常挑战智力的工作,将对经济和社会产生巨大影响,我还注意到,从事数据科学职业的人往往比其他领域见到的人更加注重道德规范。看到这个领域的人真的关心自己的工作会给人们带来什么样的影响,这对我触动很大,也是我最终决定转型的原因。

 

即便如此,我还是不确定,因为读本科时,我的数学和计算机科学不太好,所以不确定我是否能搞定它。在斯坦福大学的第一个学期,我的微积分和计算机科学成绩是超级差,这让我严重怀疑自己不是这块料。

 

当我踏上这段旅程时,我必须说服自己,我可以通过客观的标准而不是自己的感受来取得成功:“我的SAT得了X分,而计算机科学(CS)专业学生的SAT平均分是Y(X>Y),所以我应该能像这个领域的其他人一样把数学等学科学好……”

 

后来在硕士期间,我发现本科统计学成绩不佳的主要原因是缺乏良好的学习习惯和对数学的兴趣。高中的时候,我可以拖到考试前一晚才去学习,而且课后从不阅读课本,但在斯坦福大学就不再是这样了。

 

对话夏琳·查布利斯:Primer.AI机器学习工程师是怎样炼成的?

图源:unsplash

我渐渐改善了学习习惯,并且在大四修的两门统计学课中取得了好成绩。同样地,当我通过数据科学了解到数学和统计数据应用于现实世界的方式是如此迷人又新奇,我就真正意识到了数学的作用,并突然间获得了征服数学的动力。在硕士期间,我连续三个学期获得了A。

 

几年前我真的不喜欢数学和编程,但现在我却在这里工作,每天都在使用并享受它们,想来这还是挺疯狂的。

 

我想强调的是,不要把自己定义为“适合学数学”或“不适合学数学”,这很重要,编程也是一样。这两种技能都只是工具,它们具有不可思议的力量,可以在任何你关心或感兴趣的领域助你一臂之力,无论是艺术、法律、社会科学,还是更传统的工程领域。你要克服那些反感和恐惧,一旦能够使用这些工具来处理关心的事情时,就会有很大的成就感。

 

至于我为什么选择NLP,有几个原因。

 

从职业层面来讲,我认为NLP更欢迎非常规背景的人,相比之下,数学和计算机领域都是CS、数学、物理和电气工程等背景的人。从个人和兴趣层面来讲,我认为NLP最适合解决信息过量问题。信息量太大会加剧压力,同时也降低了知识工作者的生产力。我喜欢NLP,因为我可以直接帮助人们排除干扰,深入了解他们需要的知识,以便更高效地生活和工作。

 

我在Primer的工作与信息过载问题直接相关。在Primer,我们利用强大的、前沿的NLP模型从嘈杂的非结构化文本数据中提取结构化信息。这有助于客户更快地获得所需信息,而不是人为的研究数据。一些分析师每天工作12小时,仅仅是因为他们需要持续更新大量的信息,却无法快速阅读和消化它们,我们希望改变这种状况。

 

我的应用研究团队负责培训、测试和为Primer的产品提供深度学习模型,并将这些模型集成到我们的数据流水线中,或者通过应用程序接口(API)将它们公开以供使用。

 

我们还创建可以再利用的脚本和资源,来让人们根据自己的数据训练自己的模型。这项工作不仅涉及模型实验和工程,还会与其他团队进行大量合作,这些团队与产品和基础设施的关系更加密切。

 

就每周而言,我一半的时间用在为模型训练/评估编码、数据预处理和其他典型的机器学习任务,另一半时间用于交流工作:与产品经理讨论计划、规格和进度,与我们的数据标记团队合作,共同为新的和现有的任务创建数据集,并向整个公司介绍我们模型新的建设和改进。

 

安:在SharpestMinds做研究员期间,您开发了一个“基于BERT的命名实体识别模型”培训工具箱,分析俄英机器翻译前端的错误。您能否详细地描述一下这个项目,并分享一下您最重要的三点收获?

 

对话夏琳·查布利斯:Primer.AI机器学习工程师是怎样炼成的?

图源:unsplash

夏:简而言之,我的导师需要一种训练BERT模型的方法来进行俄语和英语的命名实体识别,我的任务是学习如何在PyTorch中使用BERT进行命名实体识别(NER),然后以git仓库的形式构建整个可以在本地克隆和运行的流水线。

 

由此产生的训练模型可用于在用户界面中突出人、地点和组织等实体,这样在将姓名从俄语翻译成英语时,翻译人员就能识别一个单独的模型(俄英翻译模型)是否出错了。我认为使用这些模型来创建更强大、更人性化的软件非常酷,这个项目激发我构建机器学习驱动工具和界面的兴趣。

 

当时,正好有一篇关于使用BERT进行命名实体识别的博文,而对我来说代码并不是现成的,所以毫无疑问:有很多需要解决的问题!(不管怎样,还是要感谢作者托比亚斯·斯特贝克写了这篇非常有用的帖子;不然我要花很长时间才能上手。)

对话夏琳·查布利斯:Primer.AI机器学习工程师是怎样炼成的?

图源:gab41.lab41.org

安:您对其他想进入这个领域的女性有什么建议吗?

 

夏:如果你还在上学(尤其是本科生),你有3个好的选择:学习计算机科学并接受广泛的CS教育,学习数学,如应用统计学、经济学或工程学,并与CS课程相结合,或者在学习这些课程的同时自学如何将数据科学/机器学习应用到你的领域。积累研究经验,尤其是想攻读硕士或博士学位的话。

 

如果你偏向于工作,那就积累行业经验(每年夏天都要实习,甚至可以在上学时做兼职)。不管你走哪条路,想要成功,基本上都需要具备对DS/ML背后数学的概念性理解(统计估计和概率、线性代数和微积分)和良好的编程技能。

 

如果你已经毕业并要转行,研究一下这个行业中人们的职业道路。尽量多关注与你背景相似的人:例如,如果你来自“非技术性”的领域,不涉及太多数学或编程,注意一下其他人是如何从非技术领域过渡进来的。

 

搞清楚他们要做什么来证明他们有足够的技术技能。联系这些人,跟他们打个30分钟的电话,问他们一些具体的、重点突出的问题,问问他们你需要做些什么才能胜任你感兴趣的工作。

 

如果你的背景毫不相干,并且需要帮助来设计和调查一个令人印象深刻的、专业的数据科学项目,并为面试做准备,同时也应该好好考虑一下参加导师项目,比如Sharpest Minds。如果你像我一样来自低收入的领域,收入分成协议是一个救命稻草,因为在找到数据科学职位前你不需要支付任何费用。

 

此外,有你还需要读维姬·博基斯(Vicki Boykis)去年发表的文章《如今的数据科学已大不相同》。不是所有参加Coursera课程甚至训练营的人都能进入初级数据科学领域,这些行业的竞争非常激烈,这是不争的事实,你需要从众多目标相同的人中脱颖而出。

 

对话夏琳·查布利斯:Primer.AI机器学习工程师是怎样炼成的?

图源:unsplash

正如薇琪(Vicki)建议的那样,首先在通用软件工程或数据分析中做一份相关的工作,这对培养技能和进入该领域非常有用。当然了,迈出第一步是最重要的。

 

对话夏琳·查布利斯:Primer.AI机器学习工程师是怎样炼成的?

一起分享AI学习与发展的干货

欢迎关注全平台AI垂类自媒体 “读芯术”

对话夏琳·查布利斯:Primer.AI机器学习工程师是怎样炼成的?

(添加小编微信:dxsxbb,加入读者圈,一起讨论最新鲜的人工智能科技哦~)