5月份Github上最热门的数据科学和机器学习项目

5月份Github上最热门的数据科学和机器学习项目


GitHub最近以数十亿美元的交易被微软收购。GitHub一直是开发人员之间协作的终极平台,我们已经看到数据科学和机器学习社区同样非常需要它,因此,我们希望GitHub能在微软的保护下继续发展下去。

在本月排行中,上榜的项目有英特尔开源的NLP架构库,微软推出ML.NET以支持Dot Net开发者的机器学习等。下面我们一起看下详细榜单:



1、ML.NET


5月份Github上最热门的数据科学和机器学习项目

ML.NET是一个开放源代码的机器学习框架,旨在让 .NET 开发者更快上手机器学习。它使开发者们能够使用.NET开发自己的模型,而且不需要构建机器学习模型的经验。这是目前的预览版,包含基本的分类和回归算法。


ML.NET最初是由Microsoft创建的,并且已经被用于各种产品当中,如Windows,Excel,Access,Bing等。此版本还捆绑了用于各种模型训练的.NET API。(项目地址:https://github.com/dotnet/machinelearning)


2、NLP Architect


NLP Architect是一个开源的Python库,使数据科学家能够探索自然语言处理(NLP)和自然语言理解(NLU)领域最先进的深度学习技术。它由英特尔实验室的研究人员开发并且开源。帮助开发人员为聊天机器人和虚拟助手等会话应用提供所必需的功能,比如名称实体识别,意图提取和语义分析等。


5月份Github上最热门的数据科学和机器学习项目


这个库中我最喜欢的组件之一是一个可视化组件,它以整洁的方式显示模型的注释。

上图是NLP的框架。(项目地址:https://github.com/NervanaSystems/nlp-architect)


3、Amazon Scrape


5月份Github上最热门的数据科学和机器学习项目


这个python包使您能够从亚马逊搜索和抓取产品信息。使用该包可以代替编写代码行来确定需要分析哪些产品,。你只需输入你想要搜索的关键字和最大产品数量(这是可选的)。数据最终将以CSV格式输出,然后你可以将其插入到分析工具中进行分析。(项目地址:https://github.com/tducret/amazon-scraper-python)


4、PIGO


5月份Github上最热门的数据科学和机器学习项目


Pigo是Go编程语言开发的人脸检测库。它基于“Pixel Intensity Comparison -based Object detection”  研究论文。这个库的一些主要特点是:


● 处理速度快

● 在检测之前不需要图像预处理

● 不需要计算积分图像,图像金字塔,HOG金字塔或任何其他类似的数据结构

● 人脸检测基于以二进制文件数据树结构编码的像素强度比较(项目地址:https://github.com/esimov/pigo)


5、RL-Adventure-2: Policy Gradients


5月份Github上最热门的数据科学和机器学习项目


这是所有的强化学习(RL)爱好者。深度学习推动了RL编程人工智能以及人类专家级技能Atari游戏。该存储库涵盖了策略梯度算法的有趣的新扩展,这是解决RL问题最受欢迎的选择之一。这些扩展导致了训练时间的改进以及强化学习的整体表现。(详情:https://github.com/higgsfield/RL-Adventure-2)


5月份Github上最热门的数据科学和机器学习项目


5月份Github上最热门的数据科学和机器学习项目