如何规范公司名称

问题描述:

我们有用户生成的所有变体雇主名称。例如,人们在输入或导入:如何规范公司名称

谷歌
谷歌公司
谷歌公司
谷歌公司

要在数据库搜索这个,看起来像一个不同的公司都在一起。我们改变了一些东西来映射每个雇主到一个“正常化”的名字,但总共有7万个,这很难用手工来完成。

有没有人有如何规范现有条目的建议,以及如何保持我们为所有传入的名称做呢?

+0

参见http://*.com/questions/4835318/normalize-data-according-to-business-entity-legal-name-class-of-business-dns –

+0

参见http://*.com/questions/429385/how-do-i-normalize-a-large-user-generated-data-set-of-company-names –

+1

我一直在做这方面的一些研究,并且发现了一篇最近的论文,提取,发现(通过聚类)并规范化(通过增强的编辑距离计算)组织名称。 [NEMO](http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2990275/?report=classic“NEMO”) – fjxx

有两件事情可以做,以帮助:

  • 当用户添加了一个公司的名字,给他们一个自动完成框,以便他们得到的建议,如果它已经存在。或者,建议您在添加问题时使用现有的一个像*。

  • 查询数据库时使用搜索工具,以便您可以总结所有变体。您可以在这里找到https://www.ruby-toolbox.com/categories/rails_search

搜索的宝石,我不认为“正常化”他们事后会很容易,也不准确。

+0

我们有一个自动完成框,但大部分数据都是从其他平台导入的比如LinkedIn和Facebook,所以对此没有太多的控制。 – user577808