处理大量数据(大约4亿条记录)
问题描述:
我有一个大数据集(一张表)存储了一个用户ID字段,日期字段,国家字段(例如USA,FRA等)以及其他字段处理大量数据(大约4亿条记录)
| User ID | Date | Country | Other Fields ... |
|-----------|------------|-----------|------------------|
| 1 | 2013-2-1 | USA | ... |
| 2 | 2013-2-1 | FRA | ... |
| 3 | 2013-2-2 | GBK | ... |
数据结构很简单,我想通过日期,国家和其他可能的字段, 并查询答案。
问题是,有大约400百万的记录,如果我使用普通的db如MySQL,速度会变得非常慢。
目前还不需要特定的数据库,编程语言或方法,任何可能使其工作的工具都可以使用,比如MySQL,Redis,Mongo等。
答
根据查询类型的不同,拆分为多个表格可能会有所帮助(例如,当可以预先确定哪些子表包含所需的行时)。
这不是一个非常干净的设计,但进一步拆分为多个数据库服务器(也可能有所帮助)更加复杂。