Python的分析csv文件
我试图找到这三个人口最多的城市部件(BYDEL)于1992年Python的分析csv文件
我有一个CSV文件看起来像这样:http://data.kk.dk/dataset/9070067f-ab57-41cd-913e-bc37bfaf9acd/resource/9fbab4aa-1ee0-4d25-b2b4-b7b63537d2ec/download/befkbhalderkoencivst.csv>
CSV文件可以作为解释:
AAR:在观测在哪一年
BYDEL:哪个城市的一部分,由一个整数描述我所含n遵循字典; 1 = Indre By,2 =Østerbro,3 =Nørrebro,4 = Vesterbro/Kgs。 Enghave,5 = Valby,6 =Vanløse,7 =Brønshøj-苏姆,8 = Bispebjerg,9 =阿迈厄OST,10 =阿迈厄背心,99 = Udenfor inddeling
ALDER:所观察到的人的年龄
PERSONER:与该行
我有一个解决方案,但它是非常重复,我认为它可以做更聪明,但我没有与蟒蛇足够的经验给定功能的意见数量。任何人都可以将我指向正确的方向吗?
我的代码/解决方案是这样的:
df = pd.read_csv('befkbh.csv',quotechar='"',skipinitialspace=True, delimiter=',', encoding='latin1').fillna(0)
data = df.as_matrix()
Q31 = collections.defaultdict(list)
Q32 = collections.defaultdict(list)
Q33 = collections.defaultdict(list)
Q34 = collections.defaultdict(list)
Q35 = collections.defaultdict(list)
Q36 = collections.defaultdict(list)
Q37 = collections.defaultdict(list)
Q38 = collections.defaultdict(list)
Q39 = collections.defaultdict(list)
Q310 = collections.defaultdict(list)
Q399 = collections.defaultdict(list)
for row in data:
key = row[0]
if key == "" or key == 0: continue
if key == 1992:
if row[2] == 1:
val = 0 if(row[5]) =="" else float(row[5])
Q31.setdefault(key,[]).append(val)
if row[2] == 2:
val = 0 if(row[5]) =="" else float(row[5])
Q32.setdefault(key,[]).append(val)
if row[2] == 3:
val = 0 if(row[5]) =="" else float(row[5])
Q33.setdefault(key,[]).append(val)
if row[2] == 4:
val = 0 if(row[5]) =="" else float(row[5])
Q34.setdefault(key,[]).append(val)
if row[2] == 5:
val = 0 if(row[5]) =="" else float(row[5])
Q35.setdefault(key,[]).append(val)
if row[2] == 6:
val = 0 if(row[5]) =="" else float(row[5])
Q36.setdefault(key,[]).append(val)
if row[2] == 7:
val = 0 if(row[5]) =="" else float(row[5])
Q37.setdefault(key,[]).append(val)
if row[2] == 8:
val = 0 if(row[5]) =="" else float(row[5])
Q38.setdefault(key,[]).append(val)
if row[2] == 9:
val = 0 if(row[5]) =="" else float(row[5])
Q39.setdefault(key,[]).append(val)
if row[2] == 10:
val = 0 if(row[5]) =="" else float(row[5])
Q310.setdefault(key,[]).append(val)
if row[2] == 99:
val = 0 if(row[5]) =="" else float(row[5])
Q399.setdefault(key,[]).append(val)
Q312 = {}
for k, v in Q31.items(): Q312[k] = sum(v)
for k, v in Q312.items(): print ("{}:{}".format(k,v))
Q322 = {}
for k, v in Q32.items(): Q322[k] = sum(v)
for k, v in Q322.items(): print ("{}:{}".format(k,v))
Q332 = {}
for k, v in Q33.items(): Q332[k] = sum(v)
for k, v in Q332.items(): print ("{}:{}".format(k,v))
Q342 = {}
for k, v in Q34.items(): Q342[k] = sum(v)
for k, v in Q342.items(): print ("{}:{}".format(k,v))
Q352 = {}
for k, v in Q35.items(): Q352[k] = sum(v)
for k, v in Q352.items(): print ("{}:{}".format(k,v))
Q362 = {}
for k, v in Q36.items(): Q362[k] = sum(v)
for k, v in Q362.items(): print ("{}:{}".format(k,v))
Q372 = {}
for k, v in Q37.items(): Q372[k] = sum(v)
for k, v in Q372.items(): print ("{}:{}".format(k,v))
Q382 = {}
for k, v in Q38.items(): Q382[k] = sum(v)
for k, v in Q382.items(): print ("{}:{}".format(k,v))
Q392 = {}
for k, v in Q39.items(): Q392[k] = sum(v)
for k, v in Q392.items(): print ("{}:{}".format(k,v))
Q3102 = {}
for k, v in Q310.items(): Q3102[k] = sum(v)
for k, v in Q3102.items(): print ("{}:{}".format(k,v))
Q3992 = {}
for k, v in Q399.items(): Q3992[k] = sum(v)
for k, v in Q3992.items(): print ("{}:{}".format(k,v))
它实际上是你已经认识到,必须有一个更简单的方法一个非常好的迹象!每当你发现自己违反DRY原则(不要重复自己),你应该问你是否有失误。
虽然你可以简单地使用,而不是所有的命名变量的字典词典中删除了大量的重复劳动,因为你使用的熊猫,我会采取的groupby
和nlargest
代替的优势,这给了我:
In [47]: dg = df.groupby(["AAR", "BYDEL"], as_index=False)["PERSONER"].sum()
In [48]: dg[dg.AAR == 1992].nlargest(3, "PERSONER")
Out[48]:
AAR BYDEL PERSONER
2 1992 3 67251
1 1992 2 62221
3 1992 4 47854
首先,我们组的AAR和BYDEL列,并且每一组中,我们采取PERSONER值,总结他们。这给了我们这开始
n [51]: dg.head(15)
Out[51]:
AAR BYDEL PERSONER
0 1992 1 40595
1 1992 2 62221
2 1992 3 67251
3 1992 4 47854
4 1992 5 43688
5 1992 6 34303
6 1992 7 36746
7 1992 8 41668
8 1992 9 45305
9 1992 10 42748
10 1992 99 2187
11 1993 1 40925
12 1993 2 62583
13 1993 3 67783
14 1993 4 47589
那么我们选择行的框架,其中AAR == 1992年,并与3个大PERSONER值的行。
我倒是强烈建议读通过pandas tutorial如果你打算做这种类型的数据处理,否则你会发现自己重新发明*。
更多pythonic解决方案将使用字典,而不是许多(大部分)您的命名变量。您也正在使用setdefault
和defaultdict
实例 - 任何一个都是不错的选择,但使用两者都是不必要的。
我的另一个版本(不使用熊猫,因为@DSM盖那么好):
df = pd.read_csv('befkbh.csv',quotechar='"',skipinitialspace=True, delimiter=',', encoding='latin1').fillna(0)
data = df.as_matrix()
areas = { k : collections.defaultdict(list) for k in range(1,11) }
areas[99] = collections.defaultdict(list)
for row in data:
key = row[0]
if key == 1992 and row[1] in areas:
areas[row[1]][key].append(0 if(row[5]) =="" else float(row[5]))
for area in sorted(areas):
for k, v in areas[area].items():
print ("{}:{}".format(k, sum(v)))
我假设row[2]
的问题应该已经row[1]
,因为BYDEL是第二列,而不是第三。
为了逐年获得排名前三的地区,我会组织一些不同的事情,外部词典是一年,而不是地区。
该版本是这样的:
years = collections.defaultdict(lambda : collections.defaultdict(list))
for row in data:
years[row[0]][row[1]].append(0 if(row[5]) =="" else float(row[5]))
for year in sorted(years):
for n, area in sorted((sum(v), k) for k, v in years[year].items())[:-4:-1]:
print ("{} {:4} {:9}".format(year, area, n))
完成。感谢推动。 – cco
究竟那种单挑我一直在寻找。谢谢大家,熊猫将在未来为我节省大量的时间和精力:) – Rainoa
完美的答案,很好 – single430
我试图让所有不同的年份和pd.unique()的前3名只给我所有不同年份的数组。什么是最聪明的熊猫方式呢?先谢谢了! – Rainoa