关于人体关键点数据集xml标注格式转json格式python实现

2020/6/21

Hey，拖更了两天，非常抱歉，不过最近这两天终于解决了一个困扰了我很久的难题，那就是如何将人体关键点数据集xml标注格式转换成json格式。也许是因为我第一次这样处理标注文件，又或是因为这个数据集的规模达到了与coco数据集类似的程度，总之为了编写这个转换的脚本我用了很多时间。

Xml的格式：

json格式采用的是crowdpose数据集类似的格式具体可以参考：https://github.com/Jeff-sjtu/CrowdPose

实现思路：首先将数据集的图片重命名，并与xml文件一一对应，然后获取xml文件中的相关内容，放入到json文件中。代码如下：

import xml.etree.ElementTree as ET # 读取xml。

import os

import random

import json

KEY_POINT_NAME_LIST = ['Nose', 'Chest', 'Right-shoulder', 'Right-elbow', 'Right-wrist',

'Left-shoulder', 'Left-elbow', 'Left-wrist', 'Right-hip','Right-knee',

'Right-ankle', 'Left-hip', 'Left-knee', 'Left-ankle']

K_P_CONNETCTION = [[0, 1], [1, 5], [1, 2], [5, 6], [6, 7], [2, 3], [3, 4], [1, 11], [1, 8],

[11, 12], [8, 9], [12, 13], [9, 10]]

basepath = '/Users/sqx/Downloads/HIE/xml/'

xmlname = os.listdir(basepath)

random_xml = random.sample(xmlname, 10000)

# print(xmlname)

n = len(random_xml)

# print(n)

# print(xmlname)

random_xml.sort(key=lambda x: int(x[:-4]))

# print(xmlname)

annotations = {}

objects = []

img_dir = []

image = []

annotations["images"] = []

annotations["annotation"] = []

annotations["categories"] = []

for xml in random_xml:

filename = os.path.join(basepath, xml)

# print(filename)

# print(xml)

tree = ET.parse(filename) # 解析读取xml函数

# print(tree)

id = os.path.splitext(xml)[0]

imgname = os.path.join(id + ".jpg" )

print(imgname)

for image_size in tree.findall('size'):

image_size_scale = {}

image_size_scale['height'] = image_size.find('height').text

image_size_scale['width'] = image_size.find('width').text

# image.append(image_size_scal

height = image_size_scale['height']

width = image_size_scale["width"]

# font = cv2.FONT_HERSHEY_SIMPLEX

# imgname = tree.find('filename').text

# imgnumber = os.path.splitext(imgname)[0]

# imgnumber = imgnumber.zfill(6)

# imgname = os.path.join(imgnumber + '.jpg')

# print(imgname)

# id = os.path.splitext(imgname)[0]

# print(id)

# print(height)

# print(width)

annotations["images"].append(

{

"file_name": imgname,

"id": id,

"height": height,

"width": width,

"crowdIndex": 0.0

}

)

for obj in tree.findall('object'):

obj_struct = {}

person_keypoints = []

keypoints = []

personbbox = []

object_value = []

key_point = []

obj_struct['name'] = obj.find('name').text

obj_struct['pose'] = obj.find('pose').text

obj_struct['truncated'] = int(obj.find('truncated').text)

obj_struct['difficult'] = int(obj.find('difficult').text)

bbox = obj.find('bndbox')

personbbox = [int(bbox.find('xmin').text),

int(bbox.find('ymin').text),

int(bbox.find('xmax').text),

int(bbox.find('ymax').text)]

for i, item in enumerate(bbox):

if i > 3:

keypoint_value = item.text

key_point = []

key_point.append(int(keypoint_value.split(',')[0]))

key_point.append(int(keypoint_value.split(',')[1]))

key_point.append(int(keypoint_value.split(',')[2]))

# print(key_point)

object_value.extend(key_point)

print(object_value)

person_keypoints = [

str(bbox.find('Nose').text),

str(bbox.find('Chest').text),

str(bbox.find('Right-shoulder').text),

str(bbox.find('Right-elbow').text),

str(bbox.find('Right-wrist').text),

str(bbox.find('Left-shoulder').text),

str(bbox.find('Left-elbow').text),

str(bbox.find('Left-wrist').text),

str(bbox.find('Right-hip').text),

str(bbox.find('Right-knee').text),

str(bbox.find('Right-ankle').text),

str(bbox.find('Left-hip').text),

str(bbox.find('Left-knee').text),

str(bbox.find('Left-ankle').text)

]

count = 0

number_keypoints = 0

for i, item in enumerate(person_keypoints):

itemlist = item.split(",")

if int(itemlist[2]) == -1:

count = count + 1

number_keypoints = 14 - count

annotations["annotation"].append(

{

"number_keypoints": number_keypoints,

"keypooints": object_value,

"image_id": id,

"bbox": personbbox,

"category_id": 1

}

)

annotations["categories"].append(

{

"supercategory": "person",

"id": 1,

"name": "person",

"keypoints": KEY_POINT_NAME_LIST,

"skeleton": K_P_CONNETCTION

}

)

json_path = "/Users/sqx/Downloads/train_json/val.json"

with open(json_path, "w") as f:

json.dump(annotations, f)

print("saved")

经过对这次数据格式的转换，收获了很多，对于数据集，python语言，以及ACM竞赛也有了更深刻的认识。

今天看到了一则新闻‘九月份以前高校毕业生再次返校可能性很小’下半年就研三的我瑟瑟发抖。希望能早日返校，用上实验室的电脑，现在我们只能用远程服务器做实验，师兄给推荐的这家环境都是配置好了的，几乎不用担心环境的问题，直接就可以跑实验，有同样需求的朋友可以参考：智星云官网： http://www.ai-galaxy.cn/，淘宝店：https://shop36573300.taobao.com/公众号: 智星AI，

关于人体关键点数据集xml标注格式转json格式python实现