如何使用python-docx提取docx文档中的节号?
问题描述:
我有一个docx文档,它被分成几个小节和小节,例如如何使用python-docx提取docx文档中的节号?
A部分
texttexttext
texttexttext
1.1 texttexttext
texttexttext
(一)texttexttext
我想使用Python,DOCX提取文本。很容易得到段落中的文本,但我不知道如何获取章节标题的文本(例如“1.”和“(a)”等)。是否有捷径可寻?
答
它的容易程度取决于文档作者在构建文档时的严格程度。例如,最好的情况是,作者已经为所有章节标题使用了样式,然后你可以通过段落选择出“标题1”样式的段落。
for paragraph in document.paragraphs:
if paragraph.style.name == 'Heading 1':
print(paragraph.text)
如果作者不是应用的字符格式像大胆和字体大小指定标题,你的工作会更严格,因为这些都是不太可能唯一标识的标题。