如何使用python-docx提取docx文档中的节号?

问题描述:

我有一个docx文档,它被分成几个小节和小节,例如如何使用python-docx提取docx文档中的节号?

A部分

texttexttext

  1. texttexttext

    1.1 texttexttext

  2. texttexttext

    (一)texttexttext

我想使用Python,DOCX提取文本。很容易得到段落中的文本,但我不知道如何获取章节标题的文本(例如“1.”和“(a)”等)。是否有捷径可寻?

它的容易程度取决于文档作者在构建文档时的严格程度。例如,最好的情况是,作者已经为所有章节标题使用了样式,然后你可以通过段落选择出“标题1”样式的段落。

for paragraph in document.paragraphs: 
    if paragraph.style.name == 'Heading 1': 
     print(paragraph.text) 

如果作者不是应用的字符格式像大胆和字体大小指定标题,你的工作会更严格,因为这些都是不太可能唯一标识的标题。