python小菜鸟备忘录：用python读取word

突发奇想想将读取pdf做anki卡组，以为会很简单，没想到最后卡在读取word上，赶紧记在小本本上，下回读取word就不怕啦！

还是用docx库，具体安装之前写过，直接跳过写怎么用啦。

读取文档对象

import docx 

path = "C:\test.docx" #文件路径

file = docx.Document(path) #读取文档

##获取所有内容
content = file.paragraphs #paragraphs基本上有所有信息 包括文本和后面要说到的属性
print(content.text)

#循环读取文本
for f in file.paragraphs:
    print(f.text)

以获取文本颜色为例

for p in file.paragraphs:
    for n in p.runs: #p.runs里有该段落每个字符（包括空格）的属性信息 也是list
        color = str(n.font.color.rgb) #获取每个字符的颜色（空格是字符串的None）