当前位置：首页 > 编程笔记 >

基于Python获取docx/doc文件内容代码解析

纪晨

2023-03-14

本文向大家介绍基于Python获取docx/doc文件内容代码解析，包括了基于Python获取docx/doc文件内容代码解析的使用技巧和注意事项，需要的朋友参考一下

这篇文章主要介绍了基于Python获取docx/doc文件内容代码解析,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

整体思路：

下载文件并修改后缀为ｚｉｐ文件，解压ｚｉｐ文件，所要获取的内容在固定的文件夹下：work/temp/word/document.xml

所用包，全部是ｐｙｔｈｏｎ自带，不需要额外下载安装．

# encoding:utf-8
import os
import re
import requests
import zipfile
import xml.dom.minidom

newfile = 'test.docx'


def create(newfile):
  """下载docx文件，并修改后缀为zip"""
  res = requests.get('https://www.cqjbfy.gov.cn/publiccenter/splc/mb/splc_gginfo.asp?newsid=28949')

  if not os.path.exists(newfile):
    f = open(newfile, 'wb')
    for chunk in res.iter_content(100000):
      f.write(chunk)
    f.close()

  os.rename(newfile, 'test.zip')  这种方法发现只能解决一部分doc文件,具体原因不得而知,有明白的欢迎留言
  # 将doc/docx文件压缩成ｚｉｐ文件
  #pf = zipfile.ZipFile('test.zip', 'w', zipfile.ZIP_STORED)　
  #pf.write(newfile)

def get_txt():
  """解压zip，并在work/temp/word/document.xml获取文本内容，进行正则替换标签等操作"""
  f = zipfile.ZipFile('test.zip', 'r')
  for file in f.namelist():
    f.extract(file, "temp/")
  
  f = xml.dom.minidom.parse('./temp/word/document.xml')
  
  txt = re.sub(r'</w:t></w:r></w:p>', '\n', f.toxml())
  print re.sub(r'<.*?>', '', txt)

if __name__ == '__main__':
  create(newfile)
  get_txt()

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持小牛知识库。

类似资料：

C#编程读取文档Doc、Docx及Pdf内容的方法

本文向大家介绍C#编程读取文档Doc、Docx及Pdf内容的方法，包括了C#编程读取文档Doc、Docx及Pdf内容的方法的使用技巧和注意事项，需要的朋友参考一下本文实例讲述了C#编程读取文档Doc、Docx及Pdf内容的方法。分享给大家供大家参考。具体分析如下： Doc文档：Microsoft Word 14.0 Object Library (GAC对象，调用前需要安装word。安装的wor
如何使用Python从doc / docx文件中提取数据

问题内容：我知道那里也有类似的问题，但是我找不到能回答我的祷告的东西。我需要的是一种从MS-Word文件访问某些数据并将其保存在XML文件中的方法。在python- docx 上阅读无济于事，因为它似乎只允许一个人写入Word文档，而不是阅读。要准确呈现我的任务（或我选择如何执行任务的方式）：我想在文档中搜索关键字或短语（文档包含表格），并从关键字/短语所在的表格中提取文本数据找到了。有人有什么
读取.doc文件内容并用java写入pdf文件

我正在编写一个java代码，它利用Apache-poi读取ms-office.doc文件，利用itext jar API创建并写入pdf文件。我已经阅读了.doc文件中打印的文本和表格。现在我正在寻找一个读取文档中写入的图像的解决方案。我已经编写了如下代码来读取文档文件中的图像。为什么这段代码不起作用。存在的问题是：1。条件if（Picture.HasPicture（run））不满足，但文档具有
javascript - node如何解析doc文件，Mammoth只支持docx？

上传文件需要解析内容，支持doc和docx，用Mammoth实现了，但是仅支持docx，查资料说docx可解压，doc是原始文件，所以Mammoth不支持，请问有没有其他第三方库支持解析doc的
Wordpress-基于元域内容获取帖子

我正在开发一个wordpress插件。我使用两种不同的自定义帖子类型，球员和球队。玩家有相关的元字段：名字、姓氏和团队。团队有相关的团队名称元字段。在编辑一个特定的团队帖子时，我试图将当前拥有该团队名称的所有球员的数组发布到他们的元字段中以获取团队名称。我不知道怎么做。任何帮助或文章都会很有帮助。谢啦
从URL获取文件内容？

问题内容：当我在浏览器中使用以下URL时，它将提示我下载带有JSOn内容的文本文件。 https://chart.googleapis.com/chart?cht=p3&chs=250x100&chd=t:60,40&chl=Hello|World&chof=json （单击上面的URL查看下载的文件内容）现在，我想创建一个php页面。我希望当我调用此php页面时，它应调用上述URL并从文件中
文件\u获取\u内容不适用于MAMP

我已经创建了一个索引。MAMP中的php页面。我的索引。php的读取方式与下面的完全相同。我通过localhost:8888访问它。然而，它并没有像我相信的那样从这个页面返回html源代码，而是返回http://stackoverflow.com 作为一个常规网页，就像你现在看到的网页一样。我的MAMP使用PHP 5.5.10。user_agent，allow_url_fopen。我很困惑
Python获取excel内容及相关操作代码实例

本文向大家介绍Python获取excel内容及相关操作代码实例，包括了Python获取excel内容及相关操作代码实例的使用技巧和注意事项，需要的朋友参考一下 Python没有自带openyxl，需要安装: pip install openyxl 打开excel文档: openyxl.load_workbook(excel地址) - 打开现有excel文件 openyxl.Workbook() -

相关阅读

如何从Word文件.doc，docx，.xlsx，.pptx php中提取文本 Python文件操作之合并文本文件内容示例代码用JavaScript获取页面文档内容的实现代码 Android 读取assets和raw文件内容实例代码 node.js实现逐行读取文件内容的代码

相关文章

1.11 反编译APK获取代码&资源 rsyslogd配置文件格式及其内容安卓面经_安卓基础面全解析(4/30)内容提供者全解析 Linux显示文件结尾内容（tail命令）Linux显示文件开头内容（head命令）

相关问答

如何从.docx/.odt/.doc文件中读取或复制文本基于文件名检测内容类型使用poi提取docx文件中嵌入段落内的内容从Python docx中的。docx（Word）文件中读取头编辑文档标题中的内容Python-docx

相关工具

Python-docx DocX API-doc yii2-doc PESCMS DOC

相关文档

Keras 基于 Python 的深度学习库中文文档 Keras 基于 Python 的深度学习库 Python 取证中文教程 Knative入门构建基于 Kubernetes 的现代化 Serverless 应用 30 秒就能理解的 JavaScript 代码片段