我有一个pdf文件。它包含四列,所有页面都没有网格线。它们是学生的标志。
我想对这种分布进行一些分析(直方图,折线图等)。
我想将此pdf文件解析为电子表格或HTML文件(然后可以非常轻松地解析)。
pdf的链接是:
聚甲醛
这是一个公开文档,并且在任何人都可以在该域上公开获得。
注意:我知道可以通过将文件从Adobe Reader导出为文本,然后将其导入Libre
Calc或Excel中来完成。但是我想使用python脚本来做到这一点。
请帮助我解决这个问题。规格:Windows 7 Python 2.7
用途PyPDF2
:
from PyPDF2 import PdfFileReader
with open('CT1-All.pdf', 'rb') as f:
reader = PdfFileReader(f)
contents = reader.getPage(0).extractText().split('\n')
pass
当您打印时contents
,它将看起来像这样(我在这里进行了修剪):
[u'Serial NoRoll NoNameCT1 Marks (50)111MA20026KARADI KALYANI212AR10029MUKESH K
MAR5', u'312MI31004DEEPAK KUMAR7', u'413AE10008FADKE PRASAD DIPAK27', u'513AE10
22RAHUL DUHAN37', u'613AE30005HIMANSHU PRABHAT26.5', u'713AE30019VISHAL KUMAR39
, u'813AG10014HEMANT17', u'913AG10028SHRESTH KR KRISHNA37.51013AG30009HITESH ME
RA33.5', u'1113AG30023RACHIT MADHUKAR40.5', u'1213AR10002ACHARY SUDHEER11', u'1
13AR10004AMAN ASHISH20.5', u'1413AR10008ANKUR44', u'1513AR10010CHUKKA SHALEM RA
U11.5', u'1613AR10012DIKKALA VIJAYA RAGHAVA20.5', u'1713AR10014HRISHABH AMRODIA
1', u'1813AR10016JAPNEET SINGH CHAHAL19.5', u'1913AR10018K VIGNESH42.5', u'2013
R10020KAARTIKEY DWIVEDI49.5', u'2113AR10024LAKSHMISRI KEERTI MANNEY49', u'2213A
10026MAJJI DINESH9.5', u'2313AR10028MOUNIKA BHUKYA17.5', u'2413AR10030PARAS PRA
问题内容: 我想在非关系数据存储的顶部创建一个SQL接口。非关系数据存储,但是以关系方式访问数据是有意义的。 我正在研究使用ANTLR生成将SQL表示为关系代数表达式的AST。然后通过评估/遍历树来返回数据。 我以前从未实现过解析器,因此我想就如何最好地实现SQL解析器和评估器提供一些建议。 上述方法听起来是否正确? 还有其他我应该研究的工具/库吗?就像PLY或Pyparsing一样。 指向对我有
我想使用Python创建一个函数来获取网站内容,例如获取网站组织内容。 在代码中,组织是东京大学: 我如何能直接获得网站内容,而不需要任何新的安装,如获得http://www.ip-adress.com/ip_tracer/157.123.22.11
我正在使用python中的twython库转储我自己的公共推文。数据以json格式下载,请参阅:https://api.twitter.com/1.1/statuses/home_timeline.json 如何逐行打印所有数据,如
问题内容: 我正在尝试解析json对象并遇到问题。 我可以弄清楚如何获得这些值。我可以拿钥匙。请帮忙。 问题答案: 您不再拥有JSON对象,而拥有Python 字典 。遍历字典将产生其密钥。 如果要访问这些值,请为原始词典建立索引或使用返回不同内容的方法之一。
问题内容: 环顾四周,找不到满意的答案。有谁知道如何使用Python从Outlook解析.msg文件? 我试过使用mimetools和email.parser,但没有运气。帮助将不胜感激! 问题答案: 这对我有用:
本文向大家介绍python OpenCV GrabCut使用实例解析,包括了python OpenCV GrabCut使用实例解析的使用技巧和注意事项,需要的朋友参考一下 这篇文章主要介绍了python OpenCV GrabCut使用实例解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 先上一个效果图: 使用Python3.7+OpenCV
问题内容: 我正在编写一个Python脚本来处理Procmail返回的电子邮件。如该问题中所建议,我正在使用以下Procmail配置: 我的process_mail.py脚本正在通过stdin接收电子邮件,如下所示: 我正在尝试以这种方式解析消息: 我想获取诸如“发件人”,“收件人”和“主题”之类的消息字段。但是,消息对象不包含任何这些字段。 我究竟做错了什么? 问题答案: 您必须确保这些行不会意
本文向大家介绍python add_argument()用法解析,包括了python add_argument()用法解析的使用技巧和注意事项,需要的朋友参考一下 这篇文章主要介绍了python add_argument()用法解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 介绍: argparse argparse 是 Python 内置的