引子
Tornado 是一个网络异步的的web开发框架, 并且可以利用多进程进行提高效率, 下面是创建一个多进程 tornado 程序的例子.
#!/usr/bin/env python # -*- coding:utf-8 -*- import os import time import tornado.web import tornado.httpserver import tornado.ioloop import tornado.netutil import tornado.process class LongHandler(tornado.web.RequestHandler): def get(self): self.write(str(os.getpid())) time.sleep(10) if __name__ == "__main__": app = tornado.web.Application(([r'/', LongHandler], )) sockets = tornado.netutil.bind_sockets(8090) tornado.process.fork_processes(2) server = tornado.httpserver.HTTPServer(app) server.add_sockets(sockets) tornado.ioloop.IOLoop.instance().start()
上面代码使用 tornado.process.fork_processes 创建了2个子进程, 同时用时访问这个 服务两次, 分别会返回两个相邻的pid. 可以看到 tornado 确实使用了两个进程来同时完成任务.
我一直很好奇 tornado 是如何将请求调度到子进程, 多个子进程又如何不同时处理一个请求呢?
探究
我们首先是调用 tornado.netutil.bind_sockets 来创建一个 socket(或一个 socket 列表),
接着我们调用 tornado.process.fork_processes 来 fork 子进程, 阅读此函数的代码会发现这个函数仅仅是创建子进程, 然后主进程负责等待子进程, 如果子进 程退出则会根据条件重启子进程, 如果子进程全部退出并不符合重启条件,则主进程退出.
调用这个函数之后, 子进程中函数会返回, 子进程则继续执行调用这个函数之后的代码.
我们在 fork 子进程后做了如下操作.
server = tornado.httpserver.HTTPServer(app) server.add_sockets(sockets) tornado.ioloop.IOLoop.instance().start()
我们先看看 tornado.httpserver.HTTPServer.add_sockets 发现 HTTPServer是继承的 tornado.netutil.TCPServer , add_sockets 也是实现在 TCPServer 中
tornado.netutil.TCPServer.add_sockets
def add_sockets(self, sockets): if self.io_loop is None: self.io_loop = IOLoop.instance() for sock in sockets: self._sockets[sock.fileno()] = sock add_accept_handler(sock, self._handle_connection, io_loop=self.io_loop)
主要是映射了下 socket 和 socket 对应的文件描述符, 我们看看它调用的 add_accept_handler
def add_accept_handler(sock, callback, io_loop=None): if io_loop is None: io_loop = IOLoop.instance() def accept_handler(fd, events): while True: try: connection, address = sock.accept() except socket.error as e: if e.args[0] in (errno.EWOULDBLOCK, errno.EAGAIN): return raise callback(connection, address) io_loop.add_handler(sock.fileno(), accept_handler, IOLoop.READ)
我们知道 I/O多路复用 在处理服务端 socket 时, 当有连接请求过来时, 会触发 可读的事件, 此函数将 socket 在主事件循环中注册读事件(IOLoop.READ), 它的回调 会创建连接, 我注意到回调里的异常捕获有这样几行
if e.args[0] in (errno.EWOULDBLOCK, errno.EAGAIN): return raise
发现在创建连接的时候会跳过这个异常呢, 为什么?那么 EWOULDBLOCK 和 EAGAIN是是什么呢? 通过查找知道它的意思是在非阻塞模式下, 不需要重读或重写, EAGAIN 是 EWOULDBLOCK 在 Windows 上的名字, 所以看到这里就很明确了.
结论
Tornado 多进程的处理流程是先创建 socket, 然后再 fork 子进程, 这样所有的子进程实际都监听 一个(或多个)文件描述符, 也就是都在监听同样的 socket.
当连接过来所有的子进程都会收到可读事件, 这时候所有的子进程都会跳到 accept_handler 回调函数, 尝试建立连接.
一旦其中一个子进程成功的建立了连接, 当其他子进程再尝试建立这个连接的时候就会触发 EWOULDBLOCK (或 EAGAIN) 错误. 这时候回调函数判断是这个错误则返回函数不做处理.
当成功建立连接的子进程还在处理这个连接的时候又过来一个连接, 这时候就会有另外一个 子进程接手这个连接.
Tornado 就是通过这样一种机制, 利用多进程提升效率, 由于连接只能由一个子进程成功创建, 同一个请求也就不会被多个子进程处理.
后记
写完才发现, 我所使用的代码是 tornado-2.4.post2 版本, 当前最新代码是 3.3.0, 查看了下最新代码, 最新代码 TCPServer 写到单独 tornado.tcpserver 里了, 其他和本文 相关的并没有什么大的变化.
Category:PythonTagged:Pythonfork_processestornado多进程web提升效率
以上就是本文关于Tornado 多进程实现分析详解的全部内容,希望对大家有所帮助。感兴趣的朋友可以继续参阅本站其他相关专题,如有不足之处,欢迎留言指出。感谢朋友们对本站的支持!
Tornado的多进程管理我们可以参看process.py这个文件。 在编写多进程的时候我们一般都用python自带的multiprocessing,使用方法和threading基本一致,只需要继承里面的Process类以后就可以编写多进程程序了,这次我们看看tornado是如何实现他的multiprocessing,可以说实现的功能不多,但是更加简单高效。 我们只看fork_process里面的
问题内容: 我正在努力弄清楚如何分析一个简单的多进程python脚本 我正在启动5个进程,因此cProfile会生成5个不同的文件。在每个方法的内部,我想看到我的方法’worker’大约需要3秒钟才能运行,但是相反,我只看到了’start’方法中正在发生的事情。 如果有人可以向我解释这一点,我将不胜感激。 更新:基于公认答案的工作示例: 问题答案: 您正在对流程启动进行概要分析,这就是为什么您只看
本文向大家介绍Python多进程编程技术实例分析,包括了Python多进程编程技术实例分析的使用技巧和注意事项,需要的朋友参考一下 本文以实例形式分析了Python多进程编程技术,有助于进一步Python程序设计技巧。分享给大家供大家参考。具体分析如下: 一般来说,由于Python的线程有些限制,例如多线程不能充分利用多核CPU等问题,因此在Python中我们更倾向使用多进程。但在做不阻塞的异步U
本文向大家介绍Python多进程multiprocessing用法实例分析,包括了Python多进程multiprocessing用法实例分析的使用技巧和注意事项,需要的朋友参考一下 本文实例讲述了Python多进程multiprocessing用法。分享给大家供大家参考,具体如下: mutilprocess简介 像线程一样管理进程,这个是mutilprocess的核心,他与threading很是
本文向大家介绍PHP多进程编程实例详解,包括了PHP多进程编程实例详解的使用技巧和注意事项,需要的朋友参考一下 本文实例讲述了PHP多进程编程。分享给大家供大家参考,具体如下: 第一步: $ php -m 命令查看php是否安装pcntl 和 posix扩展,若没有则安装 使用场景: 1. 要进行大量的网络耗时的操作 2. 要做大量的运算,并且,系统有多个cpu,为了让用户有更快的体验,把一个任
本文向大家介绍python实现xlsx文件分析详解,包括了python实现xlsx文件分析详解的使用技巧和注意事项,需要的朋友参考一下 python脚本实现xlsx文件解析,供大家参考,具体内容如下 环境配置: 1.系统环境:Windows 7 64bit 2.编译环境:Python3.4.3 3.依赖库: os sys xlrd re 4.其他工具:none 5.前置条件:待处理的xlsx文件
本文向大家介绍Python多线程多进程实例对比解析,包括了Python多线程多进程实例对比解析的使用技巧和注意事项,需要的朋友参考一下 多线程适合于多io操作 多进程适合于耗cpu(计算)的操作 可以看到在耗cpu的应用中,多进程明显优于多线程 2.6130592823028564 < 3.905290126800537 下面模拟一个io操作 可以看到 8.00358772277832 < 8.1
本文向大家介绍Python Process多进程实现过程,包括了Python Process多进程实现过程的使用技巧和注意事项,需要的朋友参考一下 进程的概念 程序是没有运行的代码,静态的; 进程是运行起来的程序,进程是一个程序运行起来之后和资源的总称; 程序只有一个,但同一份程序可以有多个进程;例如,电脑上多开QQ; 程序和进程的区别在于有没有资源,进程有资源而程序没有资源,进程是一个资源分配的