Python 时间格式操作总结

 

作者:Peter
来源:Python编程时光

在生活和工作中,我们每个人每天都在和时间打交道:

  • 早上什么时候起床?

  • 地铁几分钟来一趟?

  • 中午什么时候开始午休?

  • 明天是星期几?

  • 距离上次买衣服已经2个月呢?

  • 领导让我给代码加上一个定时任务的功能,怎么办?

不同的情况会遇到不同的时间问题:具体时间点、时间间隔、星期等,无时不刻我们在和时间碰撞。本文将利用Python对时间相关的类,及其方法与属性等进行详细的讲解

Python 时间格式操作总结

1. 时间戳

1.1时间戳简介

在正式讲解时间的相关函数之前,我们必须先一个概念:时间戳。本文中特指unix时间戳。

时间戳Timestamp是指在一连串的数据中加入辨识文字,如时间或者日期等,用以保障本地数据更新顺序和远程的一致。

unix时间戳是从1970年1月1日(UTC/GMT的午夜)开始所经过的秒数,不考虑闰秒。1970-01-01就是经常我们在MySQL中时间为空的时候,转化空的时间戳之后得到的时间。一个小时表示为UNIX时间戳格式为:3600秒;一天表示为UNIX时间戳为86400秒,闰秒不计算。具体的对照表如下:

Python 时间格式操作总结

1.2时间戳转化网站

下面介绍几个时间戳和具体时间之间相互转化的网站:

1、站长工具:https://tool.chinaz.com/tools/unixtime.aspx

2、在线工具:https://tool.lu/timestamp/

3、Json在线解析:https://www.sojson.com/unixtime.html

4、Unix时间戳在线转换(菜鸟工具):https://c.runoob.com/front-end/852

5、北京时间(时间与时间戳互换工具):http://www.beijing-time.org/shijianchuo/

介绍完时间戳的基本知识,下面重点讲解3个与时间和日期相关的Python库:

  • calendar

  • time

  • datetime

2.calendar

calendar的中文意思是”日历”,所以它其实适合进行日期,尤其是以日历的形式展示。

2.1模块内容

Python 时间格式操作总结

下面举例说明:

2.2calendar

我们显示即将过去2020年的日历,使用默认的参数:

import calendar
year = calendar.calendar(2020)
print(year)
Python 时间格式操作总结

改变参数再来显示一次:

year = calendar.calendar(2020,w=3,l=1,c=8)
print(year)
Python 时间格式操作总结

我们发现整个日历变宽了,而且星期的英文也是3个字母来显示的,解释一下3个参数的含义:

  • c:每月间隔距离

  • w:每日宽度间隔

  • l:每星期行数

其中每行长度为:21*w+18+2*c,3个月一行

最后,看看即将到来的2021年日历:

Python 时间格式操作总结

2.3isleap(year)

该函数的作用是判断某个年份到底是不是闰年。如果是则返回True,否则返回的是False。

普通年份能够被4整除,但是不能被100整除,称之为普通闰年

年份是整百数的,必须能够被400整除,称之为世纪闰年

Python 时间格式操作总结

2.4leapdays(y1,y2)

判断两个年份之间有多少个闰年,包含y1,但是不包含y2,类似Python切片中的包含头部不包含尾部

Python 时间格式操作总结

2.5month(year,month,w=2,l=1)

该函数返回的是year年的month月的日历,只有两行标题,一周一行。每日间隔宽度为w个字符,每行的长度为7*w + 6,其中l是每星期的行数

首先看看默认效果;

Python 时间格式操作总结

接下来我们改变w和l两个参数:

1、改变w,我们发现星期的表示变成了3个字母;同时每天之间的间隔变宽了(左右间隔)

Python 时间格式操作总结

2、改变参数l,我们发现每个星期之前的间隔(上下)变宽了

Python 时间格式操作总结

2.6monthcalendar(year,month)

通过列表的形式返回year年month月的日历,列表中还是列表形式。每个子列表是一个星期。如果没有本月的日期则用0表示。每个子列表都是从星期1开始的,特点概括如下:

  • 每个子列表代表的是一个星期

  • 从星期一到星期日,没有出现在本月的日期用0代替

我们还是以2020年12月份为例:

Python 时间格式操作总结

和上面的日历进行对比,我们发现:出现0的位置的确是没有出现在12月份中

我们再看看2020年3月份的日历:

Python 时间格式操作总结

2.7monthrange(year,month)

该函数返回的结果是一个元组,元组中有两个数值(a,b)

  • 数值a代表的是该月从星期几开始;规定6代表星期天,取值为0-6

  • 数值b代表该月总共有多少天

通过一个例子来讲解,还是以2020年12月份为例:

Python 时间格式操作总结

结果中的1表示12月份从星期2开始(0-6,6代表星期日),该月总共31天

2.8weekday(y,m,d)

weekday方法是输入年月日,我们便可知道这天是星期几;返回值是0-6,0代表星期1,6代表星期天

通过一个例子来讲解,以12月12号为例:

Python 时间格式操作总结

双12是星期六,返回的结果是5,5代表的就是星期六,刚好吻合。

3.time

time模块是涉及到时间功能中最常用的一个模块,在Python的相关时间需求中经常会用到,下面具体讲解该模块的使用方法。

3.1模块内容

先看模块的整体使用

Python 时间格式操作总结

3.2time

time.time()是获取当前的时间,更加严格地说,是获取当前时间的时间戳

再次理解时间戳:它是以1970年1月1日0时0份0秒为计时起点,计算到当前的时间长度(不考虑闰秒)

Python 时间格式操作总结

3.3localtime

time.localtime打印当前的时间,得到的结果是时间元组,具体含义:

笔记:结果是时间元组

Python 时间格式操作总结

time.localtime的参数默认是time.time()的时间戳,可以自己输入某个时间戳来获取其对应的时间

  • 默认当前时间戳

  • 指定某个时间戳

Python 时间格式操作总结

3.4gmtime

localtime()得到的是本地时间,如果需要国际化,使用gmtime(),最好是使用格林威治时间。

格林威治标准时间:位于英国伦敦郊区的皇家格林威治天文台的标准时间,本初子午线经过那里。

Python 时间格式操作总结

3.5asctime

time.asctime的参数为空时,默认是以time.localtime的值为参数,得到当前的日期、时间、星期;另外,我们也可以自己设置参数,参数是时间元组

  • 使用当前时间的默认时间元组localtime

  • 自己指定一个时间元组

Python 时间格式操作总结

获取当前时间的具体时间和日期:

Python 时间格式操作总结

3.6ctime

ctime的参数默认是时间戳;如果没有,也可以指定一个时间戳

Python 时间格式操作总结

3.7mktime

mktime()也是以时间元组为参数的,它返回的是时间戳,相当于是localtime的逆向过程

Python 时间格式操作总结

3.8strftime

strftime()是按照我们指定的格式将时间元组转化为字符串;如果不指定时间元组,默认是当前时间localtime()。常用到的时间格式见下表:

Python 时间格式操作总结

我们举例说明:

  • 字符串中的分隔符我们可以任意指定

  • 可以同时显示年月日时分秒等

Python 时间格式操作总结

3.9strptime

strptime()是将字符串转化为时间元组,我们需要特别注意的是,它有两个参数:

  • 待转化的字符串

  • 时间字符串对应的格式,格式就是上面👆表中提到的

Python 时间格式操作总结

4.datetime

虽然time模块已经能够解决很多的问题,但是实际工作和业务需求中需要更多的工具,让我们使用起来更方便和快捷,datetime便是其中一个很好用的模块。datetime模块中几个常用的类如下:

  • date:日期类,常用属性:year/month/day

  • time:时间类,常用属性:hour/minute/second/microsecond

  • datetime:日期时间类

  • timedelta:时间间隔,即两个时间点之间的时间长度

  • tzinfo:时区类

4.1模块内容

Python 时间格式操作总结
Python 时间格式操作总结

 

4.2date

首先我们引入date类,并创建一个日期对象:

Python 时间格式操作总结

1、然后我们可以操作这个日期对象的各种属性:后面加上()

print("当前日期:",today)  # 当前日期
print("当前日期(字符串):",today.ctime())   # 返回日期的字符串
print("时间元组信息:",today.timetuple())   # 当前日期的时间元组信息
print("年:",today.year)   # 返回today对象的年份
print("月:",today.month)  # 返回today对象的月份
print("日:",today.day)   # 返回today对象的日
print("星期:",today.weekday())  # 0代表星期一,类推
print("公历序数:",today.toordinal())  # 返回公历日期的序数
print("年/周数/星期:",today.isocalendar())   # 返回一个元组:一年中的第几周,星期几

# 结果显示
当前日期: 2020-12-25
当前日期(字符串):Fri Dec 25 00:00:00 2020
时间元组信息:time.struct_time(tm_year=2020, tm_mon=12, tm_mday=25, tm_hour=0, tm_min=0, tm_sec=0, tm_wday=4, tm_yday=360, tm_isdst=-1)
年: 2020
月: 12
日: 25
星期: 4
公历序数: 737784
年/周数/星期: (2020525)

2、date类中时间和时间戳的转换:

Python 时间格式操作总结

具体时间的时间戳转成日期:

Python 时间格式操作总结

3、格式化时间相关,格式参照time模块中的strftime方法

from datetime import datetime, date, time
today = date.today()

print(today)
# 2020-12-26  默认连接符号是-

print(today.strftime("%Y/%m/%d"))  # 指定连接符
# 2020/12/26

print(today.strftime("%Y:%m:%d"))
# 2020:12:26

print(today.strftime("%Y/%m/%d %H:%M:%S"))  # 转化为具体的时间
# 2020/12/26 00:00:00

4、修改日期使用replace方法

Python 时间格式操作总结

4.3time

time类也是要生成time对象,包含hour、minute、second、microsecond,我们还是通过例子来学习:

from datetime import time

t = time(10,20,30,40)
print(t.hour)  # 时分秒
print(t.minute)
print(t.second)
print(t.microsecond)  # 微秒

# 结果
10
20
30
40

4.4datetime

datetime类包含date类和time类的全部信息,下面👇是类方法相关的:

from  datetime import datetime

print(datetime.today())
print(datetime.now())
print(datetime.utcnow())# 返回当前UTC日期和时间的datetime对象
print(datetime.fromtimestamp(1697302830))  # 时间戳的datetime对象
print(datetime.fromordinal(699000) )
print(datetime.combine(date(2020,12,25), time(11,22,54)))  # 拼接日期和时间
print(datetime.strptime("2020-12-25","%Y-%m-%d"))

# 结果
2020-12-25 23:24:42.481845
2020-12-25 23:24:42.482056
2020-12-25 15:24:42.482140
2023-10-15 01:00:30
1914-10-19 00:00:00
2020-12-25 11:22:54
2020-12-25 00:00:00

再看看相关对象和属性相关:

from datetime import datetime 

d = datetime(2020,12,25,11,24,23)

print(d.date())
print(d.time())
print(d.timetz())  # 从datetime中拆分出具体时区属性的time
print(d.replace(year=2021,month=1))  # 替换
print(d.timetuple())  # 时间元组
print(d.toordinal())  # 和date.toordinal一样
print(d.weekday())
print(d.isoweekday())
print(d.isocalendar())
print(d.isoformat())
print(d.strftime("%Y-%m-%d :%H:%M:%S"))

# 结果
2020-12-25
11:24:23
11:24:23
2021-01-25 11:24:23
time.struct_time(tm_year=2020, tm_mon=12, tm_mday=25, tm_hour=11, tm_min=24, tm_sec=23, tm_wday=4, tm_yday=360, tm_isdst=-1)
737784
4
5
(2020525)
2020-12-25T11:24:23
2020-12-25 :11:24:23

4.5timedelta

timedelta对象表示的是一个时间段,即两个日期date或者日期时间datetime之间的差;支持参数:weeks、days、hours、minutes、seconds、milliseconds、microseconds

Python 时间格式操作总结
Python 时间格式操作总结

4.6tzinfo

本地时间指的是我们系统本身设定时区的时间,例如中国处于北京时间,常说的东八区UTC+8:00datetime类有一个时区属性tzinfo

tzinfo是一个关于时区信息的类,是一个抽象的基类,不能直接被实例化来使用。它的默认值是None,无法区分具体是哪个时区,需要我们强制指定一个之后才能使用。

Python 时间格式操作总结

因为本身系统的时区刚好在中国处于东八区,所以上述代码是能够正常运行的,结果也是OK的。那如果我们想切换到其他时区的时间,该如何操作呢?这个时候我们需要进行时区的切换。

1、我们先通过utcnow()获取到当前的UTC时间

utc_now = datetime.utcnow().replace(tzinfo=timezone.utc)  # 指定utc时区
print(utc_now)

# 结果
2020-12-26 01:36:33.975427+00:00

2、通过astimezone()将时区指定为我们想转换的时区,比如东八区(北京时间):

# 通过astimezone切换到东八区

beijing = utc_now.astimezone(timezone(timedelta(hours=8)))
print(beijing)

# 结果
2020-12-26 09:36:33.975427+08:00

用同样的方法切到东九区,东京时间:

# UTC时区切换到东九区:东京时间

tokyo = utc_now.astimezone(timezone(timedelta(hours=9)))
print(tokyo)

# 结果
2020-12-26 10:36:33.975427+09:00

还可以直接从北京时间切换到东京时间

# 北京时间(东八区)直接切换到东京时间(东九区)

tokyo_new = beijing.astimezone(timezone(timedelta(hours=9)))
print(tokyo_new)

# 结果
2020-12-26 10:36:33.975427+09:00
Python 时间格式操作总结

5.常用时间转化

下面介绍几个工作中用到的时间转化小技巧:

  1. 时间戳转日期

  2. 日期转时间戳

  3. 格式化时间

  4. 指定格式获取当前时间

5.1时间戳转成日期

时间戳转成具体时间,我们需要两个函数:

  • time.localtime:将时间戳转成时间元组形式

  • time.strftime:将时间元组数据转成我们需要的形式

import time
now_timestamp = time.time()  # 获取当前时间的时间戳

# 时间戳先转成时间元组,strftime在转成指定格式
now_tuple = time.localtime(now_timestamp)
time.strftime("%Y/%m/%d %H:%M:%S", now_tuple)

# 结果
'2020/12/26 11:19:01'

假设我们指定一个具体的时间戳来进行转换:

import time
timestamp = 1608852741  # 指定时间戳

a = time.localtime(timestamp)  # 获得时间元组形式数据
print("时间元组数据:",a)
time.strftime("%Y/%m/%d %H:%M:%S", a)  # 格式化

# 结果
时间元组数据:time.struct_time(tm_year=2020, tm_mon=12, tm_mday=25, tm_hour=7, tm_min=32, tm_sec=21, tm_wday=4, tm_yday=360, tm_isdst=0)
'2020/12/25 07:32:21'

如果我们不想指定具体的格式,只想获取时间戳对应的时间,直接通过time.ctime即可:

import time
time.ctime(1608852741)

# 结果
'Fri Dec 25 07:32:21 2020'

5.2日期时间转成时间戳

日期时间转成时间戳格式,我们需要使用两个方法:

  • strptime():将时间转换成时间数组

  • mktime():将时间数组转换成时间戳

通过具体的案例来学习一下:

date = "2020-12-26 11:45:34"

# 1、时间字符串转成时间数组形式
date_array = time.strptime(date, "%Y-%m-%d %H:%M:%S")

# 2、查看时间数组数据
print("时间数组:", date_array)

# 3、mktime时间数组转成时间戳
time.mktime(date_array)

# 结果
时间数组:time.struct_time(tm_year=2020, tm_mon=12, tm_mday=26, tm_hour=11, tm_min=45, tm_sec=34, tm_wday=5, tm_yday=361, tm_isdst=-1)
1608954334.0
Python 时间格式操作总结

5.3格式化时间

工作需求中有时候给定的时间格式未必是我们能够直接使用,所以可能需要进行格式的转换,需要使用两个方法:

  • strptime():将时间转换成时间数组

  • strftime():重新格式化时间

通过案例来进行学习:

import time

old = "2020-12-12 12:28:45"

# 1、转换成时间数组
time_array = time.strptime(old, "%Y-%m-%d %H:%M:%S")

# 2、转换成新的时间格式(20201212-20:28:54)
new = time.strftime("%Y%m%d-%H:%M:%S",time_array)  # 指定显示格式

print("原格式时间:",old)
print("新格式时间:",new)

# 结果
原格式时间: 2020-12-12 12:28:45
新格式时间: 20201212-12:28:45
Python 时间格式操作总结

5.4指定格式获取当前时间

为了能够获取到指定格式的当前时间,我们分为3个步骤:

  • time.time():获取当前时间

  • time.localtime():转成时间元组

  • time.strftime():重新格式化时间

通过一个案例来学习:

# 1、时间戳
old_time = time.time()
# 2、时间元组
time_array = time.localtime(old_time)
# 3、指定格式输出
new_time = time.strftime("%Y/%m/%d %H:%M:%S", time_array)
print(new_time)

# 结果
2020/12/26 11:56:08

6.总结

本文通过各种案例详细介绍了Python中关于时间输出和转化的3个模块:calendar、time、datetime,最后总结了4个工作中常用的时间转化技巧,希望对大家掌握Python中的时间输出和转化有所帮助,不再被时间困扰。

转自:https://mp.weixin.qq.com/s/LRSMG9WDTBIyAecZqbjgAA

从python2.7向 python3 转换(by《笨办法学python3》)

大嘎好,半吊子程序员从网线的这一端向您问好。

过去的还是会过去,就像时间,就像流水,就像python 2.7

终于还是要向python3切换

网上搜索了一下,还是用《笨办法学python3》这个文档开始吧。地址在:https://www.bookstack.cn/read/LearnPython3TheHardWay/spilt.1.learn-py3.md

————以下是书里的摘录部分的分割线———-

程序员总是自诩为数学天才,其实事实并非如此。如果他们是数学天才,他们就会去研究数学,而不是去写那些 bug 连篇的网站框架以便能开上豪车。

打印: print(“xxxxxxxxx”)

print(“Hens”, 25 + 30 / 6)

格式化字符串,只需要在“”前加上f,表示 format

somear = "world"

print( f"Hello, {somevar}")

.format()也可以格式化

joke_evaluation = “Isn’t that joke so funny?! {}”

print(joke_evaluation.format(hilarious))

print(“How old are you?”, end=’ ‘)

age = input()

# 我们在每一个打印行末尾放一个 end=' ' ,是为了告诉 print 不要另起一行。

y = input("Name?") 提示信息在()内

age = input("How old are you? ")

命令行参数

from sys import argv
script, filename = argv

argv 和 input() 之间的区别是什么? 区别取决于用户在哪被要求输入,如果是在命令行,就用 argv。如果你想让它们在程序已经运行的情况下用键盘输入,那就用 input()

读取文件

txt_again = open(file_again)

print(txt_again.read())

txt = open(filename) 会返回文件的内容吗? 不会。它其实是创建了一个叫做“文件对象”(file object)的东西

exists。它会基于一个字符串里面的变量文件名来判断,如果一个文件存在,它就会返回 True,不存在就会返回 False

from os.path import exists

exists(to_file)

  • close – 关闭文件,就像编辑器中的 “文件->另存为”一样。
  • read – 读取文件内容。你可以把读取结果赋给一个变量。
  • readline – 只读取文本文件的一行内容。
  • truncate – 清空文件。清空的时候要当心。
  • write(‘stuff’) – 给文件写入一些“东西”。
  • seek(0) – 把读/写的位置移到文件最开头。

用 32 个比特来编码一个 Unicode 字符 , 一个 32 位比特的数字意味着我们可以存储 4,294,967,295 个字符(2^32), 这对任何一种人类语言,甚至外星语言来说,都够用了

next_lang = line.strip()

raw_bytes = next_lang.encode(encoding, errors=errors)

cooked_string = raw_bytes.decode(encoding, errors=errors)

DBES”这个辅助记忆词吗?“Decode Bytes, Encode Strings”,解码字节==》字符串,编码字符串==》字节( 有字节要字符串,解码字节,有字符串要字节,编码字符串 )。

你需要做的就是记住如果你有原始字节,那你必须用 .decode() 来获取字符串。

关于while语句

  • 保守使用 while-loop,通常用 for-loop 更好一些。
  • 检查一下你的 while 语句,确保布尔测试最终会在某个点结果为 False。
  • 当遇到问题的时候,把你的 while-loop 开头和结尾的测试变量打印出来,看看它们在做什么。在这个练习中,你要通过以下三个检查来学习 while-loop:

if语句的编程习惯,

if 语句的规则:

  • 每一个“if 语句”必须包含一个 else。
  • 如果这个 else 永远都不应该被执行到,因为它本身没有任何意义,那你必须在 else 语句后面使用一个叫做 die 的函数,让它打印出错误信息并且死给你看,就像我们上节课做的那样,按照这个思路你可以找到很多错误。
  • “if 语句”的嵌套不要超过 2 层,最好尽量保持只有 1 层。
  • 把“if 语句”当做段落来对待,其中的每一个 if, elif, else 就跟段落中的句子一样。在每句前后留一个空行以作区分。
  • 你的布尔测试应该很简单,如果它们很复杂的话,你需要将它们的运算事先放到一个变量里,并且为变量取一个好名字。

如果你遵循上面的规则,你就会写出比大多数程序员都好的代码来。

python的数据类型

//地板除法(商向下取整)2 // 4 = 0

继承的大多数用法都可以用组合(composition)来简化或替换。并且无论如何都要避免多重继承

以下三个关键词需要加强一下

with-as 语句

lambda 创建一个短的匿名函数

yield

—–再结合总结一下—————————

1:print() 变成了函数

2: 默认使用UTF-8编码,不需要 u”xxxx” 这样子了

3:增加一个地板除运算符 // , 如 9//4 = 2

4:异常处理 , 只有继承 BaseException 的对象才可以被抛出

try:
  raise TypeError("xxx")
excpt TypeError as err:
  print(err)

5:不等于运算符只能使用 !=

6:增加bytes类型

b=b'中国'
type(b)
s = b.decode()
b2 = s.encode()

其他只有等实际中遭遇到再详细了解,目前感觉python2升到python3并不是太大的变更

应该问题不大的

求你了,别再用 print 调试代码了

对于每个程序开发者来说,调试几乎是必备技能。

代码写到一半卡住了,不知道这个函数执行完的返回结果是怎样的?调试一下看看

代码运行到一半报错了,什么情况?怎么跟预期的不一样?调试一下看看

调试的方法多种多样,不同的调试方法适合不同的场景和人群。

  • 如果你是刚接触编程的小萌新,对很多工具的使用还不是很熟练,那么 print 和 log 大法好

  • 如果你在本地(Win或者Mac)电脑上开发,那么 IDE 的图形化界面调试无疑是最适合的;

  • 如果你在服务器上排查BUG,那么使用 PDB 进行无图形界面的调试应该是首选,详情请戳明哥之前的文章:让代码调试不再难 – pdb

  • 如果你要在本地进行开发,但是项目的进行需要依赖复杂的服务器环境,那么可以了解下 PyCharm 的远程调试,详情请戳明哥之前的文章:不能不会的远程调试技巧

除了以上,今天明哥再给你介绍一款非常好用的调试工具,它能在一些场景下,大幅度提高调试的效率, 那就是 PySnooper,它在 Github 上已经收到了 13k 的 star,获得大家的一致好评。

有了这个工具后,就算是小萌新也可以直接无门槛上手,从此与 print 说再见~

1. 快速安装

执行下面这些命令进行安装 PySnooper

$ python3 -m pip install pysnooper

#
 或者
$ conda install -c conda-forge pysnooper

#
 或者
$ yay -S python-pysnooper

2. 简单案例

下面这段代码,定义了一个 demo_func 的函数,在里面生成一个 profile 的字典变量,然后去更新它,最后返回。

代码本身没有什么实际意义,但是用来演示 PySnooper 已经足够。

import pysnooper

@pysnooper.snoop()
def demo_func():
    profile = {}
    profile["name"] = "写代码的明哥"
    profile["age"] = 27
    profile["gender"] = "male"

    return profile

def main():
    profile = demo_func()

main()

现在我使用终端命令行的方式来运行它

[root@iswbm ~]# python3 demo.py 
Source path:... demo.py
17:52:49.624943 call         4 def demo_func():
17:52:49.625124 line         5     profile = {}
New var:....... profile = {}
17:52:49.625156 line         6     profile["name"] = "写代码的明哥"
Modified var:.. profile = {'name': '写代码的明哥'}
17:52:49.625207 line         7     profile["age"] = 27
Modified var:.. profile = {'name': '写代码的明哥', 'age': 27}
17:52:49.625254 line         8     profile["gender"] = "male"
Modified var:.. profile = {'name': '写代码的明哥', 'age': 27, 'gender': 'male'}
17:52:49.625306 line        10     return profile
17:52:49.625344 return      10     return profile
Return value:.. {'name': '写代码的明哥', 'age': 27, 'gender': 'male'}
Elapsed time: 00:00:00.000486

可以看到 PySnooper 把函数运行的过程全部记录了下来,包括:

  • 代码的片段、行号等信息,以及每一行代码是何时调用的?

  • 函数内局部变量的值如何变化的?何时新增了变量,何时修改了变量。

  • 函数的返回值是什么?

  • 运行函数消耗了多少时间?

而作为开发者,要得到这些如此详细的调试信息,你需要做的非常简单,只要给你想要调试的函数上带上一顶帽子(装饰器) — @pysnooper.snoop() 即可。

3. 详细使用

2.1 重定向到日志文件

@pysnooper.snoop() 不加任何参数时,会默认将调试的信息输出到标准输出。

对于单次调试就能解决的 BUG ,这样没有什么问题,但是有一些 BUG 只有在特定的场景下才会出现,需要你把程序放在后面跑个一段时间才能复现。

这种情况下,你可以将调试信息重定向输出到某一日志文件中,方便追溯排查。

@pysnooper.snoop(output='/var/log/debug.log')
def demo_func():
...

2.2 跟踪非局部变量值

PySnooper 是以函数为单位进行调试的,它默认只会跟踪函数体内的局部变量,若想跟踪全局变量,可以给 pysnooper.snoop() 加上 watch 参数

out = {"foo""bar"}

@pysnooper.snoop(watch=('out["foo"]'))
def demo_func():
  ...

如此一来,PySnooper 会在 out["foo"] 值有变化时,也将其打印出来

求你了,别再用 print 调试代码了

watch 参数,接收一个可迭代对象(可以是list 或者 tuple),里面的元素为字符串表达式,什么意思呢?看下面例子就知道了

@pysnooper.snoop(watch=('out["foo"]', 'foo.bar', 'self.foo["bar"]'))
def demo_func():
...

和 watch 相对的,pysnooper.snoop() 还可以接收一个函数 watch_explode,表示除了这几个参数外的其他所有全局变量都监控。

@pysnooper.snoop(watch_explode=('foo', 'bar'))
def demo_func():
...

2.3 设置跟踪函数的深度

当你使用 PySnooper 调试某个函数时,若该函数中还调用了其他函数,PySnooper 是不会傻傻的跟踪进去的。

如果你想继续跟踪该函数中调用的其他函数,可以通过指定 depth 参数来设置跟踪深度(不指定的话默认为 1)。

@pysnooper.snoop(depth=2)
def demo_func():
 ...

2.4 设置调试日志的前缀

当你在使用 PySnooper 跟踪多个函数时,调试的日志会显得杂乱无章,不方便查看。

在这种情况下,PySnooper 提供了一个参数,方便你为不同的函数设置不同的标志,方便你在查看日志时进行区分。

@pysnooper.snoop(output="/var/log/debug.log", prefix="demo_func: ")
def demo_func():
    ...

效果如下

求你了,别再用 print 调试代码了

2.5 设置最大的输出长度

默认情况下,PySnooper 输出的变量和异常信息,如果超过 100 个字符,被会截断为 100 个字符。

当然你也可以通过指定参数 进行修改

@pysnooper.snoop(max_variable_length=200)
def demo_func():
    ...

您也可以使用max_variable_length=None它从不截断它们。

@pysnooper.snoop(max_variable_length=None)
def demo_func():
    ...

2.6 支持多线程调试模式

PySnooper 同样支持多线程的调试,通过设置参数 thread_info=True,它就会在日志中打印出是在哪个线程对变量进行的修改。

@pysnooper.snoop(thread_info=True)
def demo_func():
    ...

效果如下

求你了,别再用 print 调试代码了

2.7 自定义对象的格式输出

pysnooper.snoop() 函数有一个参数是 custom_repr,它接收一个元组对象。

在这个元组里,你可以指定特定类型的对象以特定格式进行输出。

这边我举个例子。

假如我要跟踪 person 这个 Person 类型的对象,由于它不是常规的 Python 基础类型,PySnooper 是无法正常输出它的信息的。

因此我在 pysnooper.snoop() 函数中设置了 custom_repr 参数,该参数的第一个元素为 Person,第二个元素为 print_persion_obj 函数。

PySnooper 在打印对象的调试信息时,会逐个判断它是否是 Person 类型的对象,若是,就将该对象传入 print_persion_obj 函数中,由该函数来决定如何显示这个对象的信息。

class Person:pass

def print_person_obj(obj):
    return f"<Person {obj.name} {obj.age} {obj.gender}>"

@pysnooper.snoop(custom_repr=(Person, print_person_obj))
def demo_func():
    ...

完整的代码如下

import pysnooper

class Person:pass


def print_person_obj(obj):
    return f"<Person {obj.name} {obj.age} {obj.gender}>"

@pysnooper.snoop(custom_repr=(Person, print_person_obj))
def demo_func():
    person = Person()
    person.name = "写代码的明哥"
    person.age = 27
    person.gender = "male"

    return person

def main():
    profile = demo_func()

main()

运行一下,观察一下效果。

求你了,别再用 print 调试代码了

如果你要自定义格式输出的有很多个类型,那么 custom_repr 参数的值可以这么写

@pysnooper.snoop(custom_repr=((Person, print_person_obj), (numpy.ndarray, print_ndarray)))
def demo_func():
    ...

还有一点我提醒一下,元组的第一个元素可以是类型(如类名Person 或者其他基础类型 list等),也可以是一个判断对象类型的函数。

也就是说,下面三种写法是等价的。

# 【第一种写法】
@pysnooper.snoop(custom_repr=(Person, print_persion_obj))
def demo_func():
    ...


# 【第二种写法】
def is_persion_obj(obj):
    return isinstance(obj, Person)

@pysnooper.snoop(custom_repr=(is_persion_obj, print_persion_obj))
def demo_func():
    ...


# 【第三种写法】
@pysnooper.snoop(custom_repr=(lambda obj: isinstance(obj, Person), print_persion_obj))
def demo_func():
    ...

以上就是明哥今天给大家介绍的一款调试神器(PySnooper) 的详细使用手册,是不是觉得还不错?

如果你还有其他关于调试的技巧,可以留言区分享出来,一起学习一下~

转自:https://mp.weixin.qq.com/s/ct-nC1rqYZi9i654hsRy5g

GitHub 上适合新手的 Python 开源项目

作者:卤蛋

来源:HelloGithub

随着 Python 语言的流行,越来越多的人加入到了 Python 的大家庭中。为什么这么多人学 Python ?我要喊出那句话了:“人生苦短,我用 Python!”,正是因为语法简单、容易学习,所以  Python  深受大家喜爱。(Python!Python!Python!)
Python 初学者在迈过安装编程环境和基本语法的门槛 ,准备大展身手的时候,可能突然就会进入迷茫期:不知道做些什么、再学些什么。然后对编程的兴趣就会慢慢消退,找不到坚持下去的理由,从而慢慢淡忘之前学会的编程知识。所以找到自己感兴趣、能够跟着动手和学习的 Python 项目是特别重要的,这样才能把学会的 Python 知识用起来,不断地提高。最终从新手晋升为高手!
兴趣是最好的老师,HelloGitHub 就是帮你找到编程的乐趣。
这里是 HelloGitHub 的《GitHub 上适合新手的开源项目》系列,共计 5 篇文章:
  1. C++ 篇
  2. Python 篇
  3. Go 篇
  4. Java 篇
  5. JavaScript 篇
本期是 Python 篇,下面我将从 HG 推荐过的 197 个 Python 开源项目中,精心筛选出 7 个最适合 Python 新手学习和把玩的开源项目。这些项目包括:
  • 从零开始学也不用愁的 Python 教程
  • 让你惊呼 Python 还可以这样用的秘籍(大开眼界)
  • 轻轻松松就能跑起来(满满成就感)
  • 好玩有趣又能学到东西的项目(编程的乐趣)
我会尽力做到涵盖每一个刚入门阶段在找开源项目的小伙伴。声明:
  • 不纠结项目是 Python2 还是 3
  • 我最怕推荐的项目过多让读者“挑花眼”导致都没学好,所以就选了 7 个项目
  • 欢迎吐槽和反馈,不定期更新。所以本文暂且称之为 Python 篇 1.0 😂
注意: 为了方便大家学习,我把这些项目整理好放到网盘上供大家下载学习(地址在最下面),另外大家也可以直接 clone 项目。
但不管以哪种方式下载,我都希望大家可以去给这些 GitHub 上的开源项目点一个 star ✨,让作者感受到大家的支持和喜爱。我在这里提前替作者感谢大家了,爱你们呦~❤️
🚗 发动引擎~

一、教练,我想学 Python

车上有座,坐满就发车。

1.1 有编程基础:explore-python

  • 项目地址:https://github.com/ethan-funny/explore-python
  • 在线阅读:https://funhacks.gitbooks.io/explore-python/content/
《Python 之旅》这本开源书虽然是入门级但并不是“保姆级”,如果你觉得手把手教你安装 Python 之类是浪费时间,那么我推荐 explore-python 这个项目。所以,如果之前学过其它编程语言,自己能解决安装环境等问题。那你可能就会和我一样喜欢它:
  1. 大纲:直观的脑图展示,结构清晰完整,讲的都是重点和常用知识
  2. 内容:代码多于文字,运行示例代码帮助领悟+简短文字点拨,可能代码写的久了,看代码感觉比文字舒服
  3. 排版:舒服+讲究,写给程序员的 Python 书籍
GitHub 上适合新手的 Python 开源项目

1.2 没有编程基础:Python-100-Days

  • 项目地址:https://github.com/jackfrued/Python-100-Days
Python-100-Days 就是我上面说的“保姆级”教程,他的内容面面俱到包括了 Python 开发的方方面面,手把手地一步步的讲 Python 技术。面向没有编程基础想学 Python 的人群,但它不是只教会你 Python 基本语法就结束了。还有呐:Python 进阶知识、Linux 基础知识、数据库知识、Web 基础和框架、爬虫和数据分析、机器学习等。《真·一个项目学会 Python》😂

🥚 说无妨: Python 入门的教程都很简单,但是有毅力能坚持读完和有耐心动手敲完每一个例子人不简单。

二、大神,我想学好 Python

车速太快,请坐稳扶好。

2.1 先查收这份指南:python-guide

  • 项目地址:https://github.com/realpython/python-guide
  • 在线阅读:https://pythonguidecn.readthedocs.io/zh/latest/
首先感谢译者们的辛勤付出,降低了《Python 最佳实践指南》这份指南的阅读门槛。如果你想把 Python 玩好,但又不知道该从哪些方面着手提高,那这份指南一定可以帮你解决困惑。该指南介绍了以下几个方面:开发环境、常用工具、代码风格、项目结构、使用场景等,提高 Python 相关的综合素养:用的优雅,玩的溜。这个项目不管是作者、贡献者还是译者们,都是 Python 社区的“老司机”,老司机带你飞的机会来了!
GitHub 上适合新手的 Python 开源项目

2.2 再翻烂这本秘籍:python3-cookbook

  • 项目地址:https://github.com/yidao620c/python3-cookbook
  • 在线阅读:https://python3-cookbook.readthedocs.io/zh_CN/latest/
如果说每一个 Python 问题或需求就是一次进攻的话,那《Python Cookbook》就是破解进攻招式的武功秘籍。当你对用 Python 处理一个问题没有思路或者感觉可能会有更好的方法和写法时,翻翻这本书吧。不信你就试试躺着随便翻一页看,看着看着你就能坐起来,并且嘴里念叨着:“xxx,还能这么写?我得去试试”。别笑,真事儿我干过好几次了。

🥚 说无妨: 不是买两本书、看几个开源项目简介就可以进阶,只有日积月累才可以从量变到质变,完成进阶。这个过程没有办法手把手地教,因为没人可以一直给你讲以后你会遇到的所有问题。所以,你只能抓住每一个可以提高机会和知识点,像救命稻草一样拼命的抓紧,把知识点掰开揉碎的融会贯通。

三、老师,我想和你一起玩 Python

这车真帅,我也想坐上去试试。

3.1 玩一个不过瘾:free-python-games

  • 项目地址:https://github.com/grantjenks/free-python-games
真·入门级 Python 游戏集合库。都是些简单的小游戏,比如:贪吃蛇、迷宫、Pong、猜字等,运行简单(有些不需要安装依赖)、代码少且易读。用游戏开启的你 Python 项目之旅,玩完再学源码,其乐无穷啊。源码都在 freegames 目录下,每一个 py 文件就是一个游戏,比如 guess.py 就是猜字游戏的源码。安装运行的命令如下:
pip install freegames
python -m freegames.maze # freegames.游戏名
GitHub 上适合新手的 Python 开源项目

3.2 Windows 下的按键精灵工具:KeymouseGo

  • 项目地址:https://github.com/taojy123/KeymouseGo
Python 实现的精简绿色版按键精灵。记录用户的鼠标、键盘操作,自动执行之前记录的操作,可设定执行的次数。在进行某些简单、单调、重复的操作时,使用该软件可以十分省事儿。只需要录制一遍,剩下的交给 KeymouseGo 来做就可以了。
GitHub 上适合新手的 Python 开源项目

3.3 Linux 下优雅的 HTTP 请求工具:httpstat

  • 项目地址:https://github.com/reorx/httpstat
一个更加漂亮展示 HTTP 请求状态和耗时的 Python 命令行工具。它美化了 curl 的结果,使得结果更加可读和直观,还可以显示 HTTP 请求的每个过程的耗时。最主要它无依赖、兼容 Python3、就一个文件才 300 多行代码,非常适合新手阅读源码。效果如下图:
GitHub 上适合新手的 Python 开源项目
上面这些开源项目很有趣,而且运行简单,不会让你卡在运行代码这一步。最后分享下我运行 Python 开源项目的三板斧招式:
  • 安装依赖:pip install -r requirements.txt
  • 启动文件:通常为 mainrun项目名的同名文件py 文件
  • 运行出错:拿着异常信息去项目 issues 区搜,没有找到就去问搜索引擎

🥚 说无妨: 把项目运行起来不是终极目的,要阅读源码然后按照自己的想法修改代码最后增加或修改功能(提 PR),这才能算是玩好了。

四、最后

看完这篇文章,如果只记住有哪些适合新手学习的开源项目,那不会让你有任何技术上的提升,就算看十遍也不会提高。只有去看、去用、去学文中推荐的项目,才会提高技术。

网盘链接:https://pan.baidu.com/s/1SX3GjqZPTWRvVkwUk1OXag  密码:2eev

GitHub 标星 7.4k!Python 魔法库之 FuzzyWuzzy

来源:Be_melting

blog.csdn.net/lys_828/article/details/106489371

【导语】:还在为日常工作中不同的数据集的字段进行匹配烦恼?今天跟大家分享FuzzyWuzzy一个简单易用的模糊字符串匹配工具包。让你多快好省的解决烦恼的匹配问题!

1. 前言

在处理数据的过程中,难免会遇到下面类似的场景,自己手里头获得的是简化版的数据字段,但是要比对的或者要合并的却是完整版的数据(有时候也会反过来)

最常见的一个例子就是:在进行地理可视化中,自己收集的数据只保留的缩写,比如北京,广西,新疆,西藏等,但是待匹配的字段数据却是北京市,广西壮族自治区,新疆维吾尔自治区,西藏自治区等,如下。因此就需要有没有一种方式可以很快速便捷的直接进行对应字段的匹配并将结果单独生成一列,就可以用到FuzzyWuzzy库。

GitHub 标星 7.4k!Python 魔法库之 FuzzyWuzzy

2. FuzzyWuzzy库介绍

FuzzyWuzzy 是一个简单易用的模糊字符串匹配工具包。它依据 Levenshtein Distance 算法,计算两个序列之间的差异。

Levenshtein Distance算法,又叫 Edit Distance算法,是指两个字符串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。一般来说,编辑距离越小,两个串的相似度越大。

这里使用的是Anaconda下的jupyter notebook编程环境,因此在Anaconda的命令行中输入一下指令进行第三方库安装。

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple FuzzyWuzzy

2.1 fuzz模块

该模块下主要介绍四个函数(方法),分别为:简单匹配(Ratio)、非完全匹配(Partial Ratio)、忽略顺序匹配(Token Sort Ratio)和去重子集匹配(Token Set Ratio)

注意: 如果直接导入这个模块的话,系统会提示warning,当然这不代表报错,程序依旧可以运行(使用的默认算法,执行速度较慢),可以按照系统的提示安装python-Levenshtein库进行辅助,这有利于提高计算的速度。

GitHub 标星 7.4k!Python 魔法库之 FuzzyWuzzy

2.1.1 简单匹配(Ratio)

简单的了解一下就行,这个不怎么精确,也不常用

fuzz.ratio("河南省", "河南省")>>> 100>fuzz.ratio("河南", "河南省")>>> 80

2.1.2 非完全匹配(Partial Ratio)

尽量使用非完全匹配,精度较高

fuzz.partial_ratio("河南省", "河南省")>>> 100
fuzz.partial_ratio("河南", "河南省")>>> 100

2.1.3 忽略顺序匹配(Token Sort Ratio)

原理在于:以 空格 为分隔符,小写 化所有字母,无视空格外的其它标点符号

fuzz.ratio("西藏 自治区", "自治区 西藏")>>> 50fuzz.ratio('I love YOU','YOU LOVE I')>>> 30
fuzz.token_sort_ratio("西藏 自治区", "自治区 西藏") >>> 100fuzz.token_sort_ratio('I love YOU','YOU LOVE I') >>> 100

2.1.4 去重子集匹配(Token Set Ratio)

相当于比对之前有一个集合去重的过程,注意最后两个,可理解为该方法是在token_sort_ratio方法的基础上添加了集合去重的功能,下面三个匹配的都是倒序

fuzz.ratio("西藏 西藏 自治区", "自治区 西藏")>>> 40
fuzz.token_sort_ratio("西藏 西藏 自治区", "自治区 西藏")>>> 80
fuzz.token_set_ratio("西藏 西藏 自治区", "自治区 西藏")>>100

fuzz这几个ratio()函数(方法)最后得到的结果都是数字,如果需要获得匹配度最高的字符串结果,还需要依旧自己的数据类型选择不同的函数,然后再进行结果提取,如果但看文本数据的匹配程度使用这种方式是可以量化的,但是对于我们要提取匹配的结果来说就不是很方便了,因此就有了process模块。

2.2 process模块

用于处理备选答案有限的情况,返回模糊匹配的字符串和相似度。

2.2.1 extract提取多条数据

类似于爬虫中select,返回的是列表,其中会包含很多匹配的数据

choices = ["河南省", "郑州市", "湖北省", "武汉市"]process.extract("郑州", choices, limit=2)>>> [('郑州市', 90), ('河南省', 0)]# extract之后的数据类型是列表,即使limit=1,最后还是列表,注意和下面extractOne的区别

2.2.2 extractOne提取一条数据

如果要提取匹配度最大的结果,可以使用extractOne,注意这里返回的是 元组 类型, 还有就是匹配度最大的结果不一定是我们想要的数据,可以通过下面的示例和两个实战应用体会一下

process.extractOne("郑州", choices)>>> ('郑州市', 90)
process.extractOne("北京", choices)>>> ('湖北省'45)

3. 实战应用

这里举两个实战应用的小例子,第一个是公司名称字段的模糊匹配,第二个是省市字段的模糊匹配

3.1 公司名称字段模糊匹配

数据及待匹配的数据样式如下:自己获取到的数据字段的名称很简洁,并不是公司的全称,因此需要进行两个字段的合并GitHub 标星 7.4k!Python 魔法库之 FuzzyWuzzy

直接将代码封装为函数,主要是为了方便日后的调用,这里参数设置的比较详细,执行结果如下:GitHub 标星 7.4k!Python 魔法库之 FuzzyWuzzy

3.1.1 参数讲解:

① 第一个参数df_1是自己获取的欲合并的左侧数据(这里是data变量);

② 第二个参数df_2是待匹配的欲合并的右侧数据(这里是company变量);

③ 第三个参数key1是df_1中要处理的字段名称(这里是data变量里的‘公司名称’字段)

④ 第四个参数key2是df_2中要匹配的字段名称(这里是company变量里的‘公司名称’字段)

⑤ 第五个参数threshold是设定提取结果匹配度的标准。注意这里就是对extractOne方法的完善,提取到的最大匹配度的结果并不一定是我们需要的,所以需要设定一个阈值来评判,这个值就为90,只有是大于等于90,这个匹配结果我们才可以接受

⑥ 第六个参数,默认参数就是只返回两个匹配成功的结果

⑦ 返回值:为df_1添加‘matches’字段后的新的DataFrame数据

3.1.2 核心代码讲解

第一部分代码如下,可以参考上面讲解process.extract方法,这里就是直接使用,所以返回的结果m就是列表中嵌套元祖的数据格式,样式为: [(‘郑州市’, 90), (‘河南省’, 0)],因此第一次写入到’matches’字段中的数据也就是这种格式

注意,注意: 元祖中的第一个是匹配成功的字符串,第二个就是设置的threshold参数比对的数字对象

s = df_2[key2].tolist()m = df_1[key1].apply(lambda x: process.extract(x, s, limit=limit))    df_1['matches'] = m

第二部分的核心代码如下,有了上面的梳理,明确了‘matches’字段中的数据类型,然后就是进行数据的提取了,需要处理的部分有两点需要注意的:

① 提取匹配成功的字符串,并对阈值小于90的数据填充空值

② 最后把数据添加到‘matches’字段

m2 = df_1['matches'].apply(lambda x: [i[0] for i in x if i[1] >= threshold][0] if len([i[0] for i in x if i[1] >= threshold]) > 0 else '')#要理解第一个‘matches’字段返回的数据类型是什么样子的,就不难理解这行代码了#参考一下这个格式:[('郑州市', 90), ('河南省', 0)]df_1['matches'] = m2
return df_1

3.2 省份字段模糊匹配

自己的数据和待匹配的数据背景介绍中已经有图片显示了,上面也已经封装了模糊匹配的函数,这里直接调用上面的函数,输入相应的参数即可,代码以及执行结果如下:

GitHub 标星 7.4k!Python 魔法库之 FuzzyWuzzy

数据处理完成,经过封装后的函数可以直接放在自己自定义的模块名文件下面,以后可以方便直接导入函数名即可,可以参考将自定义常用的一些函数封装成可以直接调用的模块方法。

4. 全部函数代码

#模糊匹配
def fuzzy_merge(df_1, df_2, key1, key2, threshold=90, limit=2):    """    :param df_1: the left table to join    :param df_2: the right table to join    :param key1: key column of the left table    :param key2: key column of the right table    :param threshold: how close the matches should be to return a match, based on Levenshtein distance    :param limit: the amount of matches that will get returned, these are sorted high to low    :return: dataframe with boths keys and matches    """    s = df_2[key2].tolist()
    m = df_1[key1].apply(lambda x: process.extract(x, s, limit=limit))        df_1['matches'] = m
    m2 = df_1['matches'].apply(lambda x: [i[0] for i in x if i[1] >= threshold][0] if len([i[0] for i in x if i[1] >= threshold]) > 0 else '')    df_1['matches'] = m2
    return df_1    from fuzzywuzzy import fuzzfrom fuzzywuzzy import process
df = fuzzy_merge(data, company, '公司名称', '公司名称', threshold=90)df

转自:https://mp.weixin.qq.com/s/NU7cHq0nMDzcRHkjI2eEZg