斩断教育黑手，支付宝又干了件大事！

作者：张生

本文首发：鸣金网（ID：mingjin-wang）(本文不代表金融纵横谈立场）

天猫上买的东西有问题，可以直接申请支付宝退款。

孩子上课的教培机构出事，再也不用担心退费无门！

一

让家长给孩子的教育付费，就像在电商平台购物一样，没有后顾之忧。

支付宝突然开枪，要干掉预付费模式，直击广大教育培训机构的命门。

10月31日，支付宝联合校宝在线发布了一款教育行业收费解决方案“学费码”，学员报名后，只要通过“学费码”交费，这笔学费就会暂时保存在支付宝上，支付宝再根据教学进度支付相应费用给教培机构。

斩断教育黑手，支付宝又干了件大事！

说白了，支付宝要干的事同在电商平台上一样，就是为用户的付费交易做担保，只不过前者解决的是消费者对淘宝卖家的不信任，后者要摆平的是家长对教培机构跑路的顾虑。

支付宝放的这个大招，彻底断了教培机构的财路，无数家长沸腾了。

二

哪里有压迫，哪里就会有变革。

支付宝此时对教育机构下手，也是硬生生被逼出来的，教育这块原本清净的场子，已经被各路资本玩成一幅烂摊子，谁都想进来捞一把。

就在两周前，老牌连锁培训机构“优胜教育”突然被曝圈钱跑路，总部人去楼空。上千人围堵在公司现场讨要学费，有家长交了45万，但同样退费无门。

斩断教育黑手，支付宝又干了件大事！

事后，这家全国知名的机构被扒出老底，出事早已注定，只是时间问题。

因为他们干的事，无非是打着教书育人的幌子，挖空心思谋划的却是如何掏空家长的口袋。

1、拼命烧钱抢地盘开分校。这样既显得实力强大，吸引到更多家长买单，还能开出更高价的学费，圈到更多的钱。新校区几个月不能回笼资金就直接关掉，再换地方接着开。

斩断教育黑手，支付宝又干了件大事！

20年间，优胜教育在全国开了1500家分校，包括员工和招聘的老师在内，人数超过1.3万人，规模甚至超过了中国最大民办教育机构好未来。

2、老师最大的任务，不是好好上课，而是卖课。老师的工资跟卖出的课时牢牢绑定，课时抽成最高占到其工资的40%，完不成指标的老师，则会被扣工资和绩效。

斩断教育黑手，支付宝又干了件大事！

为此老师们被怂恿要家长办理预存学费，存10小时，送10小时，存的多，送的多，最低5万，最高打8折。就是基于给孩子的教育着想，有家长将自己唯一的房子卖了，用来交学费，想省的更多。

3、砸钱抢名师、不计成本的广告营销，一个都不能少。跟国内那些但凡能提上名字的K12教育平台采用的手段一样，有没有经验不重要，只要是985或211毕业的学生，在他们这里都能被包装成“名校老师”。

还需要什么资格证书？没问题，自己发就行了。

斩断教育黑手，支付宝又干了件大事！

这种模式跟前几年大火的健身房骗局有的一拼，只不过一个是卖卡，一个是卖课。玩的都是“借新还旧”的旁氏游戏，死亡的方式也都大同小异，烧钱的任何一个环节出问题，最终结局都是满盘皆输。

斩断教育黑手，支付宝又干了件大事！

疫情之下，多少教培机构干的事，就跟优胜教育一样，都是一场蓄谋已久的爆雷。

家长如何敢将给孩子教育的血汗钱，放心的交给教培机构？

三

最好的办法，就是有一个中间人做担保，起初很多人都希望银行能承担这个角色，但吃力不讨好的事银行不愿意干。

近5年以来，国内基本爆完的P2P雷，把作为资金存管的银行坑了个遍，看似用户的钱存在银行，但涉及到小额、高频的交易，资金划转还得用户自己操作，而P2P平台稍做手脚，就可以将这一权限转到自己手上，到头来银行的担保人角色成了摆设，既没赚到辛苦钱，还惹得一身骚。

斩断教育黑手，支付宝又干了件大事！

将教育机构的预付费存在银行，再由家长划给教育机构，自然也面临同样的问题，打一开始就被银行拒之门外。

这个苦差事自然而然的落到了有着有十多年电商担保交易资历的支付宝身上。

支付宝一出手就直击要害，“学费码”倡导的是学员先上课再交钱，彻底颠覆了教育机构原本“先交钱后上课”的模式，等于革了教培机构的命。

用俞敏洪的话来说，“预付费就是教育机构赚钱的命根子，没有预付费，80%的机构都活不下去”。

这种自断财路的事情，多数教培机构当然不愿意干，但这却由不得他们。

已经有不少教育机构已经接入支付宝“学费码”，因为他们明白，跟当初淘宝卖家一样，是否接入全凭自愿，但当别人都支持了，你却不支持，不管是不是心虚，结果都只能是眼睁睁看着学员被抢走。

四

中国教育界一场大风暴，已经席卷而来。

有人欢喜有人忧！

家长们终于不用再提心吊胆，自己几万块交给教育机构的血汗钱，哪一天被全部卷跑。

广大教育机构的老总们，恐怕又要彻夜难眠了，大可以现在不跟支付宝合作，但圈钱的买卖还能干多久呢？

那些被金钱的铜臭味吸引而来的资本家们，再投钱的时候，肯定会悠着点了，搞不好巨款就打了水漂。

也许接下来几年内，国内教育机构会出现剧烈洗牌，很多我们现在熟悉的大牌，明年可能就看不到了。

但这绝不是坏事，教育不应该沦为资本的游戏，把满脑子都是生意、滥竽充数的所谓教育机构清理出去，这才是教育的本源。

而这样的改变，也正是国家所需，教育所需，百姓所需。

转自：https://mp.weixin.qq.com/s/1HigLC3h7295KgDnonvOcw

GitHub 标星 7.4k！Python 魔法库之 FuzzyWuzzy

来源：Be_melting

blog.csdn.net/lys_828/article/details/106489371

【导语】：还在为日常工作中不同的数据集的字段进行匹配烦恼？今天跟大家分享FuzzyWuzzy一个简单易用的模糊字符串匹配工具包。让你多快好省的解决烦恼的匹配问题！

1. 前言

在处理数据的过程中，难免会遇到下面类似的场景，自己手里头获得的是简化版的数据字段，但是要比对的或者要合并的却是完整版的数据（有时候也会反过来）

最常见的一个例子就是：在进行地理可视化中，自己收集的数据只保留的缩写，比如北京，广西，新疆，西藏等，但是待匹配的字段数据却是北京市，广西壮族自治区，新疆维吾尔自治区，西藏自治区等，如下。因此就需要有没有一种方式可以很快速便捷的直接进行对应字段的匹配并将结果单独生成一列，就可以用到FuzzyWuzzy库。

GitHub 标星 7.4k！Python 魔法库之 FuzzyWuzzy

2. FuzzyWuzzy库介绍

FuzzyWuzzy 是一个简单易用的模糊字符串匹配工具包。它依据 Levenshtein Distance 算法，计算两个序列之间的差异。

Levenshtein Distance算法，又叫 Edit Distance算法，是指两个字符串之间，由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符。一般来说，编辑距离越小，两个串的相似度越大。

这里使用的是Anaconda下的jupyter notebook编程环境，因此在Anaconda的命令行中输入一下指令进行第三方库安装。

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple FuzzyWuzzy

2.1 fuzz模块

该模块下主要介绍四个函数（方法），分别为：简单匹配（Ratio）、非完全匹配（Partial Ratio）、忽略顺序匹配（Token Sort Ratio）和去重子集匹配（Token Set Ratio）

注意：如果直接导入这个模块的话，系统会提示warning，当然这不代表报错，程序依旧可以运行（使用的默认算法，执行速度较慢），可以按照系统的提示安装python-Levenshtein库进行辅助，这有利于提高计算的速度。

GitHub 标星 7.4k！Python 魔法库之 FuzzyWuzzy

2.1.1 简单匹配（Ratio）

简单的了解一下就行，这个不怎么精确，也不常用

fuzz.ratio("河南省", "河南省")>>> 100>fuzz.ratio("河南", "河南省")>>> 80

2.1.2 非完全匹配（Partial Ratio）

尽量使用非完全匹配，精度较高

fuzz.partial_ratio("河南省", "河南省")>>> 100
fuzz.partial_ratio("河南", "河南省")>>> 100

2.1.3 忽略顺序匹配（Token Sort Ratio）

原理在于：以空格为分隔符，小写化所有字母，无视空格外的其它标点符号

fuzz.ratio("西藏 自治区", "自治区 西藏")>>> 50fuzz.ratio('I love YOU','YOU LOVE I')>>> 30
fuzz.token_sort_ratio("西藏 自治区", "自治区 西藏") >>> 100fuzz.token_sort_ratio('I love YOU','YOU LOVE I') >>> 100

2.1.4 去重子集匹配（Token Set Ratio）

相当于比对之前有一个集合去重的过程，注意最后两个，可理解为该方法是在token_sort_ratio方法的基础上添加了集合去重的功能，下面三个匹配的都是倒序

fuzz.ratio("西藏 西藏 自治区", "自治区 西藏")>>> 40
fuzz.token_sort_ratio("西藏 西藏 自治区", "自治区 西藏")>>> 80
fuzz.token_set_ratio("西藏 西藏 自治区", "自治区 西藏")>>> 100

fuzz这几个ratio()函数（方法）最后得到的结果都是数字，如果需要获得匹配度最高的字符串结果，还需要依旧自己的数据类型选择不同的函数，然后再进行结果提取，如果但看文本数据的匹配程度使用这种方式是可以量化的，但是对于我们要提取匹配的结果来说就不是很方便了，因此就有了process模块。

2.2 process模块

用于处理备选答案有限的情况，返回模糊匹配的字符串和相似度。

2.2.1 extract提取多条数据

类似于爬虫中select，返回的是列表，其中会包含很多匹配的数据

choices = ["河南省", "郑州市", "湖北省", "武汉市"]process.extract("郑州", choices, limit=2)>>> [('郑州市', 90), ('河南省', 0)]# extract之后的数据类型是列表，即使limit=1，最后还是列表，注意和下面extractOne的区别

2.2.2 extractOne提取一条数据

如果要提取匹配度最大的结果，可以使用extractOne，注意这里返回的是元组类型，还有就是匹配度最大的结果不一定是我们想要的数据，可以通过下面的示例和两个实战应用体会一下

process.extractOne("郑州", choices)>>> ('郑州市', 90)
process.extractOne("北京", choices)>>> ('湖北省', 45)

3. 实战应用

这里举两个实战应用的小例子，第一个是公司名称字段的模糊匹配，第二个是省市字段的模糊匹配

3.1 公司名称字段模糊匹配

数据及待匹配的数据样式如下：自己获取到的数据字段的名称很简洁，并不是公司的全称，因此需要进行两个字段的合并 GitHub 标星 7.4k！Python 魔法库之 FuzzyWuzzy

直接将代码封装为函数，主要是为了方便日后的调用，这里参数设置的比较详细，执行结果如下： GitHub 标星 7.4k！Python 魔法库之 FuzzyWuzzy

3.1.1 参数讲解：

① 第一个参数df_1是自己获取的欲合并的左侧数据（这里是data变量）；

② 第二个参数df_2是待匹配的欲合并的右侧数据（这里是company变量）；

③ 第三个参数key1是df_1中要处理的字段名称（这里是data变量里的‘公司名称’字段）

④ 第四个参数key2是df_2中要匹配的字段名称（这里是company变量里的‘公司名称’字段）

⑤ 第五个参数threshold是设定提取结果匹配度的标准。注意这里就是对extractOne方法的完善，提取到的最大匹配度的结果并不一定是我们需要的，所以需要设定一个阈值来评判，这个值就为90，只有是大于等于90，这个匹配结果我们才可以接受

⑥ 第六个参数，默认参数就是只返回两个匹配成功的结果

⑦ 返回值：为df_1添加‘matches’字段后的新的DataFrame数据

3.1.2 核心代码讲解

第一部分代码如下，可以参考上面讲解process.extract方法，这里就是直接使用，所以返回的结果m就是列表中嵌套元祖的数据格式，样式为: [(‘郑州市’, 90), (‘河南省’, 0)]，因此第一次写入到’matches’字段中的数据也就是这种格式

注意，注意：元祖中的第一个是匹配成功的字符串，第二个就是设置的threshold参数比对的数字对象

s = df_2[key2].tolist()m = df_1[key1].apply(lambda x: process.extract(x, s, limit=limit))    df_1['matches'] = m

第二部分的核心代码如下，有了上面的梳理，明确了‘matches’字段中的数据类型，然后就是进行数据的提取了，需要处理的部分有两点需要注意的：

① 提取匹配成功的字符串，并对阈值小于90的数据填充空值

② 最后把数据添加到‘matches’字段

m2 = df_1['matches'].apply(lambda x: [i[0] for i in x if i[1] >= threshold][0] if len([i[0] for i in x if i[1] >= threshold]) > 0 else '')#要理解第一个‘matches’字段返回的数据类型是什么样子的，就不难理解这行代码了#参考一下这个格式：[('郑州市', 90), ('河南省', 0)]df_1['matches'] = m2
return df_1

3.2 省份字段模糊匹配

自己的数据和待匹配的数据背景介绍中已经有图片显示了，上面也已经封装了模糊匹配的函数，这里直接调用上面的函数，输入相应的参数即可，代码以及执行结果如下：

GitHub 标星 7.4k！Python 魔法库之 FuzzyWuzzy

数据处理完成，经过封装后的函数可以直接放在自己自定义的模块名文件下面，以后可以方便直接导入函数名即可，可以参考将自定义常用的一些函数封装成可以直接调用的模块方法。

4. 全部函数代码

#模糊匹配
def fuzzy_merge(df_1, df_2, key1, key2, threshold=90, limit=2):    """    :param df_1: the left table to join    :param df_2: the right table to join    :param key1: key column of the left table    :param key2: key column of the right table    :param threshold: how close the matches should be to return a match, based on Levenshtein distance    :param limit: the amount of matches that will get returned, these are sorted high to low    :return: dataframe with boths keys and matches    """    s = df_2[key2].tolist()
    m = df_1[key1].apply(lambda x: process.extract(x, s, limit=limit))        df_1['matches'] = m
    m2 = df_1['matches'].apply(lambda x: [i[0] for i in x if i[1] >= threshold][0] if len([i[0] for i in x if i[1] >= threshold]) > 0 else '')    df_1['matches'] = m2
    return df_1    from fuzzywuzzy import fuzzfrom fuzzywuzzy import process
df = fuzzy_merge(data, company, '公司名称', '公司名称', threshold=90)df

转自：https://mp.weixin.qq.com/s/NU7cHq0nMDzcRHkjI2eEZg