​“短缺”的囚笼,危逼全球!

万物皆涨,正在击溃旧钱堆起来的财富大厦。

 

世界范围内的财富地缘正在发生深刻改变。


1

涨价!涨疯了!

而且这种疯,正在击溃全球一切卑微的体面。

不缺煤的中国,煤炭今年8月到现在,现货价翻了3倍,背靠着北海油田的英国和欧盟,天然气价格涨了6倍多,就连能源自给的美国,原油价格也涨得六亲不认。

国内动力煤主力合约,从8月17日的750历史高点震荡区,几乎是在近几周时间,连续以涨停板又狂拉了一倍多。

注意期货是有杠杆的,这一波涨幅基本够空头爆十次仓的。

​“短缺”的囚笼,危逼全球!

有个卖尿片的倒霉蛋上市公司,因为重仓做空,两周亏1.5个亿,造成业绩巨亏。

火冒三丈的股民们直接开骂“你说你一个卖尿片的去炒什么期货,该!”

 

​“短缺”的囚笼,危逼全球!

 

欧洲天然气价格涨了6倍多,看看下图红线代表欧洲天然气价格,年内从60左右直接干到了380以上。

亚洲和美国的涨势也基本趋同。

​“短缺”的囚笼,危逼全球!

我们看原油价格最近几天也突破了2018年的前高85左右,高位站稳之后,会不会直接干到2015年的110?

概率越来越大。

​“短缺”的囚笼,危逼全球!

煤炭,天然气和原油这是全球通胀的“锚”。

 

我们所有的社会经济行为都锚定在一篮子化石能源之上。

如今他们都在凶猛地上涨,如果谁现在还在说对通胀没有影响,不是坏就是蠢。

现实骑到脸上摩擦了,需要忧虑一下通胀了。

而且这个节点已经不是遥远的未来,而是正在发生的事实。

我们的衣食住行那一样不需要“电”呢?

这是我们赖以生存的基础。

如今基础有点不稳了,需要紧急思考一下应对之策了?

每个人都不是局外人。

2

9月份PPI 10.7,市场上说的够多了。

我的观点很明确,当这样一个极度宏观正确的数据,竟然今年拉出了“涨停板”的气势,说明什么呢?

说明,远未到顶。

煤炭、天然气、原油、有色……

一环扣一环,表面上好像一夜之间,世界从产能过剩变成了一个极度稀缺的世界。

什么都缺。

 

而且缺的头皮发麻。

这是今年最大的一个改变,稍微有点敏感度的朋友就能够明白,这里面包括世界产业链的底层一定发生了重大变化。

变化是什么呢?

中美欧盟三巨头正在步调一致地主动进行“产业链洗牌”。过去产业财富积累的逻辑正在发生深刻巨变。

“双碳目标”=挖掉了上百年来财富积累的根基。

碳是什么?

是第二次工业革命的根基,内燃机,蒸汽机,核心就是烧化石能源,把化学能通过一定的转换比转换为电能。

这里面要完成工业化的核心就是“堆碳”。

 

如果绝大多数后发追赶国不能再以“堆碳”的方式完成资本的原始积累,那几乎堵死了数十亿人的财富之门。

 

不是所有的国家都有资格谈“科创突围”的。

 

△第二次工业革命的英国

未来三巨头说了,以后咱们兄弟们不能“拼碳了”,因为地球扛不住。

那这就几乎就是要挖掉现有发展中国家工业化的根基,从工业化的地基层——能源重新把产业链再洗一遍。

游戏玩了一半,我都买了会员了,你突然说这个游戏不行了,大家重新从新手村开始玩。

 

天空飘来发展中国家的一顿:“流氓,我X!!”

如果说人类的实体产业资产70万亿美元的话,那这场运动就是无差别所有实体产业的的底层能源革命。

以上还不是最关键的。

这场席卷全球的国家竞争,看似很热闹,但其实能够有实力上牌桌的屈指可数,因为目前能够拿出全人类的稳定“绿能解决方案”的是需要天量成本投入的。

一个简单的问题:有谁能把光伏发电到使用的成本降到比煤电还便宜呢?

国家间的竞争,说什么不重要,把事干成才最有说服力。

为什么要搞特高压?

为什么要搞国际空间站?

为什么要几十年砸钱光伏产业?

为什么要搞最庞大的新基建?

……

一系列当下看似赔钱的宏大工程,都是在为未来的产业红利爆发做着充足的准备。

单就新能源这一个赛道,未来大概率会出现超十家万亿企业。

 

市场蛋糕太大了!

 

几乎要再造一个“绿电的中东”,请问中东值多少钱?

从实体产业的对手盘房地产也能够理解当下的改革定力。

大家到目前也很难理解:为什么房住不炒如此坚定?为什么对三座大山下手这么重?

那是因为有更大的蛋糕要去争夺。

熙熙攘攘皆为利往,如果不是蛋糕足够的大,我们有必要夜以继日的搞这么多超前新基建吗?

基建不赚钱,赚钱都是未来基建之上的“新产业生态”。

前文我们说过一个问题:中国如果解决了14亿人产业和生活稳定的绿电供应,这个宏大的中国方案里又有多少技术的红利呢?

稳定的绿能供应方案,本身就可以带来大量净利润流入。

这就是我一直重复的一个观点,当下和未来我们所做的一切成本投入,都是为了中国这14亿人在在全球产业链中能分的更多。

有钱,旧的债务风险也就在发展中化解了。

3

未来无论是科创突围,还是更加宏大的产业质量升级,背后的潜台词都是用尽全力在增加中国产业的“利润顺差”。

这跟以前的贸易“营收顺差”是有本质区别的。

这就是当贸易总量增长遇到天花板的时候,不去追求利润含量还能怎么办呢?

更何况外部的压力倒逼,这不是你参与不参与的问题,而是参与了就不能输的问题。

因为输了,代价很大。

至于代价有多大,已经超出了文字媒体能够表达的红线。

大家自己理解吧。

有人说:“既然要变革,我们慢慢换不就行了?”

直接问自己一个问题:旧的能源供给体系会自发地站起来离场吗?

必然不会。

这就需要重新设计一套,新的能源供给侧改革,在这个新的游戏规则里,要让传统的煤电要么自行退出,要么亏损出局。

最近动力煤价格涨到天上,煤电的能源供应模式已经没有利润可言,如果你现在还没有承受限电的苦,说明还有一大帮煤电厂在替你扛着代价。

属于一边哭,一边搬砖的剧情。

目前下游的电价上浮天花板是20%,最近市场成交的形势是基本都是20%顶格,说明我们的电价上涨已经是不可不为的事情。

现在的问题是,民生电价要像欧美那样翻倍的涨吗?

短期内很难,但压力肯定有。

只要上游煤炭天然气价格还在继续飙升,那么我们整个电力供应的高成本就是事实。

不涨电价,要么把资源价格打下去,要么等着兜底煤电厂的债务风险,或者寄希望于绿色能源的革命性突破。

资源价格短时间内打下去够呛,煤电能源供应链的债务风险已经出现,绿色能源革命这件事情远水解不了近渴。

怎么办?

这个世界没有既要安全,又要实惠的好事情,能源短缺这件事情或将成为常态。

要习惯电价上涨的新周期,2021电力市场化才刚刚开始。

电,是供给端的最基础成本,越来越“贵”的时代已经不可避免。

转自:https://mp.weixin.qq.com/s/tlJNRXZ0UL-8edF_kPjEzA

2021上海高考英语均分出炉,相比中考为什么“断崖式下跌”?如何突破分数瓶颈?

2021上海高考英语均分出炉,相比中考为什么“断崖式下跌”?如何突破分数瓶颈?

2021年上海高考英语平均分等相关数据出炉,1月最高分147,均分94.17;6月最高分143,均分96.96;最终成绩最高分147,均分100.37。

 

2021上海高考英语均分出炉,相比中考为什么“断崖式下跌”?如何突破分数瓶颈?

 

2021上海高考英语均分出炉,相比中考为什么“断崖式下跌”?如何突破分数瓶颈?

 

相比之下,中考英语从得分情况来看就要友好得多了。

 

2020上海中考英语得分情况网传图:

 

2021上海高考英语均分出炉,相比中考为什么“断崖式下跌”?如何突破分数瓶颈?

 

对比上海中考英语的均分,高考英语均分显然大大降低。

 

具体降了多少呢,我们不妨看下2019年上海中考各科的均分情况:

 

2021上海高考英语均分出炉,相比中考为什么“断崖式下跌”?如何突破分数瓶颈?

 

实际上这几年,上海中考英语均分差不多都在125分左右。而高考英语均分一般都在100分左右(通常低于100分)。也就是从中考英语到高考英语,均分下降了有25分之多。

 

高中英语难在哪?

 

那么上海高考英语的均分为什么相比中考英语差这么多呢?高考英语到底难在哪里呢?回答这些问题,首先务必要了解,最显著的差异在哪里。

 

中考和高考最直观的差距是词汇量的要求,中考词汇量不到2000个,一模之类的考试可能会有少量超纲词汇,但中考词汇基本都是考纲内词汇。

 

而高考词汇量在3500个左右,但实际考试中远不止3500个。一般要记忆5000个以上的单词才能对高考试卷中出现的单词勉强应对,还要掌握构词法!

 

除此之外,初高中语法考查的难度和灵活度也不是一个级别。大家可以感受一下初高中英语的对比:

 

 

正是因为这样的难度,每年上海高考英语考得低的学生可能只能考到80分,但是顶级学霸还是有考140+的,所以上海高考英语的区分度很大

转自:https://mp.weixin.qq.com/s/06fCBfJu7keR67NxAA2QFg

留学生一月一万不够花, 恶毒辱骂北大父亲:普通人真的不能富养儿

留学生一月一万不够花, 恶毒辱骂北大父亲:普通人真的不能富养儿

留学生一月一万不够花, 恶毒辱骂北大父亲:普通人真的不能富养儿

北大毕业、上海某财经媒体主编,省吃俭用供女儿留学,只因难以满足女儿留学时的高消费,多说了几句,这个老父亲就被女儿无情网暴、辱骂。

在一个“父母皆祸害”的互联网环境下,这个女儿的恶劣行为引发众网友声讨,也不由让为人父母心有戚戚:我们费劲心力托举的孩子,到头来怎么会变成这样?

作者:橡树君。如果您喜欢蓝橡树的文章,请记得要把我们“设为星标”哦!

………………………………….

 

一、一万块生活费不够用

女子恶意辱骂亲生父亲

这两天,一则“留学生因生活费不足辱骂父亲”的消息,在各大网站刷屏。

整个事件看得人目瞪口呆、血压飙升!

 

我已经找不到词汇来形容我震惊的程度了,三观一次又一次地被这个声讨自己父亲的女孩践踏!

事情是这样的,这位网名为「魔法猪」的23岁女孩在西班牙留学,有天刷了父亲的信用卡,父亲过问了两句,并交代了女儿尽量控制把开销控制在1万元以内,不要超出。

女儿接下来的反应,就有点魔幻了,真不是一个常人能想象出来的……

留学生一月一万不够花, 恶毒辱骂北大父亲:普通人真的不能富养儿

看到这里似乎还好,只觉得这孩子怎么只知道索取、不懂事。但后面的聊天内容,就让人目瞪口呆了。

留学生一月一万不够花, 恶毒辱骂北大父亲:普通人真的不能富养儿

留学生一月一万不够花, 恶毒辱骂北大父亲:普通人真的不能富养儿

留学生一月一万不够花, 恶毒辱骂北大父亲:普通人真的不能富养儿

“爸爸已经51周岁了,已经老了,没有能力一直养你。”

 

通过聊天记录,看得出这对父女在相处过程中,父亲一直是比较卑微和讨好的,跟女儿说起话来小心翼翼。但这位23岁的巨婴女儿始终理直气壮——养不起当年就不要生本仙女呀!

更令人大跌眼镜的是,这段女儿完全不占理的聊天记录,被她亲自挂到了网络上,配辱骂性的文字,引导网友去网暴她父亲。

留学生一月一万不够花, 恶毒辱骂北大父亲:普通人真的不能富养儿

一万元人民币,到底够不够在西班牙生活呢?

在西班牙的同学表示,其实是够的。

西班牙在欧洲消费偏低,一个月1w块在当地消费高一点的城市生活,都可以说是绰绰有余,何况她是在西班牙的三线小城市生活。

留学生一月一万不够花, 恶毒辱骂北大父亲:普通人真的不能富养儿

留学生一月一万不够花, 恶毒辱骂北大父亲:普通人真的不能富养儿

 

有的留学生在消费较高的英国,一个月下来也用不到1w块……

 

留学生一月一万不够花, 恶毒辱骂北大父亲:普通人真的不能富养儿

留学生一月一万不够花, 恶毒辱骂北大父亲:普通人真的不能富养儿

即便父母的支持有限,留学生在国外过得拮据,很多留学生表示,自己会尽量自己做做兼职,挣点外快,开源节流。这样理直气壮讨要生活费不成,还网爆亲生父亲的事情绝对不正常!

留学生一月一万不够花, 恶毒辱骂北大父亲:普通人真的不能富养儿

留学生一月一万不够花, 恶毒辱骂北大父亲:普通人真的不能富养儿

更何况,根据这位父亲网上曝光的信息,他并非什么豪门、富二代,一日三餐清汤寡水,连块牛排都舍不得吃……可以说,也是拼劲全力才能把孩子送出国。

留学生一月一万不够花, 恶毒辱骂北大父亲:普通人真的不能富养儿

留学生一月一万不够花, 恶毒辱骂北大父亲:普通人真的不能富养儿

不知道父亲在对女儿说出这些话的时候,能不能唤醒女儿的一点点良知呢?

 

应该是没有吧。

二、父亲是北大毕业生?

网友深扒发现,这位网曝父亲的女儿「魔法猪」可不是什么了不起的高材生,留学是因为在国内实在读不下去了,只能出国镀金。

 

而且,这也不是她第一次网曝父亲了。

 

几年前,这位父亲就打算先送女儿去专科语言学校学习一年语言,再去西班牙留学。结果一年下来,语言学习基本上啥也没学会,出国无望,父亲就放弃了送女儿出国这个念头。

 

留学生一月一万不够花, 恶毒辱骂北大父亲:普通人真的不能富养儿

 

谁料想女儿开始闹了起来,为了“报复”爸爸,她将他的隐私曝光,公开其个人信息,并呼吁网友网暴他,甚至扬言,谁网暴她的父亲,她就给谁发裸照。

 

在她的QQ空间里,她直接贴出自己父亲的照片,打上几个红色大字:北大毕业生不愿意供女儿读书。

 

留学生一月一万不够花, 恶毒辱骂北大父亲:普通人真的不能富养儿

这位老父亲竟然是北大毕业生!当年的北大毕业多金贵啊,可不比现在的藤校厉害?!父亲如今在上海做财经主编,父母在2015年离婚。

 

迫于女儿的威胁,这位父亲只能妥协,将女儿送去了西班牙留学。

送出国容易,供养一个挥霍无度的留学生,让老父亲喘不过气来。除了学费外,还要额外给1万人民币的生活费,家中还有一个妹妹要养。

他告诉女儿尽量控制一下开销,却被她视作在“卖惨”。

 

“老家伙,养不起本仙女当年就别生啊。”

与那些聊天记录一起在网上流传的,还有几段她拍爸爸的正脸视频。

 

留学生一月一万不够花, 恶毒辱骂北大父亲:普通人真的不能富养儿

 

在她曝光的一段视频里,因为她睡到中午12点还没起床,父亲敲门后进门叫她起床,结果她大发雷霆,歇斯底里吼叫。

父亲耐心给她讲道理,让她早睡早起,她却在另一边吼叫,认为父亲应该督促自己早睡早起。

 

除了曝光父亲的隐私、谩骂父亲,她还在网上辱骂自己的母亲是瘟猪、疯猪:

留学生一月一万不够花, 恶毒辱骂北大父亲:普通人真的不能富养儿

她在社交平台发污言秽语被父亲知道了,一度想和她断绝父女关系:

留学生一月一万不够花, 恶毒辱骂北大父亲:普通人真的不能富养儿

父亲甚至请了律师和女儿进行沟通:

留学生一月一万不够花, 恶毒辱骂北大父亲:普通人真的不能富养儿

种种事迹,看得众多网友气不打一处来,于是就去扒了扒这位奇葩女子,这不扒不知道,一扒……更让人目瞪口呆了!!!

三、拒绝隔离跳窗逃跑的留学生

居然是她?

不知道大家还记不记得,去年疫情严重的时候,有位留学生从国外回来,因为不想隔离,从大巴车上跳窗逃跑,一众穿厚重防护服的医护人员和警察追在她屁股后面跑的事件。

万万没想到,跳窗女主居然就是她!

 

留学生一月一万不够花, 恶毒辱骂北大父亲:普通人真的不能富养儿

 

是的,就是这位辱骂自己亲生父母的留学生,谁也想不到,跳窗女主的故事,如今居然还能等到个这样的后续……电视剧怕是都不敢这么写吧!

只见当时的她,背着背包,从窗户爬出,此举惊呆众人……

 

留学生一月一万不够花, 恶毒辱骂北大父亲:普通人真的不能富养儿

 

她是怎么说的呢?

“跳下去就是跑跑步,活动下身体。”

 

留学生一月一万不够花, 恶毒辱骂北大父亲:普通人真的不能富养儿

据当时网友爆料称,当时她是卡着37.3度的最高体温坐上的飞机。

入住隔离酒店时,还不提供证件、也不交钱,耽搁了好一会。

 

留学生一月一万不够花, 恶毒辱骂北大父亲:普通人真的不能富养儿

 

事发后,她非但不知悔改,反而还在网上和网友互骂了起来,骂的是真的脏……

留学生一月一万不够花, 恶毒辱骂北大父亲:普通人真的不能富养儿

 

留学生一月一万不够花, 恶毒辱骂北大父亲:普通人真的不能富养儿

 

留学生一月一万不够花, 恶毒辱骂北大父亲:普通人真的不能富养儿

据悉,她还会在社交平台分享自己的日常生活、甚至是性行为,有时会哭哭穷,哭穷的目的是啥呢?emmm求包养。

留学生一月一万不够花, 恶毒辱骂北大父亲:普通人真的不能富养儿

她曾在网上发过大量不堪入目、无法直视的照片、视频,还有一些疑似自残的照片:

留学生一月一万不够花, 恶毒辱骂北大父亲:普通人真的不能富养儿

 

留学生一月一万不够花, 恶毒辱骂北大父亲:普通人真的不能富养儿

一波又一波迷惑操作,属实是给我看懵了。

 

四、

不少人觉得难以对此事做出评判,网友对此事大致有三种看法:

有人觉得或许是父女俩人不能互相理解,父亲教育方式不当,女儿无法体谅父母,所以才导致今天这个局面。

也有人觉得父亲做得已经够好,这个女儿太过分、过于自私,精神不正常。

还有人觉得,女儿或许是被父亲逼成这样的。

我个人倾向于认为这个女孩的精神可能有些问题:正常人可干不出这事!即便有天大的原生家庭的问题,成年人还是要为自己负责,尽力消除原生家庭对自己的负面影响。

 

如果一定要找这位父亲有什么地方做得不对的话,我认为当年他就不该迫于压力送女儿出国。对这个女儿,他不是不爱,而是太爱,近乎溺爱。

 

留学本是一件量力而行的事,当他没有做好送孩子出国的经济准备,却硬着头皮上的时候,等待他的就只能是悲剧了。

家家有本难念的经,可怜了这位老父亲,北大毕业、上海的财经主编,如果不是生下这种女儿,那妥妥是一个令人羡慕的的人生,结果现在全毁了……留学生一月一万不够花, 恶毒辱骂北大父亲:普通人真的不能富养儿

转自:https://mp.weixin.qq.com/s/ckG8DYOfanHIwb5zgKjutA

鲍威尔都得新冠死了,感染那么多人,美国为啥还没崩溃?

这个话题是这几天闲逛的时候无意中看到的,尤其这两天著名的“洗衣粉举报者”鲍威尔也死了,更有不少人纳闷美国到底会不会一蹶不振,其实想想就知道,印度都没崩溃,美国又能发生什么事呢。
不过疫情暴发这两年来,太多人看了无数的美国倒霉新闻,觉得总得伤筋动骨了吧,为啥好像影响并不大?难道美国真的可以通过不断印钱来挺过一次又一次危机?今天就来聊下这个话题。
 

1

 美国到底是一个什么样的国家

中国对美国有个很大的误解,就是用我们自己的很多观念去揣摩那个大洋彼岸的国家,其实很多东西底层架构也不太一样,所以很难理解。
 
比如最基本的一个,美国从一开始就是一个个殖民地组成的联盟,有点像我们古代的部落联盟,散布在现在东海岸边上,各个殖民地互相之间关系也不太好,观念也不尽相同。
 
殖民地的人到达美洲的原因各有不同,有的是欠了一屁股钱还不上,到美洲做奴隶抵债来了(契约奴)。还有一部分是在宗教战争中打不过别人,只好出逃,往往欧洲和英国那边的天主教占了上风,一堆新教的人就会跑到美洲;过几年新教的人又占了上风,要清算前几年天主教做过的恶,一堆天主教的人又被迫出走。此外还有在欧洲各种混不下去的人,爱尔兰大饥荒,遍地白骨,一堆爱尔兰人去了美洲;犹太人被迫害,一堆犹太人也去了美洲。
 
这些人到了美洲后并不觉得自己是同一个国家的人,互相各自为战,呆在营地里持枪种地,美国人很长一段时间都是一群武装农民,一直到内战结束后开始大搞工业。
 
由于互相之间充满敌意,殖民地周围还有敌意更大的印第安人,殖民地彼此发生劫难也很少去帮忙,各个殖民地往往倾向于竭力自保。
 
恐惧源于火力不足,所以殖民地内部要求小孩还没枪高的时候就练习射击,美国人从一开始就是一个“枪管下的国家”,现在大家理解了为啥美国根本不可能禁枪了吧,每年死那么多人,也动摇不了他们持枪的决心。
 
美国关于枪支、社区、保甲之类的观念都早于美国成立,甚至早了一百多年,也就是说,还没美国的时候,这些观念已经写死在美国社会基因里了。同理,放高利贷,搞诉讼,这些事也比美国这个国家早得多,法律和金融体系都比美国政府成立的都早,美国政府对改造社会一直也不太上心,所以美国和印度一样,都是几百年的老垃圾都在那里堆着,并且不觉得有啥问题。
 
但是跟印度不一样的是,美国确立了一套复杂的保护私有财产的机制,当初美国刚成立那会儿,一群代表立宪会议吵成那样,一个关键的议题就是“一些王八蛋通过肮脏手段得到的钱是不是该得到保护?”,或者说,“政府欠王八蛋的钱还不还?”,因为当时美国为了打仗发了一堆债,这些债都被少数有钱人以极低的价格拿在了手里,如果政府还钱的话,这些人立刻就会富可敌国。问题是这些人全是发国难财的王八蛋,国家需要钱的时候他们躲到一边,听说政府要还钱,有到处低价收购债券(当时信息不对称,不少人以为国家不还钱了,于是把债券当纸巾卖了)。
 
最后决议的结果是“王八蛋的私有财产只要不违法,政府依旧承认,政府欠的钱也会继续还“。
 
所以立宪会议的意义很多人都弄错了,真正的意义有两个:
 
一是私有财产会继续得到保护,美国打从一开始就是一个对富人极其友好的国家。这就为后来美国人强大的进取精神埋下了伏笔,只要搞到钱就是你自己的,自发鼓励贪婪,鼓励不择手段,先对内养蛊,然后蛊王再去掠夺别人。
 
二是美国政府欠债必还,这也是后来美国国债系统的基石,美元后来成了世界货币,原因很多,不过这次宪法讨论无疑是基石,美元是以美债为抵押,美债不违约,美元就可以一直混下去。
 
美国建国后继续维持以前那种一个个高度自治的小团体和社区最后拼成一个国家的模式,而且那时候地广人稀,每个聚集区之间的距离大到离谱,政府也管不过来。
 
很长一段时间里,美国都是社区内部自己管自己,社区内部推选一个负责人,社区也有自己的武装,后来这些武装慢慢演变成了现在的警察。大家如果注意到,就发现美国各地的警察造型差异很大,这也是他们历史上一直延续下来的
 
甚至社区内官方不愿意管,大家就让黑社会管,类似《教父》里那样,德高望重的黑社会大佬给大家主持公道,乍一看觉得很奇怪,仔细想想也觉得挺正常。殖民地碰上危险也是自己解决,比如印第安人来袭,墨西哥人来犯,如果等政府军来救,可能收尸都收不到完整尸了,所以男女老幼能挂枪的都得一起上。
 
直到现在,美国依旧鼓励老百姓持枪自卫,不要等警察,而且警察就算来了,他也有审时度势的权利,如果觉得自己势单力薄打不过劫匪,可以开车溜走。
 
所以他们对枪有种变态的执念,枪就是全家的生命所在,枪就是安全本身,自己的事自己解决,等政府还不如等上帝。南北战争之后更是有句话,“林肯给了所有奴隶自由,而柯尔特使这些奴隶获得了平等”,啥是柯尔特,就是下边这个,这枪就是一个叫柯尔特的人发明的:
鲍威尔都得新冠死了,感染那么多人,美国为啥还没崩溃?
把这些逻辑串起来,就差不多了解了他们这种民族性(就算他们有民族吧)。
 
首先美国从建国就是一个极度分化的国家,鼓励冒险和进取,一直都是赢家通吃,巨富真的是富可敌国,普通人只能自己看着办了。
 
不过美国这个国家运气特别好,一直都是红利不断,早年有土地红利,那么大的北美大陆,任由美国一个国家闹腾,后来又有了两次世界大战,加上这个国家对富人极度友好,全世界的富人都往美国跑,普通老百姓也能沾到光,毕竟富人也需要人给他们看家护院当保姆,大家可以了解下北上深富人家庭保姆的价格,跟名校毕业生差不多,有名校毕业生干脆也去做保姆了。
 
美国历史上有过那么一段时间,罗斯福时期到里根,高税收高福利,但是那些年政府开支太大,欠了一屁股钱,滞胀了,所以里根开始大幅砍掉福利,慢慢发展成我们现在看到的样子了。
 
其次他们的政府本来就管得少,基层自治早于政府出现,老百姓自己管自己,出了问题那是你自己的问题。
 
如果强行类比,有些国家的老百姓跟政府的关系像是孩子和家长的关系,孩子出了啥事,家长都得管。但是美国政府和老百姓的关系,有点像毕业后的孩子和家长的关系,父母很少强迫孩子去做啥,孩子倒了霉也不会觉得是父母的问题。
 
把这些理解了,再看这次疫情,就没啥不明白的了。

2

 疫情下的美国

我第一次去美国,就发现这个国家只要你愿意,可以用手机镜头拍出两个国家来。
 
首先是巨埋汰的市区,穷人和无家可归者呆在那里,乱七八糟,垃圾满天飞,连麦当劳窗户上都装了防弹玻璃和铁丝网,一副末日景象。
 
但是如果出了城,路过一个个富人区,别墅样式的房子一直延展到天边,绿油油的树,干净的马路,给人感觉这才到了一个发达国家。
 
从老百姓层面看,太多人傻白甜到弱智的地步,连两位数加法都弄不明白,很多人说有计算器就可以了,不过现实里如果两位数加减法都弄不明白,思考更复杂的问题就会很痛苦,人就倾向于做点头脑简单的事,时间长了脑子越来越简单。
 
但是作为软件从业者,我们又很清楚类似Oracle(数据库)、Matlab(数学软件)、Synopsys(芯片设计),CAD(绘图),这些复杂又精细的软件基本都被美国控制着,而且我国最顶尖的公司暂时也搞不出来,搞出来也没啥市场空间,这些软件都融入到了我们的生活,现在几乎每个用手机的人天天都得间接使用这些软件。
 
也就是说,这个国家上限非常高,下限非常低。
 
仔细理解下,美国这个国家就是那种类似自然界的模式,赢家通吃,极度的奖励强者,这两天看到新闻,说是马斯克的身价已经超过了比尔盖茨和巴菲特的总和,如果他的财富跟国家排序,能排到全世界前50,真正意义上的富可敌国。如果你足够牛逼,足够有创造性,他们可以动员天量的资源供你使用,你能做的事更大,成就也就更多。
 
用一个经济学家的话说,美国两百多年,其中有一百多年引领世界,靠的不是全部美国人,而是极度依赖一小撮极具创造性和突破性的美国人,这些人创立了美国的国债制度,这些人研发出了原子弹和计算机,开创了一个又一个新领域,其他人跟在这些人后边喝汤。
 
把这些逻辑理解了,就能明白美国人真正的优势在哪,它的制度对那一小撮头部的人极度友好,他们犯了错给容错机会(他们的破产制度),他们有了成就就给难以想象的奖励。这种情况下全世界顶级人才自然会向他们聚集。
 
头部这些人一直以来都是美国的关键核心竞争力,这次疫情中,他们几乎没受影响,马斯克的火箭一直发不停,电动车迭代比火箭快得多,苹果的产品发布也基本没落下。美国就算伤亡再大一些,有影响,但是不会太过伤筋动骨。而且这次疫情主要死的是老年人,那就更没感觉了。
 
而剩下的人,脑子秀逗了似的,却有种自己管自己的觉悟,平时不太相信政府,碰上麻烦也不指望政府。
 
把这些综合起来,就能发现,他们的老百姓对政府要求很低,又有一个强劲的火车头拖着,糗事不断,但是好像混的又很滋润。
 

3

 美元霸权能撑多久?

国内不少人对美元崩溃这事还是太急,觉得就这样滥发货币,应该就在眼前了,然后发现这都过去这么久了,依旧没崩,所以自己有点崩。
 
其实想想就知道了,美元那么强,并不是最近才强起来的,是过去两百多年的一个延续,就好像老财主家的孩子只要不创业,很难真的坐吃山空一样,美国这几年的各种败坏,本质也是在消耗以前的信用。如今的美国没法跟二三十年前比了,但是依旧还有很长的大斜坡要走。
 
大家理解美元为啥这么强,一般都说美国海军的军事霸权,美国海军天下无敌,所以美元霸权比较坚挺。
 
其实这只看到了一小部分,美元本身是一种货币,一张纸能买东西,因为它融入了信用,美元现在这么强势,跟它的信用有很大的关系。
 
很多人不理解信用这事,以为拳头大信用就强,其实不是,明朝政府用屠刀逼着老百姓用宝钞,大家照样把那玩意当卫生纸。黄金背后没有一支军队逼着使用,但是谁都喜欢黄金,稍微有点风吹草动就屯黄金。货币不言,下自成蹊。
 
大家现在想想,连萨达姆、苏联成员国总统家族、包括最近倒台的阿富汗政府首脑,手里都握着大量的美元,也就是你跟美国为敌,但是美国的货币你依旧优先持有,这种情况是怎么发生的?
 
其实就是你知道你手里有美元,就能花出去,那把问题再往前推一步,为啥大家都相信美元能花出去?
 
因为现在地球上生活的人有生之年,大家都有个常识:有美元就能花出去。不仅如此,有美元就可以去美国呆着,如果不满意又可以随时离开。大家看过《潜伏》吧,那里边国府大员都在搞美元,要知道,那时候的美元还跟黄金没挂钩,大家也不在乎什么金本位,大家只在乎能不能花出去。
 
那为啥大家的这种信心又是哪来的呢?
 
其实追根溯源,就是当时汉密尔顿他们在立宪的时候说美国今后无论如何也要还债,无论是欠别人的钱,还是欠自己老百姓的钱,大家已经习惯了这种欠债必还的决心。这就有点像那种信用很好的黑社会,杀人贩毒搞色情,但是确实信用很好,欠债必还,大家都愿意跟他打交道。
 
啥是国债?
 
就是美国政府签了一张欠条,说这张欠条有利息,谁愿意买,如果你愿意,你就拿手里的美元去买,相当于你把钱借给了美国政府。美国刚建国那会儿,政府欠了一屁股钱,很多人都不想还,但是汉密尔顿坚持要还,他甚至认为,欠钱是好事,一直欠一直还,周围的人就愿意借给你。他甚至跟大家讲,英国人信用好,欠债必还,到最后跟荷兰法国西班牙俄国开战,那些国家的人都买英国国债,给英国提供炮弹。
 
事实上现在美债持有外资持有6.77万亿美债,外资是中国日本沙特等国,这些海外持有者加起来26%,美国国内投资者持有19.23万亿的美债,约占美债总规模的73.9%,也就是美债的绝大部分都是美国老百姓拿着,要违约也是先坑自己。
 
难道他们不知道美元越来越垃圾?当然知道了,只是垃不垃圾是比出来的,如果你持有印度货币,哪天印度政府突然说以前货币不好使了,赶紧去换新的,毕竟他们刚干了这事。
 
你持有俄罗斯货币,俄罗斯哪天还不上国债(1998年就违约了一次,一群诺贝尔经济学奖获得者搞出来的长期资本就是那次危机中倒闭的),你手里的卢布也跟着大幅贬值一轮。美元贬值后,你依旧可以随时把它换成任何你想要的东西,这在其他货币那里基本上没法这么搞。
 
所以说吧,指望美元霸权彻底崩了,还得等到一种大家都认同的货币取代它,而且这种货币本身得信用好,不仅信用好,而且这种好的状态得持续很多年,这样才能慢慢在大家心里扎下根。等到愿意接受这种货币的人越来越多,这种新货币慢慢跟美元平分秋色,如果没有决定性的战争什么的,就算打成平手,接下来还需要很多年才能有所超越。
 
在第一次世界大战中,美国的经济已经比英国强了太多,但是美元依旧跟英镑没法比,直到二战结束,美国已经超过了整个欧洲,但是依旧需要借着黄金这张虎皮才彻底拿下了美元霸权,可见货币霸权替换有多难,不过一旦发生替换,也可以折腾很多年。
 
我国现在的货币强势程度,感觉跟美国在1900年左右比依旧有点距离,毕竟1894年美国已经是世界经济第一了。所以大家不要着急,还需要慢慢来,一代人有一代人的任务,不出意外,我们这一代人就依旧只能目睹美元地位不断被侵蚀,估计很难看到它彻底倒掉。
 
只要它不倒掉,确实可以一直洗劫全世界,这就好像村里有人打了口井,大家都在用这口井,后来挖井的那人蜕化成了恶霸,每天坐在井边收管理费,但是其他人想去打井有太费劲,有人已经在重新打了,不过还没出来水,或者出来一点,水质不如恶霸的,大家依旧优先去恶霸那里。
 
但是如果一直搞洗劫,本身也在败坏自己的信用,只是信用积累的时间太长,彻底败光也需要一些年。
 

4

 对我们有啥启示

在过去几十年里,中国和美国其实一直也不存在竞争关系,所以有一段时间,美国人非常肉麻地把这种关系叫“G2”。美国把国内落后低端产能转移到中国赚取超额利润,他们搞高端产业和技术研发,顺便吸收中国这边的顶级人才。中国没有高端产业,开不出来高工资,优秀人才自然会用脚投票离开中国。
 
一定程度上讲,有那么一些年确实是这个路线,2010年之前,中国顶级名校的学生怎么说来着?
 
“不在国外,就在出国的路上”。
 
尽管现在人才依旧在持续外流,但是势头已经好转了过来,其中最主要的原因,还是我国内部市场已经形成,可以给头部人才定高价,不再像之前那样卖茶叶蛋的比造原子弹的收入高。那种情况下,除了少数有家国情怀的人,绝大部分为了生活还是离开了,现在顶级人才的收入差距不断拉近,将来才能继续回国。我国一直有个跟顶级人才讲奉献不讲钱的毛病,HW为啥研发像样点,主要是愿意给钱,不多说了,大家可以自行搜一下,头部科研人员的收入高得吓人,不低于欧美同行。
 
但是中国现在距离美国那种吸引全世界富人举家迁入的能力还差很多,这种情况一天不出现,中国货币就没法跟美国相比较。疫情成那样了,潘跑跑这类人还在持续往美国跑,这本身就是在给美国输血。美国经济一直有个很重要的增量,就是全世界富人的持续涌入。
 
接下来不出意外的话,美国一直会不断出丑,因为巅峰应该已经过了,他们现在也跟所有帝国中后半期的情况一样,饱受债务的困扰,但是想看他们彻底崩了,预计还得很多很多年。
 
现在说中国超过美国依旧有点为时尚早,任正非有句话,说的是现在美国对我们很恶劣,但是我们要继续坚持开放,继续向美国学习。
 
其实大家也都明白,美国这么大成就不是偶然的,而且相继引领了两次技术革命,战后几乎所有革命性的技术也都是他们搞出来的,它有自己的强悍之处,有一套行之有效的方案和路线,现在为啥打压我们,因为我们在学他们做事,并且他们发现我们学得很对,所有慌了,着急割裂。华为为啥遭到美国那么严厉制裁,因为华为的内部管理流程是IBM给设计并操盘安装上去的,现在中国学习美国企业最有模有样的,就是华为。
 
接下来还是要继续学习他们剩下的优点,不骄不躁,疫情前我经常在中美两国之间来回跑,对一些事情很了解,我们需要学习的东西实在是太多了,大家平时看他们底层loser的搞笑秀的时候,也要想想他们的头部公司在忙啥,认清距离,才是进步的关键。
 
以前差距不明显是因为我们主要是接受西方的技术转移,需要我们研发的并不多,这几年开始触碰到了技术屏障。也就是西方有些东西不愿意转移了,我们才发现这条路有多难。不过越是难越才要做,难的事才有价值,如果印度越南都能做的事那根本没啥意义,只是增加点就业,现在困难时期,正好是深耕时期,低端产品卖不动,才更需要考虑研发更高水平的产品,科研人员才有价值和地位,才能产生正反馈和持续的发展动力。
 
不管咋样,接下来还是要继续摸着白头鹰过河,直到把它彻底摸秃了。
全文完,
转自微信公众号:九边”。
 

转自:https://mp.weixin.qq.com/s/dJxoQplErOj2FGK68aMj1Q

微信的原创保护机制到底是如何实现的?

前言

众所周知,目前微信公众号是最具商业价值的写作平台,这与它优秀的原创保护机制密不可分,如果你想将其他公众号上的文章标为原创,微信会给出类似如下的信息告诉你未通过原创校验逻辑。

微信的原创保护机制到底是如何实现的?

如果你抓包会发现微信返回了如下错误

微信的原创保护机制到底是如何实现的?

如果你想改几个字蒙混过关,对不起,不行!依然会报上述错误,这得益于微信原创检测机制所采用的 simhash 技术,它是 Google 为了解决大规模的网页去重而发明的算法,广泛用在大规模的文章,评论判重等地方,效率极高,那么这项技术是如何实现的呢,通过上面的错误信息不难发现微信是为每篇文章生成了一个指纹(fingerprint),最终文章相似性的比较其实是指纹的比较,那么这个指纹又是如何生成的呢,本文将会为你由浅入深地揭晓 simhash 的秘密。

本文的目录结构如下:

  • 传统 Hash 与其局限性
  • 余弦定理实现及其局限性
  • 基于随机投影来实现空间向量的降维
  • simhash 原理及实现

传统 Hash 与其局限性

如何比较两篇文章是否相同,相信大家不难想到以下步骤

  1. 通过一个 Hash 函数(MD5 等)将文章转成定长字符串,比如 32 位
  2. 比较上一步生成的定长字符串是否相等

第一步的主要作用是将大范围映射到小范围,这样使用小范围的定长字符串「一般我们把它称为指纹(fingerprint)」大大缩小了空间,更利于保存,并且更利于比较,但对于计算两篇文章的相似度传统 hash 就无能为力了,因为对于传统 hash 来说,它要求随机性足够好,也就是说对于两个输入字符串,哪怕只有一个字母不同,使用传统 hash 的输出结果也是大不相同。

微信的原创保护机制到底是如何实现的?

如图示,以 SHA1为例,两个字符串「我是中国人」与「我是中国人啊」只相差了一个字,但输出的结果完全不同,根本没法比较,退一步来说,就算要比较,每个 hash 结果也要一个字符一个字符的比,性能极差!

所以我们需要找到这样的一个 hash 函数,它需要满足两个条件

  1. 可以实现局部相似性
  2. 生成的 hash 结果利于比较

先来看第二点,要让 hash 结果利于比较,可以将结果转化为仅由 0,1组成的定长二进制数字,这样只要将结果进行异或运算,算出结果有几位 1 即可,simhash 就是这么做的

微信的原创保护机制到底是如何实现的?

如图示:将结果进行异或运算后只有两位为 1,即只有两位是不一样的

接下来我们再来看第一个问题,simhash 如何输出局部相似性的结果, 它的计算过程与利用余弦定理来计算文本相似度有一定的相似性,可以认为是余弦定理的一个演变,所以我们先来看看如何用余弦定理来计算两者的相似度

余弦定理

第一次听说余弦定理是在吴军的<<数学之美>>里看到的,通过余弦可以判断两篇文章是否相似,步骤都是类似的,将文章转化为 n 个维度的空间向量,再计算这两个空间向量的在空间中的夹角,我们以下两个文本为例来看看如何利用余弦定理来计算这两个文本的相似度(本例子来自阮一峰博客)

句子A:我喜欢看电视,不喜欢看电影。
句子B:我不喜欢看电视,也不喜欢看电影。

步骤一:分词

句子A:我/喜欢/看/电视,不/喜欢/看/电影。
句子B:我/不/喜欢/看/电视,也/不/喜欢/看/电影。

第二步,列出所有的关键词。

我,喜欢,看,电视,电影,不,也。

画外音:使用 TF-IDF 算法来算出所有的关键词,像 「的」,「地」,「得」这种无意义的顿词需要去掉

第三步,计算词频。

句子A:我 1,喜欢 2,看 2,电视 1,电影 1,不 1,也 0。

句子B:我 1,喜欢 2,看 2,电视 1,电影 1,不 2,也 1。

第四步,写出词频向量。

句子A:[1, 2, 2, 1, 1, 1, 0]

句子B:[1, 2, 2, 1, 1, 2, 1]

注:这里为了演示方便简单用出现的次数来作为词频向量,实际上生产上一般不会这么干,一般会利用 TF-IDF 算法来生成词频向量,本文不作展开,感兴趣的读者可以自行研究

于是问题表现为了如何在空间中计算这两个向量的相似度了,我们可以把这两个向量认为是两条线段,从原点[0, 0, xxx],指向这两点的线段,这两个线段形成了一个夹角,夹角越小,说明这两个向量越相似,如何知道这两个夹角的大小呢,计算它们的余弦值(cosθ)即可,如果值越接近 1, 说明 θ 越小,两个向量就越接近,文本也就越相似

微信的原创保护机制到底是如何实现的?

于是问题转化为了如何计算 cosθ 的值,回忆下大学的数据公式,其值计算如下微信的原创保护机制到底是如何实现的?

于是我们可以根据以上公式计算出句子 A 和句子 B 的 cosθ 值为:

微信的原创保护机制到底是如何实现的?

高达 93.8% 的相似度!这与实际情况吻合,既然使用余弦定理就可以计算文章的相似性,那为啥还要搞出 simhash 这样的算法呢,细心的朋友不难发现它的缺点,计算余弦的过程涉及到很多的乘法开方等计算,n 个分词最终转化后就是 n 维向量,一篇文章的分词是非常多的,也就意味着这个 n 是非常大的,所以计算余弦是非常耗时的,肯定无法应用于 Google 这样需要海量网页判重的场景。

由此分析可知余弘定理计算主要性能瓶颈在于文章转化后的高维度向量,高维度所需的计算量较复杂,那能否考虑降维呢,即把 n 维降低到 k 维(k 远小于 n)甚至是一维,维度越小,计算量就越小,接下来我们就来看看如何利用随机投影实现数据降维。

基于随机投影来实现空间向量的降维

向量点积含义

随机投影的基础方法,是向量点积运算。所以理解随机投影的基础,是理解向量点积运算的含义。

设二维空间内有两个向量,则其点积(也叫内积)定义为以下实数:

微信的原创保护机制到底是如何实现的?

点积运算

表示的是两个投影积,一个是

上的投影长度:

微信的原创保护机制到底是如何实现的?

一个是 OB 在其本身的投影长则为 |OB|,

如果我们把

看作是新空间的坐标轴,那么点 A 在新空间的坐标是

微信的原创保护机制到底是如何实现的?

假设有如下两个向量微信的原创保护机制到底是如何实现的?

那么点 A 以向量

所在直线为坐标轴的空间中,坐标为 a.b=7*1+3* (-1)=4,发现了吗,此时点 A 在新空间中的坐标由 2 维降到了 1 维,实际上向量点积不光可以实现二维降一维,也可以实现从 M 维降到 K  维。只要基于高斯分布(即正态分布),在原向量空间中找到一个 k 维向量

微信的原创保护机制到底是如何实现的?

就可以让原来任意一个在 M 维空间的向量 M 通过点积 M  ⋅ R 将其降维到 K 维,Johnson–Lindenstrauss 引理指出:在欧式空间中的若干点,经过相同的映射后进入新的空间,它们仍然会保持原来的相对位置,也就是说原来向量之间的夹角在向量降维映射到新空间后依然可以认为基本不变,这也就意味着降维后不会对文本的相似度计算产生影响

随机投影降维离散化—-基于随机投影的局部敏感哈希

通过随机投影法,确实实现了高维度降到低维度的目标,但降维后生成的向量坐标很可能是 float 型的,不利于存储,而且在计算比如余弦时,需要 float * float 的计算,我们知道浮点型计算是比较耗性能的,所以有人就提出能否对这些 float 的连续型坐标离散化,这样就解决了存储,计算的难点。

在将数据映射到降维后的新空间后,我们将落在坐标轴负轴的维度(该维度取值为负数),统一赋值为 0(或者 -1,使用 -1 的话 是将映射后的词语放置在整个空间中,而不是某一个象限,这样可以让数据点分布得更均匀一点),表示数据与对应随机向量夹角大于 90 度。类似的,我们将落在坐标轴非负轴的维度,统一赋值为 1。这样原始数据就被映射到了一个离散的新空间里。

这种离散化的数据映射方法,就是我们常说的基于随机投影的局部敏感哈希,经过离散化后,原来在空间中接近的数据点依然是相似或相同的,更重要的是经过离散化后转化为了 0,1 二进制数字,计算速度大大提高!

基于随机投影的局部敏感哈希,也是随机投影 hash 的一种,通过上述映射规则,将原空间向量进行了离散化降维

随机超平面 hash

知道了什么是基于随机投影的局部敏感哈希, 也就不难理解随机超平面 hash 了,它也是随机投影 hash 离散化的变种,对于一个 n 维向量 v,如果要得到一个由 0,1 组成的 f 位签名(f  远小于 n),它的算法如下:

  1. 随机产生 f 个 n 维的向量 r1,…rf;
  2. 对每一个向量 ri,如果 v 与 ri 的点积大于 0(说明在此向量划分的空间是相似的),则最终签名的第 i 位为 1,否则为 0。

这个算法相当于随机产生了 f 个 n 维超平面,每个超平面将向量 v 所在的空间一分为二,v 在这个超平面上方则得到一个 1,否则得到一个 0,然后将得到的 f 个 0 或 1 组合起来成为一个 f 维的签名

微信的原创保护机制到底是如何实现的?如图所示,随机在空间里划几个超平面,就可以把数据分到不同空间里,比如中间这个小三角的区域就可以赋值为110

每个降维后的 f 维签名,就是文章的最终签名!通过这样的解释相信大家不难理解通过异或比较位数的不同来判断文章的相似度的几何意义:位数不同,代表其在相应超平面上不相似

simhash 原理及实现

为啥前面花这么大力气介绍引出随机超平面 hash 呢,因为 simhash 就是基于超平面 hash 演变而来的,可以说理解了超平面 hash 也就理解了 simhash,接下来我们看看 simhash 的生成流程:

simhash 的生成划分为五个步骤:分词->hash->加权->合并->降维

  1. 分词:  这一步可以余弦定理的 1~4 步类似,首先,判断文本分词,形成这个文章的特征单词。然后,形成去掉噪音词的单词序列。最后,为每个分词加上权重。我们假设权重分为5个级别(1~5),比如:“ 美国“51区”雇员称内部有9架飞碟,曾看见灰色外星人 ” ==> 分词后为 “ 美国(4) 51区(5) 雇员(3) 称(1) 内部(2) 有(1) 9架(3) 飞碟(5) 曾(1) 看见(3) 灰色(4) 外星人(5)”,括号里是代表单词在整个句子里重要程度,数字越大越重要,为了方便解释,以下我们假设文档只有「美国」和「51区」这两个分词。

  2. hash: 通过 hash 算法把每个词变成 hash 值,比如“美国”通过 hash 算法计算为 100101,“51区”通过 hash 算法计算为 101011。这样,我们的字符串就变成了一串串数字,此 hash 值我们称为这些词对应的独热编码,然后再将 0 转为 -1,这样美国的「100101」编码为了「1-1-11-11」,51区的编码为「1-11-111」,将 0 转为 -1 的目的是将映射后的词语放置在整个空间中,而不是某一个象限,这样可以让数据点分布得更均匀一点,与随机超平面hash相比,这里使用了一个“不随机”的超平面,将空间进行了分割。

  3. 加权: 通过 2 步骤的 hash 生成结果,需要按照单词的权重形成加权数字串,比如「美国」的hash值为「1-1-11-11」,通过加权(权重参见步骤一得出的各个词语的权重值)计算(相乘)为「4 -4 -4 4 -4 4」;「51区」的 hash 值为「1-11-111」,通过加权计算为 「5 -5 5 -5 5 5」,得到的各向量即表征了这个文档

  4. 合并: 把上面各个单词算出来的序列值累加,变成只有一个序列串。比如 “美国”的 “4 -4 -4 4 -4 4”,“51区”的 “ 5 -5 5 -5 5 5”, 把每一位进行累加, “4+5 -4+-5 -4+5 4+-5 -4+5 4+5” ==》 “9 -9 1 -1 1 9”。

  5. 降维: 把第 4 步算出来的 「9 -9 1 -1 1 9」变成 0 1 串,形成我们最终的 simhash 签名。如果每一位大于 0 记为 1,小于 0 记为 0。最后算出结果为:「1 0 1 0 1 1」,这里采用了随机超平面 hash 的离散化方法,得到文本的最终表示

相信细心的你不难发现在第二步和第五步可以看到随机超平面的身影,也就是说并没有产生直接的随机超平面向量来映射,是间接产生的,如果想找到直接的超平面向量 R 来生成最后的签名也不难,我们就假设文档只有「美国」,「51区」这两个特征词,由第一,二步可知其文档向量为 d = (4, 5),hash 后的编码为 100101,101011,我们注意到第二步hash会做一层编码转换, 1 不变, 0 转为 -1

 100101  ----> 1-1-11-11
 101011  ----> 1-11-111

再用逗号隔开,使其成为了特征词对应的映射向量

「美国」对应的映射向量:(1, -1, -1, 1, -1, 1)
「51区」对应的映射向量:(1, -1, 1, -1, 1, 1)

再把上述每个特征词对应向量的第 i 位取出来组成 ri 向量,如下

r1 = (1, 1), r2 = (-1, -1), r3 = (-1, 1),  r4 = (1, -1), r5 = (-1, 1), r6 = (1, 1)

再回顾下随机 hash 超平面算法的第二步:

 对每一个向量 ri,如果 v 与 ri 的点积大于 0,则最终签名的第 i 位为 1,否则为 0。

将文档向量 d = (4, 5) 与上述 r1…r5 每一个向量相乘,可得结果为

(9, -9, 1, -1, 1, 9)  ---->   (1 , 0, 1, 0, 1, 1)

与 simhash 生成的完全一致!所以我们说 simhash 是从超平面 hash 算法演变更来的。

一般 simhash 生成的签名为 64 位,只要两个签名不同的位数少于等于 3 位我们就认为两个文章相似,这种使用不同进制位个数来计算两者差异的方式我们也叫汉明距离

simhash 查询优化

生成了 64 位的签名,然后就通过计算签名的异或来查询文章的相似度吗?too young too naive! 对于 Google 网页去重来说,可能会有几十亿的网页内容,那每次判重都需要使用签名进行几十亿的异或比较,这谁顶得住啊,那该如何优化呢?答案是利用抽屉原理进行优化存储。

什么是抽屉原理?把三个苹果放进四个抽屉里,必然有一个是空的

我们注意到判断文章相似的条件 ,对于签名为 64 位的 simhash 签名,只要位数少于等于 3 位即可判断为相似,这样的话我们可以把 64 位的签名分成四份,每份 16 位,如果相似,那必然有一份是完全相同的。

微信的原创保护机制到底是如何实现的?

我们可以把签名用 K-V 的形式进行存储, K 为其中的一部分,V 为剩余的 3 部分,先比较 K 是否精确匹配相同,如果匹配,再比较 V 部分的相似度,那么这四部分哪一部分应该为 K 呢,由于我们不知道哪一部分是精确匹配的,所以每一部分都应该为 K,剩余的部分为 V,以文本 1 为例,它应该设计成如下方式进行存储,这样保证不会有遗漏

微信的原创保护机制到底是如何实现的?

以下是查询库

微信的原创保护机制到底是如何实现的?

那么用这样的方式来存储到底提升了多少速度,我们一起来算笔帐。

假设数据库中有 2^30 条数据,也就是差不多 10 亿条数据:

  • 如果不用抽屉原理,则需要进行 10 亿次的比较
  • 如果使用抽屉原理
    • 首先先进行 K 的比较,由于是 K-V 也就是 hash 存储,所以 K 比较时间复杂度是 0(1),可以忽略不计,
    • K 如果精确匹配,把所有对应的 V 取出来即可,那么 V 可能有多少数据?因为 K 最多可能有 2^16位,所以 V 最多有 2^(30-16) = 2^14 位,
    • 由于最多进行 4 次 K 的比较,所以最多会进行 4 * 2^14 = 65536,约 6 万次比较

可以看到利用抽屉原理比较次数从 10 亿次降到了 6 万次!查询性能大大提升,当然了天下没有免费的午餐,由于数据复制了四份,存储空间也增大了 4 倍,这就是典型的以空间换时间。

simhash 缺点

simhash 比较适合海量长文上,短文本准确度上不高,因为用来度量长文本相似的汉明距离阈值为 3,但是短文本中,相似文本之间的汉明距离通常是大于 3 的。

所以你会发现在公众号后台如果你要标原创,字数必须大于 300,也是这个原因

微信的原创保护机制到底是如何实现的?

总结

理解 simhash 的关键在于理解超平面随机 hash,使用它可以实现向量从高维度到低维度的降维。网上有很多讲 simhash 的的文章,但大多把降维这个具体过程给跳过了,看得是让人一头雾头,所以笔者查阅了大量资料希望能帮助大家理解这一流程,希望大家能有收获,如果想对 simhash 有更深入的理解,可以查阅文末一堆的参考链接,都非常棒!

巨人的肩膀

  • https://www.cnblogs.com/shaosks/p/9121774.html
  • 局部敏感哈希算法及其思想的讨论:https://my.oschina.net/u/4367429/blog/3261406
  • http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html
  • https://zhuanlan.zhihu.com/p/81026564
  • http://www.hanting.tech/2017/05/23/simhash.html
  • https://zhuanlan.zhihu.com/p/92155250
  • https://blog.csdn.net/sunny_ss12/article/details/46949315
  • https://cloud.tencent.com/developer/article/1189493
  • https://www.cnblogs.com/sddai/p/10088007.html
  • 彻底弄懂LSH之simHash算法: https://www.cnblogs.com/hxsyl/p/4518506.html
  • 海量短文本场景下的去重算法:https://www.iyunying.org/seo/dataanalysis/152232.html
  • 海量数据相似度计算之simhash和海明距离: https://cloud.tencent.com/developer/article/1390215

 

·END·

来源:码海

版权申明:内容来源网络,版权归原创者所有。除非无法确认,我们都会标明作者及出处,如有侵权烦请告知,我们会立即删除并表示歉意。谢谢!

转自:https://mp.weixin.qq.com/s/kAEEmHA_3NzYg_5AmjEiVA