制裁升级!拜登会不会拖世界下水?

作者 | 万连山

数据支持 | 勾股大数据(www.gogudata.com)

制裁升级!拜登会不会拖世界下水?

在全球能源短缺问题继续升温之际,美国继续推动“全面封杀”俄罗斯能源。

昨夜,拜登在新闻发布会上说,“今天,我宣布美国瞄准俄罗斯经济的大动脉,禁止所有俄罗斯石油、天然气和能源的进口。这意味着美国港口将不再接受俄罗斯石油,美国人民将对普京的战争机器造成又一次强有力的打击。”

英国紧随其后,商业与能源大臣称将“在2022年底前逐步停止进口俄罗斯石油和石油产品。”

消息出来,国际油价一度飙涨至139美元/桶, 美股也在震荡中收低。

制裁升级!拜登会不会拖世界下水?

看到这里,我脑海中突然涌现出一幅画面:

一头灰熊凶威凛凛,手持猎枪、担忧被袭击的平民,联邦警察,动物保护主义者,环保主义者,他们在森林里相遇。

这尴尬的局面如何打破?

有人忽然灵光一闪,大喝一声:灰熊通俄……

拜登再次升级对俄制裁,全面封杀俄罗斯石油和天然气,会产生那些后果?点击视频了解等多内容制裁升级!拜登会不会拖世界下水?👇

01

分歧益深

此前,虽然北约对俄罗斯展开了一系列制裁,但始终没有波及到石油与天然气。(尽管早在上个月,加拿大就宣布禁止进口俄油,但这只是象征性的,毕竟该国自2019年起就从没有进口过石油。)

随着能源价格飙升,英美与其他欧洲盟友,在是否禁止俄能源问题上的分歧,越来越明显。

很显然,后者对俄罗斯能源更加依赖。

从去年的数据看,美国市场大部分进口能源都来自加拿大,从俄罗斯购买的原油仅占3%。

同时,美国本身就是油气大国,页岩油产能正在逐步恢复中,当然乐于见到国际油气价格飙升。

再加上前段时间以每天7亿美元的资金,疯狂收购俄罗斯石油,美国现在的石油储备非常充足。

也正因为如此,在周二的民意调查中,超过70%美国人支持对俄罗斯石油的禁令。

制裁升级!拜登会不会拖世界下水?

当然,这并非没有代价。

美国国内普通汽油均价达到4.17美元/加仑,为近14年最高水平,而且还有上涨趋势。

而交通运输成本上升,势必会抬高终端商品价格,最终推高整体通胀率。美国1月的通胀已经高达7.5%,再往上升,会不会无法控制?

不会。这是一盘很大的棋,第三段会详细说明。

但在欧洲,实施这一禁令,要困难得多。

欧洲国家的工业、发电和取暖等,都需要大量的天然气,约40%依靠俄罗斯进口。随着能源价格的不断飙升,由此引发的通胀危机给经济发展和民生,已经造成严重的影响。

尤其是德国,55%的天然气供应依赖俄罗斯。如果效仿英美施行禁令,供电、运输、供暖和工业运转,都将陷入停滞。

其他欧盟国家也好不到哪去。

德国、法国、荷兰相继表态,就俄罗斯能源禁令持谨慎态度,不愿意与美国共进退。

按照欧洲媒体的说法:欧盟对俄制裁就是一种自残式行动。

目前,欧洲天然气期货价格,已经是美国的20多倍。与去年同期300欧元/千立方米的天然气价格相比,目前的价格已经飙升至3500欧元。

全球大宗商品暴涨的直接后果,是造成紧密相关国家通货膨胀。而由乌克兰往西,首当其冲的就是众多欧洲内陆小国。

国际能源价格如果继续飙升,最先倒下的绝不是俄罗斯,而是欧盟中经济比较落后的成员国。

而美国军火巨头的武器和能源巨头的页岩气不但不愁没人要,还能哄抬物价大发灾难财。欧洲却要为此付出惨重的代价——成为这波对俄制裁的最大受害者。

制裁升级!拜登会不会拖世界下水?

美国鼓动欧盟与俄罗斯作对可以,但这存在上限,不能撕破最后的脸皮,否则自己承受不起。

虽然华盛顿一直奏乐,欧盟就得一直舞,但总有累的时候。无法解决后顾之忧,就彻底为其卖命,基本是不可能的。

美、英、加不顾盟友死活,坚持扩大对俄制裁以推高国际油价。如果美欧在这一问题上互不让步,双方的内讧大戏或将上演。

制裁升级!拜登会不会拖世界下水?

这个场景可能再现。

02

谁能横刀立马

俄罗斯是全球最大的原油出口国,每天的供应量约为700万桶,占全球7%。

假如,欧美真的全面封禁俄罗斯油气,这么大的缺口,谁能补上?

尤其是,缺席国际市场多年的伊朗石油,回归之日至今不明

3月5日,俄外长要求美国保证制裁不会损害俄罗斯与伊朗之间的贸易。言下之意,西方对俄制裁,已成为伊核协议的绊脚石。

OPEC组织秘书长巴尔金都也在7日发出警告,欧佩克国家无法控制全球油价上涨,地缘政治才是决定者。

据《国会山报》消息,随着俄乌冲突持续,阿联酋和沙特领导人均拒绝接听拜登的电话,因为担心谈话内容会涉及中东产油国进出口问题。

同时,欧美在重启伊核谈判时,也没有足够考虑到中东国家的意愿。

制裁升级!拜登会不会拖世界下水?

全球第四大石油生产国、美国最大的海外原油供应国加拿大,虽然日产量超过500万桶,但该国向南的输油管道容量有限,只有一条通往其海岸线的原油管道。

目前加拿大西海岸正在建设一个大型液化天然气设施,但要到2025年前后才能完工。

加拿大自然资源部长威尔金森也声明:未来几个月,加拿大更有可能做的是帮助其他国家制定长期能源战略,而不是直接影响油价。

也就是说,目前全球没有任何产能,可以替代俄罗斯每天700万桶的石油出口。美国或许可以,但它当然不会这么做。

俄前总统梅德韦杰夫曾在7日表态:我只能祝贺“有远见”的欧洲同事,他们可靠地保护自己不受“阴险的”俄罗斯和北溪2号项目影响。

早在德国叫停北溪2号时,他就预测欧洲人很快将迎来“为1000立方米天然气支付2000欧元的美丽新世界”

现在来看,这不仅不是耸人听闻,反而还低估了现实。

据荷兰TTF指数(欧洲天然气主要交易指标),4月交割期货周一开盘价为2366.8美元/千立方米,90分钟内上涨至3888.4美元,比周五的结算价格2170.2美元,上涨了79%。

3月7日,塞尔维亚总统武契奇也做出提醒,如果俄罗斯石油被禁止,世界油价将比历史高点还要高出2-3倍。

若此话成真,届时所有原材料的价格都将飙到天上,我们所熟知的一切规则,可能都需要重塑。

天然气、石油等能源价格只是一个侧面,小麦、玉米等基础粮食价格的暴涨,才是最要命的,必然会传导至几乎所有生活必需品售价上。

制裁升级!拜登会不会拖世界下水?

而这些,都是现在的欧洲,正在经历的过程——极有可能面临一场崩溃式的通胀,最终形成政府巨大的财政赤字,摧毁数十年来欧洲人不劳而获的福利制度。

这股旋涡,正迅速向全世界发散。

03

拜登的“伟大”资产

美国的疫情治理与经济恢复,还不知道要花多少钱。可以说,建国200多年以来,美利坚几乎没有遭受过如此重大的危机。

太阳底下没有新鲜事。

地主家的房子漏了,自然不会亲自动手去补。

不知道还有没有人记得,2月20日,拜登在白宫记者会上说道:“通胀是一笔伟大的资产。”

语出四座皆惊。大王这是何意?

事出反常必有妖孽。

美国1月的通胀上升到40年新高7.5%,已经是很惊人的数字。但在其他国家,承受的压力只会更大。

列一组很直观的数据。

2014年,也就是上一次国际油价上100美元时,1欧元能换1.4美元。

现在呢?1欧元只能换1.1美元。

换句话说,在以美元结算的石油体系中,欧元不到十年贬值了26%。

同样的道理,英镑贬值22%,日元也贬值了15%。

制裁升级!拜登会不会拖世界下水?

如果把美国比作一只蚁后,近几年印出的海量美钞,就是刚孵化出的工蚁。

在和平时期,蚁后乐善好施,不断派遣幼工蚁帮助邻居建设发展,参与到经济和商业流通中,渗透进世界每一个角落。

当这些工蚁成年,蚁后会大幅、高频、快速加息,召唤孩儿们回归母巢,也就是美国本土。

比如在70年代,美国经济被越南战争拖垮,通胀率最高达到13.3%。危急时刻,尼克松放出史上最强力财长——沃尔克。此君一上任,就把美元基准利率升到22.4%。

这一夸张的举动就像咒语,流落在全球的美元纷纷回归本土,帮助美国经济从最艰难的时期一跃而起。

而那些借了美债的国家,经济一下倒退了十年。

制裁升级!拜登会不会拖世界下水?

最近一系列事件的进展,与当年何其相似?

而接下来两个月,美国通胀水平极有可能在8%以上。不论到什么水平,通过即将到来的美联储加息,同时释放战略石油储备,压制本国油价,美国通胀必然会有一定程度回落。

其他国家,如果不付诸行动,飙升的油价,将使得通胀全线失控。这也是为什么,从去年年底开始,加拿大和英国突然加息,走在美国前面。毕竟谁也不傻。

届时,所有海外的资金,为了避免大幅贬值,都会流向美国本土。等于是利用全球的钱,让本国经济从废墟中站起来,从而实现“再次伟大”。

以这个角度来看,通胀对美国而言确实是一笔“伟大”的财富。

但这一次,还能如愿以偿吗?

最近三十年,美利坚开支无度、穷兵黩武,赤字连创新高,动不动就对敌国制裁,世界早就开始“去美元化”进程,美元占全球央行外汇储备的比例,从71%下滑到了59%。

再加上前不久,俄罗斯被踢出swift系统,央行4000亿美元的储备、俄富豪的大量美元资产也被冻结。

这让所有富人都意识到,私人财产不可侵犯这句话有多么可笑。以李嘉诚甩卖英国千亿资产为例,大量资金会撤出,寻找美元以外的替代品。

制裁升级!拜登会不会拖世界下水?

替代品有哪些?除欧元、日元、英镑,人民币也是一个越来越有力的竞争者。

美国加息,中国降准,可以看到,双方的货币政策正好相反。如果能守住,就能争取到更多惊慌失措的资金。

就像在这一轮俄乌危机中,大量欧洲资金进入中国避险,提升了中国资产吸引力一样。

这对我们的市场,是很大的利好。假以时日,究竟是谁实现“再次伟大”,还说不准。

04

尾声

三十年来,这个世界处于单极,或者说垄断状态。

身处糟糕的世界,特别是有一个自私的老大,谁也无法独善其身。

今天A股,又遭一记闷棍,比昨天还痛。

两市上涨1077只,下跌3525只,跌停28家。沪指一度失守3200点,创业板2600也没了。

从高开低走,午后跳崖,到尾盘深V,多少韭菜无语凝噎。

不光是大A,现在全球市场都是软妹子,动不动就大跌。

再这样下去,迟早要出事。

制裁升级!拜登会不会拖世界下水?

好消息是,乌克兰总统表示,对加入北约已经心灰意冷。俄乌战争的转机是否将要到来?股市是否能被拯救?全得看这位老哥何时会认怂。

最后,希望亏麻了的朋友,不要心灰意冷。给你们推荐一本书,相信会有些帮助。

制裁升级!拜登会不会拖世界下水?

为什么书皮是绿色的?

健康。

转自:https://mp.weixin.qq.com/s/LhoOksOBys_fRRdPfxYR4g

诗词书单收集

利用故事性强和趣味性浓的书籍中搭建诗词背后的历史框架。

推荐书单

♦️Top1:《鲜衣怒马少年时1、2》

♦️Top2:《枕上诗书——遇见最美唐诗》

《枕上诗书——遇见最美宋词》

他们有才,亦有爱——宋词中的缱绻爱情

♦️Top3:《唐诗背后那些有趣的灵魂》

《宋词背后那些有趣的灵魂》

——唐朝:从沙漠骆驼王昌龄

到京城四少王维,再从放荡不羁李白到朦胧诗派李商隐…

——宋朝:从歌女之友柳永到人性之光范仲淹

,再从生活虐我千百遍,我待生活如初恋的苏轼…

你们想了解这些诗词大咖们的爱恨情仇,这三套书统统给你安排的明明白白。

Apriori 关联规则算法(Python代码)

Apriori 关联规则算法(Python代码)

一、关联规则概述
1993年,Agrawal等人在首先提出关联规则概念,迄今已经差不多30年了,在各种算法层出不穷的今天,这算得上是老古董了,比很多人的年纪还大,往往是数据挖掘的入门算法,但深入研究的不多,尤其在风控领域,有着极其重要的应用潜力,是一个被低估的算法,很少见到公开的文章提及,我尝试一一剖析,希望给你带来一定的启示。
我倒是进行了比较深刻、全面的思考,并进行了大量的实验,这个话题感觉可以聊三天三夜。世界风云变幻,但本质没变化,各种关联一直存在,有意或无意的!
比如你女朋友,低头玩手指+沉默,那大概率生气了,那这就是你总结出来的规则。啤酒与尿布的例子相信很多人都听说过吧,故事是这样的:在一家超市中,人们发现了一个特别有趣的现象,尿布与啤酒这两种风马牛不相及的商品居然摆在一起,但这一奇怪的举措居然使尿布和啤酒的销量大幅增加了。为什么有这么奇怪现象呢?是因为美国妇女在丈夫回家前买尿布,然后丈夫顺手买了自己喜欢的啤酒,所以发生了这么有趣的事情。
很多人只记住了啤酒尿不湿,很少深入思考,我们稍微转换下,日常的事情,也存在非常多的关联规则?

二、应用场景举例

1、股票涨跌预测

放量+高换手率 -> 大概率上涨,历史数据挖掘,假如发现放量+高换手率的股票大概率上涨,则挖掘当天满足条件的个股,然后第二天买入,躺赚。

2、视频、音乐、图书等推荐

根据历史数据,如果大规模的存在某些用户看剧列表为:小时代 -> 上海堡垒,那么一个新的用户看了小时代,马上就给推荐上海堡垒,那大概率也会被观看,呼兰的账号,就是这么脏的。

3、打车路线预测(考虑时空)

根据大量的数据挖掘出以下规则
早上:起点家->目的地公司,
晚上:起点家->目的高铁站
周末:起点家->目的地购物中心
那当你每天早上打开软件的时候,打车软件就会推荐你的公司作为目的地,大大的减少用户的打车时间。如下图,我输入小区名称,马上给我推荐了三个地方,杭州东站第一位,因为平时的打车这个组合的支持度最高。
Apriori 关联规则算法(Python代码)

4、风控策略自动化挖掘

根据历史标题,总结出规律发现商品标题包含 老司机+百度网盘 -> 色情风险高,那后面遇到这标题包含这两个词语的,就直接拒绝了。
根据历史行为数据,发现了沉默用户+非常用地登录+修改密码->大概率都被盗号了,那一个新的账户满足这个三个条件,那马上就进行账户冻结或者实人认证,就能避免盗号风险的发生。
根据历史数据,发现用户A +B 每天都相隔10s登录 ,则可以认为A、B存在关联关系,可能是机器控制的同一批薅羊毛账户。
风控策略的自动化挖掘,这个也是我们后续要重点关注和讲解的地方。

三、3个最重要的概念

关联规则有三个核心概念需要理解:支持度、置信度、提升度,下面用最经典的啤酒-尿不湿案例给大家举例说明这三个概念,假如以下是几名客户购买订单的商品列表:
Apriori 关联规则算法(Python代码)

1、支持度

支持度 (Support):指某个商品组合出现的次数总订单数之间的比例。
在这个例子中,我们可以看到“牛奶”出现了 4 次,那么这 5 笔订单中“牛奶”的支持度就是 4/5=0.8。
Apriori 关联规则算法(Python代码)
同样“牛奶 + 面包”出现了 3 次,那么这 5 笔订单中“牛奶 + 面包”的支持度就是 3/5=0.6
Apriori 关联规则算法(Python代码)
这样理解起来是不是非常简单了呢,大家可以动动手计算下 ‘尿不湿+啤酒’的支持度是多少?

2、置信度

置信度 (Confidence):指的就是当你购买了商品 A,会有多大的概率购买商品 B,在包含A的子集中,B的支持度,也就是包含B的订单的比例。
置信度(牛奶→啤酒)= 3/4=0.75,代表购买了牛奶的订单中,还有多少订单购买了啤酒,如下面的表格所示。
Apriori 关联规则算法(Python代码)
置信度(啤酒→牛奶)= 3/4=0.75,代表如果你购买了啤酒,有多大的概率会购买牛奶?
Apriori 关联规则算法(Python代码)
置信度(啤酒→尿不湿)= 4/4=1.0,代表如果你购买了啤酒,有多大的概率会买尿不湿,下面的表格看出来是100%。
Apriori 关联规则算法(Python代码)
由上面的例子可以看出,置信度其实就是个条件概念,就是说在 A 发生的情况下,B 发生的概率是多大。如果仅仅知道这两个概念,很多情况下还是不够用,需要用到提升度的概念。比如A出现的情况下B出现的概率为80%,那到底AB是不是有关系呢,不一定,人家B本来在大盘中的比例95%。你的A出现,反而减少了B出现的概率。

3、提升度

提升度 (Lift):我们在做商品推荐或者风控策略的时候,重点考虑的是提升度,因为提升度代表的是A 的出现,对B的出现概率提升的程度。
提升度 (A→B) = 置信度 (A→B)/ 支持度 (B)
所以提升度有三种可能:
  • 提升度 (A→B)>1:代表有提升;

  • 提升度 (A→B)=1:代表有没有提升,也没有下降;

  • 提升度 (A→B)<1:代表有下降。

提升度 (啤酒→尿不湿) =置信度 (啤酒→尿不湿) /支持度 (尿不湿) = 1.0/0.8 = 1.25,可见啤酒对尿不湿是有提升的,提升度为1.25,大于1。
可以简单理解为:在全集的情况下,尿不湿的概率为80%,而在包含啤酒这个子集中,尿不湿的概率为100%,因此,子集的限定,提高了尿不湿的概率,啤酒的出现,提高了尿不湿的概率。

4、频繁项集

频繁项集(frequent itemset) :就是支持度大于等于最小支持度 (Min Support) 阈值的项集,所以小于最小值支持度的项目就是非频繁项集,而大于等于最小支持度的的项集就是频繁项集,项集可以是单个商品,也可以是组合。
频繁集挖掘面临的最大难题就是项集的组合爆炸,如下图:
Apriori 关联规则算法(Python代码)
随着商品数量增多,这个网络的规模将变得特别庞大,我们不可能根据传统方法进行统计和计算,为了解决这个问题,Apriori算法提出了两个核心思想:
某个项集是频繁的,那么它的所有子集也是频繁的
{Milk, Bread, Coke} 是频繁的 → {Milk, Coke} 是频繁的
如果一个项集是 非频繁项集,那么它的所有超集也是非频繁项集
{Battery} 是非频繁的 → {Milk, Battery} 也非平凡
如下图,如果我们已知B不频繁,那么可以说图中所有绿色的项集都不频繁,搜索时就要这些项避开,减少计算开销。
Apriori 关联规则算法(Python代码)
同理,如果下图所示,{A,B}这个项集是非频繁的,那虚线框后面的都不用计算了,运用Apriori算法的思想,我们就能去掉很多非频繁的项集,大大简化计算量,当然,面对大规模数据的时候,这种排除还是解决不了问题,于是还有FP-Growth(Frequent pattern Growth,频繁模式增长树)这种更高效的方法,后面有机会慢慢讲。
Apriori 关联规则算法(Python代码)
需要注意的是:
1)如果支持度和置信度阈值过高,虽然可以在一定程度上减少数据挖掘的时间,但是一些隐含在数据中的非频繁特征项容易被忽略掉,难以发现足够有用的规则;
2)如果支持度和置信度阈值过低,可能会导致大量冗余和无效的规则产生,导致较大计算量负荷。

四、Python算法介绍

这里用的是Python举例,用的包是apriori,当然R语言等其他语言,也有对应的算法包,原理都是一样的,大家自行进行试验。
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
#包安装 我们使用efficient-apriori,python中也可以利用apyori库和mlxtend库pip install efficient-apriori
#加载包from efficient_apriori import apriori
‘’‘apriori(transactions: typing.Iterable[typing.Union[set, tuple, list]], min_support: float=0.5, min_confidence: float=0.5, max_length: int=8, verbosity: int=0, output_transaction_ids: bool=False)上面就是这个函数的参数min_support:最小支持度min_confidence:最小置信度max_length:项集长度‘’‘
# 构造数据集data = [('牛奶','面包','尿不湿','啤酒','榴莲'), ('可乐','面包','尿不湿','啤酒','牛仔裤'), ('牛奶','尿不湿','啤酒','鸡蛋','咖啡'), ('面包','牛奶','尿不湿','啤酒','睡衣'), ('面包','牛奶','尿不湿','可乐','鸡翅')]#挖掘频繁项集和频繁规则itemsets, rules = apriori(data, min_support=0.6, min_confidence=1)#频繁项集print(itemsets){1: {('啤酒',): 4, ('尿不湿',): 5, ('牛奶',): 4, ('面包',): 4}, 2: {('啤酒''尿不湿'): 4, ('啤酒''牛奶'): 3, ('啤酒''面包'): 3, ('尿不湿''牛奶'): 4, ('尿不湿''面包'): 4, ('牛奶''面包'): 3}, 3: {('啤酒''尿不湿''牛奶'): 3, ('啤酒''尿不湿''面包'): 3, ('尿不湿''牛奶''面包'): 3}}itemsets[1] #满足条件的一元组合{('啤酒',): 4, ('尿不湿',): 5, ('牛奶',): 4, ('面包',): 4}itemsets[2]#满足条件的二元组合{('啤酒', '尿不湿'): 4,('啤酒', '牛奶'): 3,('啤酒', '面包'): 3,('尿不湿', '牛奶'): 4,('尿不湿', '面包'): 4,('牛奶', '面包'): 3}itemsets[3]#满足条件的三元组合{('啤酒', '尿不湿', '牛奶'): 3, ('啤酒', '尿不湿', '面包'): 3, ('尿不湿', '牛奶', '面包'): 3}#频繁规则print(rules)[{啤酒} -> {尿不湿}, {牛奶} -> {尿不湿}, {面包} -> {尿不湿}, {啤酒, 牛奶} -> {尿不湿}, {啤酒, 面包} -> {尿不湿}, {牛奶, 面包} -> {尿不湿}]
#我们把max_length=2这个参数加进去看看itemsets, rules = apriori(data, min_support=0.6,min_confidence=0.5,max_length=2)#频繁项集print(itemsets){1: {('牛奶',): 4, ('面包',): 4, ('尿不湿',): 5, ('啤酒',): 4, ('R',): 4}, 2: {('R', '啤酒'): 4, ('R', '尿不湿'): 4, ('R', '牛奶'): 3, ('R', '面包'): 3, ('啤酒', '尿不湿'): 4, ('啤酒', '牛奶'): 3, ('啤酒', '面包'): 3, ('尿不湿', '牛奶'): 4, ('尿不湿', '面包'): 4, ('牛奶', '面包'): 3}}#通过这个数据我们可以看到,项集的长度只包含有两个项了
五、挖掘实例
每个导演都有自己的偏好、比如周星驰有星女郎,张艺谋有谋女郎,且巩俐经常在张艺谋的电影里面出现,因此,每个导演对演员的选择都有一定的偏爱,我们以宁浩导演为例,分析下选择演员的一些偏好,没有找到公开的数据集,自己手动扒了一部分,大概如下,有些实在有点多,于是简化下进行分析。
Apriori 关联规则算法(Python代码)
可以看到,我们一共扒了9部电影,计算的时候,支持度的时候,总数就是9.
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
#把电影数据转换成列表 data = [['葛优','黄渤','范伟','邓超','沈腾','张占义','王宝强','徐峥','闫妮','马丽'], ['黄渤','张译','韩昊霖','杜江','葛优','刘昊然','宋佳','王千源','任素汐','吴京'], ['郭涛','刘桦','连晋','黄渤','徐峥','优恵','罗兰','王迅'], ['黄渤','舒淇','王宝强','张艺兴','于和伟','王迅','李勤勤','李又麟','宁浩','管虎','梁静','徐峥','陈德森','张磊'], ['黄渤','沈腾','汤姆·派福瑞','马修·莫里森','徐峥','于和伟','雷佳音','刘桦','邓飞','蔡明凯','王戈','凯特·纳尔逊','王砚伟','呲路'], ['徐峥','黄渤','余男','多布杰','王双宝','巴多','杨新鸣','郭虹','陶虹','黄精一','赵虎','王辉'], ['黄渤','戎祥','九孔','徐峥','王双宝','巴多','董立范','高捷','马少骅','王迅','刘刚','WorapojThuantanon','赵奔','李麒麟','姜志刚','王鹭','宁浩'], ['黄渤','徐峥','袁泉','周冬雨','陶慧','岳小军','沈腾','张俪','马苏','刘美含','王砚辉','焦俊艳','郭涛'], ['雷佳音','陶虹','程媛媛','山崎敬一','郭涛','范伟','孙淳','刘桦','黄渤','岳小军','傅亨','王文','杨新鸣']] #算法应用 itemsets, rules = apriori(data, min_support=0.5, min_confidence=1) print(itemsets){1: {('徐峥',): 7, ('黄渤',): 9}, 2: {('徐峥', '黄渤'): 7}} print(rules) [{徐峥} -> {黄渤}]
通过上述分析可以看出:
在宁浩的电影中,用的最多的是黄渤和徐峥,黄渤9次,支持度100%,徐峥7次,支持度78%,(‘徐峥’, ‘黄渤’) 同时出现7次,置信度为100%,看来有徐峥,必有黄渤,真是宁浩必请的黄金搭档,且是一对好基友。
 
当然,这个数据量比较小,我们基本上肉眼也能看出来,这里只是提供一个分析案例和基础方法,巩固下基础知识,算是开胃菜,大规模的数据,人眼无法直接感知的时候,算法的挖掘与发现,就显得特别有意义了,后续会陆续推出相应的文章。

 

转自:https://mp.weixin.qq.com/s/2iNO3som2MUnhJroMn9y5Q

读书:赵志强《Python量化投资:技术、模型与策略》

对于量化投资,Pythoner 学习流程一般可以分为如下六个部分。1)了解基础语法和数据结构。2)掌握Pandas的使用基础并进阶。3)掌握统计理论及金融学术理论。4)掌握金融量化实践、策略研究理论。5)学习回测平台开发。6)学习平台开发。

chp1 简介

广义,凡是借助于数学模型和计算机实现的投资方法都可以称为量化投资。

国内比较常见的量化投资方法包括股票多因子策略(阿尔法)、期货CTA策略、套利策略和高频交易策略等

量化投资策略的最大特点是其具有一套基于数据的完整交易规则。

量化投资的优势可以总结为三个词:客观性、大数据、响应快。量化投资一般通过回测来证实或者证伪策略的历史有效性;在研究或者决策中,通常会引入大量的数据来进行分析。;用计算机进行自动分析,所以分析和响应速度都十分迅速,一般能达到秒级,高频交易甚至是以微秒为单位的。

夏普比率是一种衡量策略表现是否优秀的常用指标,夏普值越高表示策略越优秀。

投资不是“优化”问题,投资是“预测”问题,是要预测市场的下一步应该怎么走。

AI在金融投资领域最大的问题是,可用的样本数据极其有限,也无法大量生成。股市有多少历史数据,就有多少样本数据,但也只有这么多。极其有限的样本数据,加上极其庞大的特征维度,是AI在金融预测建模上举步维艰的根本原因。众所周知的是,训练数据是AI的基本养料,数据有限,就会导致模型很难得到大幅度的提升。就那么多有效的因子,大家反复挖掘,失效的速度也越来越快。

在数据分析领域(包括量化投资),编程语言具有两大作用,一个是科学计算、统计等算法层面,主要用于业务的相关研究;另一个是系统应用开发,主要用来搭建基础IT设施,比如数据库、交易平台等。

python是坠吼滴

chp2 平台与工具

python 3.x ;Anaconda;IDE()

chp3 Python金融分析常用库介绍

NumPy(Numerical Python的简称)是高性能科学计算和数据分析的基础包

SciPy 是基于NumPy的,提供了更多的科学计算功能,比如线性代数、优化、积分、插值、信号处理等。

Pandas具有NumPy的ndarray所不具有的很多功能,比如集成时间序列、按轴对齐数据、处理缺失数据等常用功能

StatsModels是Python的统计建模和计量经济学工具包,包括一些描述统计、统计模型估计和推断。一般来讲,StatsModels能够很好地满足各类研究人员的统计计算需求。

DataFrame是一个表格型的数据结构

对于DataFrame数据类型,可以使用[]运算符来进行选取,这也是最符合习惯的。但是,对于工业代码,推荐使用loc、iloc等方法。因为这些方法是经过优化的,拥有更好的性能。

chp4 可视化分析

Python的可视化分析最底层的库是Matplotlib

Pandas 简单的可视化

seaborn 统计可视化库

本质都是调用 Matplotlib

散点图是最常用的探索两个数据之间相关关系的可视化图形

直方图主要用于研究数据的频率分布

Matplotlib和seaborn的中文乱码问题的解决方案。第一种是在画图的时候指定字体,第二种是修改配置文件

seaborn已经封装好了很多功能,在进行可视化分析时,优先考虑使用seaborn

javascript 中的 highcharts可以绘制很多动态的可视化图形,进行数据可视化研究非常方便。https://www.highcharts.com/stock/demo/intraday-candlestick

python 调用highcharts :https://github.com/kyper-data/python-highcharts/blob/master/examples/highstock/candlestick-and-volume.py

chp5 统计基础

以下都是numpy库内函数

rand和random_sample都是均匀分布(uniform distribution)的随机数生成函数。rand_sample传入一个n维的元组元素作为参数

randn 和 standard_normal是正态分布的随机数生成函数

randint和random_integers是均匀分布的整数生成函数

shuffle可以随机打乱一个数组,并且改变此数组本身的排列。

Permutation用于返回一个打乱后的数组值,但是并不会改变传入的参数数组本身。

N次伯努利试验的结果分布即为二项分布。使用binomial(1,p)即为一次二项分布。使用binomial(1,p,n)即表示生成n维的二项分布数组,也就是伯努利分布。

统计量,就是利用数据的函数变化,从某种维度来反映全体数据集的特征的一种函数。

mean函数可用于计算数组的平均值

median函数可用于计算数组的中位数

std函数用于计算数组的标准差

var函数用于计算数组的方差

频率分布直方图其实是对一个变量的分布密度(分布)函数进行近似估计的一个手段。

np.histogram可以用来计算一位数组的直方图数据

SciPy包含了大量的处理连续随机变量的函数,每种函数都位于与其对应的分布类中。每个类都有对应的方法来生成随机数,从而计算PDF、CDF,使用MLE进行参数估计,以及矩估计等。

回归分析是通过建立模型来研究变量之间的相互关系并进行模型预测的一种有效工具。

案例:以平安银行的月度收益率为例来了解某只股票的风险回报率是否与大盘指数基金风险回报率有关,且相关度有多高?

思考的问题是,如果大盘涨1个点,那么平安银行股票统计概率上会上涨多少点?

假定如下模型:银行月度收益率=α+β*深证成指月度收益率+ε

即平安银行月度收益率与深证成指月度收益率呈线性相关,并且受随机扰动项影响

这又带来了新的问题。这个结论可靠度有多高?这个系数会不会浮动?从历史数据来看,这个浮动区间应该是多少?

能否利用数据来拒绝这一假设。这一类问题,在统计学上统称为假设检验(Hypothesis Testing),为了解决这一问题,需要使用的手段被称为统计推断(Statistical Inference)。

当我们拒绝这个正确的假设时,我们犯的错误,称为第一类错误(Type I Error)

即使假设是错误的,我们也会接受这个假设,这类错误称为第二类错误(Type II Error)

拒绝假设的概率函数称为功效函数(Power Function)。而由于我们无法同时满足最小化两类错误,因此必须要寻找到一个平衡点,以控制更严重的错误,并适当牺牲犯不严重错误的概率。哪一类错误更为严重是根据实际问题来确定的。

常用的设计检测框架的模式是,控制第一类错误的发生概率,并且调节假设,使得发生第一类错误更加严重,这个严重度会得到统计学者的控制。

chp6 数据预处理和初步探索

收集到初步的样本数据之后,接下来需要考虑的几个问题是:样本数据的质量是否有问题,如果有问题,应该怎么处理?样本数据是否出现了意外的情况?样本数据包含哪些基本的统计特征,有没有明显的规律?为了便于后续的深入分析和建模,我们需要对数据进行哪些处理?

数据清理:原始数据的可能问题,数据缺失、噪声或者离群点、数据不一致

中心趋势度量主要包括均值、中位数、众数

数据散布或者发散的度量。这些度量包括方差、极差、分位数等。

方差和标准差是最常见的数据散布度量,它们可用于指出数据分布的散布程序。低标准差意味着数据趋向于非常靠近均值,而高标准差则表示数据散布在一个大的范围中

极差是数据中最大值和最小值的差值,数值X的N个样本x1,x2,…,xN的极差可以记作max(X)-min(X)。

挑选某些数据点,这些数据点刚好可以将数据划分成大小相等的集合,这些数据点称为分位数

直方图是以一种图形方法来概括给定数值X的分布情况的图示。

散点图(scatter plot)是确定两个数值变量X、Y之间看上去是否存在联系,以及具有怎样的相关模式的最有效的图形方法之一

五数概括由中位数、两个四分数、最小、最大值组成

chp7 Pandas进阶与实战

可以将多重索引对象看成是一个由元组(tuple)元素组成的数组,其中,每一个元组对象都是唯一的。MultiIndex既可以由嵌套数组创建(使用MultiIndex.from_arrays),也可以由元组组成的数组创建(使用MultiIndex.from_tuples),或者指定每个维度的索引值,自动循环生成索引(使用MultiIndex.from_product)

chp8 金融基础概念

上海中考数学,进四校八校和市重点要多少分?

依据2021年新中考第一年,从考试数据看,对于我们即将参加2022届中考的初三毕业生,参考价值极大。
 其一,【数学科目】的成绩要求,进不同类型的高中,大体依旧是:
  • 普通高中,120-130分
  • 区重点高中,135分左右
  • 普通市重点高中,140分左右
  • 四校八校,145分左右
  其二,要拿到高分成绩,从试卷结构看,拉开大家差距的主要是这几题:
第【18】题,4分,填空题,基本上常考三角形的翻转转折
第【23】题,12分(共2小问,6+6)考查相对简单的几何证明
第【24】题,12分(共3小问,4+4+4)考查数形结合二次函数与三角形四边形的几何知识压轴题
第【25】题,14分(共3小问,3+5+6)则是几何和代数的二次函数与圆的运动所产生的相似、动点问题的大综合压轴题目
尤其是18,24,25题,相对最难。
  其三,那我们细看一下,在一张试卷中:
要考到普高120-130分,允许丢分题是
第18题—4分   
第23题(第2问)—6分
第24题(第2问) — 4分  
第24题(第3问) — 4分
第25题(第2问) — 5分   
第25题(第3问) — 6分
考到区重点135分左右,允许丢分题是
第24题(第3问) — 4分
第25题(第2问) — 5分   
第25题(第3问) — 6分
️考到普通市重点140左右,允许丢分题是
第24题(第3问) — 4分  
第25题(第3问) — 6分
如果四校八校,145左右,允许丢分题是
第25题(第3问) — 6分
那么,初三的小朋友,在进行中考前的训练时,就可以非常有针对性地进行练习,抓住薄弱点和题型,使得目标更加清晰。
(下图考情是基于历年考情整体分析,供参考)
上海中考数学,进四校八校和市重点要多少分?
 
  • 上海中考数学,进四校八校和市重点要多少分?

转自:https://mp.weixin.qq.com/s/5Oa4dVHjy9GxGy6EzdFUWQ