庆云古诗词

庆云古诗词

OpenAI发布GPT-4:能识图能算税,ChatGPT再次进化

淘文章 0
OpenAI发布GPT-4,openai发布会,openai gpt-3,opengpu

本文来自微信公众号:硅星人 (ID:【【微信】】),作者:【【微信】】,原文标题:《【【微信】】发布GPT-4:能识图能算税,ChatGPT摆脱Chat,再次进化》,题图:Greg Brockman,【【微信】】联合创始人

离发布仅仅四个多月,在ChatGPT展现了惊人的实力之后,【【微信】】又扔下了一颗核弹:

GPT-4发布了。

在今天的博文中,【【微信】】写道:

我们创建了GPT-4,这是 【【微信】】 努力扩展深度学习的最新里程碑。GPT-4 是一个大型多模态模型(接受图像和文本输入,提供文本输出),虽然在许多现实世界场景中的能力不如人类,但在各种专业和学术基准上表现出人类水平。

好像和上一代还是差不多?放心,这是【【微信】】谦虚了。

在随后YouTube上进行的Li【【微信】】中,【【微信】】的总裁和联合创始人Greg Brockman展示了GPT-4的真正实力――总结文章、写代码、报税、写诗……GPT-3.5做不到的, GPT-4轻松拿下。

但这仅仅是表面,GPT再一次进化,虽然可能不是你想的那样。

新的模型:迭代优化

怎么样证明一个人比另外一个人更厉害?考试。

那怎么证明一个AI模型比另外一个更厉害?同样是考试。

【【微信】】让GPT-4在参加了许多项人类的通用考试,结果证明,它在许多测试和基准测试中的表现比前一代确实大大提高:

根据他们的测试结果,GPT-4的SAT分数增加了150分,现在能拿到1600分中的1410分;

它能通过模拟律师考试,分数在应试者的前10% 左右,相比之下,GPT-3.5的得分在倒数 10% 左右;

在SAT阅读考试中和SAT数学考试中,GPT-4的成绩都能达到领先的排名……

“我们花了6个月的时间使用我们的对抗性测试程序,以及在ChatGPT身上累积的经验教训来迭代调整GPT-4,从而在真实性、可操纵性和拒绝超出设定范围方面取得了有史以来最好的结果。”【【微信】】称。

“我们的 GPT-4 训练运行(至少对我们而言!)前所未有地稳定,成为第一个我们能够提前准确预测其训练性能的大型模型。”

此外,GPT-4还有了一个质的飞跃――可以开始处理图像。

经常使用ChatGPT的人肯定知道,它只能处理文本,但GPT-4开始接受图像作为输入介质。

在【【微信】】提供的一个示例中,GPT-4准确地回答了几个网络meme为什么搞笑的问题(虽然解释得并不好笑)

 图源:《纽约时报》

在《纽约时报》提供的案例中,同样可以看出GPT-4可以同时解析文本和图像,这也使它能够解释更复杂的信息。不过,目前图像输入的权限尚未公开,所以目前还没看到更多例子来证明GPT-4在图像方面的处理能力。

在随后举行的Li【【微信】】中,【【微信】】也表示,还没有公开提供这部分技术,但已经在和一家名为Be My Eyes的公司进行合作,对方会使用GPT-4来构建服务。

此外,GPT-4已经开始具备一点点的幽默感。它已经可以讲出一些模式化的、质量不咋样的冷笑话――但是,至少它已经开始理解“幽默”这一人类特质。

图源:《纽约时报》

当然,更多的方面,GPT-4的改进是迭代性的。在随意的谈话中,GPT-3.5和GPT-4之间的区别可能很微妙。但是,当任务的复杂性达到足够的阈值时,差异就会出现――GPT-4比GPT-3.5更可靠、更有创意,并且能够处理更细微的指令,可以更准确地解决难题

比如说,北卡罗来纳大学教堂山分校的医学副教授兼心脏病专家Anil Gehi就向GPT-4描述了他一天前看过的一位患者的病史,包括患者术后出现的并发症被送往医院,描述中包含几个外行人无法识别的医学术语。

当Gehi医生问GPT-4应该如何治疗病人时,GPT-4给了他完美的答案。“这正是我们对待病人的方式,”Gehi医生说。当他尝试其他场景时,GPT-4给出了同样令人印象深刻的答案。

当然另外一个好消息是,GPT-4对于英语以外的语种支持也得到了大大的优化。

许多现有的机器学习基准测试都是用英语编写的。为了初步了解GPT-4在其他语言上的能力,【【微信】】使用 Azure Translate,将一套涵盖57个主题的1.4万多项选择题的MMLU基准,翻译成了多种语言,然后进行测试。

在测试的26种语言中,有24种语言,GPT-4优于 GPT-3.5和其他大语言模型的英语语言性能。

其中中文达到了80.1%的准确性,而GPT-3.5的英文的准确性为70.1%,也就是说,在这个测试中,GPT-4对于中文的语言理解,已经优于此前ChatGPT对于英文的理解。

Li【【微信】】:报税、写诗、写代码,无所不能

如果说着这些数据、案例,似乎还难以让人直观感受到GPT-4的真正实力,那么【【微信】】的总裁和联合创始人Greg Brockman,就亲自在YouTube上进行了一把直播,来实时演示Li【【微信】】中,展示了GPT-4的真正实力――总结文章、写代码、报税、写诗……GPT-3.5做不到的, GPT-4轻松拿下。

Greg Brockman 图片来自:【【微信】】

Greg Brockman展示了GPT-4的新的使用界面,左侧是系统框,可以规定AI的角色,以及整体的回答原则,中间则是对话框,可以输入具体的对话形态来对具体的内容进行调整、追问或者给出反馈。最右侧是一些参数设置。

在演示中,Brockman就使用使用左侧的“系统”框,让GPT-4相继成为“ChatGPT”、“AI编程助手”、“TaxGPT”,来解决不同的问题。

ChatGPT模式下,GPT-4可以处理超过2.5万字的文本,可以轻松地总结一篇超长文章的核心内容,比如把【【微信】】今天发布的这篇讲述GPT-4的雄文总结要点。

甚至还可以像在演示中的那样,以各种奇怪的形式来提炼它――比如,以全是“G字母开头”的单词来总结。

或者要它把这些内容要点写成一首诗。

在“AI编程助手”模式下,还可以让它轻松写代码,生成一个网站,或者更复杂的,写一个基于Discord的机器人,如果出现错误,比如要调用比较新的API而出错,甚至也不需要向它解释,而是把错误代码复制进去,它就会自动纠错,生成新的代码。

或者要它变身成TaxGPT,要它基于税务法则,来计算出一对夫妻要缴纳多少税,而且还要把计算理由一步步写出来,让人们可以检阅。

对于GPT-4展示出的专业能力,Greg Brockman大为赞赏,他表示那段税务文件,他自己读了半个小时也没有搞懂,然而GPT-4却可以很快给出答案。

或许这段不到一个小时的演示,才真正道出了GPT-4的强大之处――它不再仅仅是普通用户的“聊天机器人”,而将成为开发者手中的利器,在文本、编程、税务以及更多可以想见的领域,成为强大工具的开发基石。

从这一点来说,它比ChatGPT带来的影响,将更加广泛。

满嘴跑火车:还在跑,但是好一点

不得不提的是,尽管功能强大,但 GPT-4 与早期的 GPT 模型具有相似的局限性。最重要的是,它仍然不完全可靠――它仍然会大胆自信地编造事实,并且会出现推理错误。【【微信】】强调,仍然推荐在使用它的时候要附加诸如人工审查、或者附加上下文,甚至在高风险情境中,要避免使用它。

在GPT-4公告中,【【微信】】强调该系统已经接受了六个月的安全培训,在内部对抗性真实性评估中,GPT-4的得分比最新的GPT-3.5高:“响应不允许内容的请求的可能性降低了 82%,产生真实事实的可能性提高了 40%,优于 GPT-3.5。”

这也意味着, GPT-4 相对于以前的模型来说,还是显著地减少了一本正经胡说八道的频率,而且用户千方百计提示它以让它说出被禁内容的成功率,也小了很多。

但是,这并不意味着系统不会出错或输出有害内容。例如,微软透露其Bing聊天机器人其实一直由GPT-4提供支持,但许多用户还是能够以各种创造性的方式打破 Bing的护栏,让机器人提供危险的建议、威胁用户和编造信息。

此外,GPT-4仍然是基于2021年9月之前的数据训练的,这也意味着它和前一代一样,仍然缺乏对于2021年9月之后的数据的有效理解。

“GPT-4 仍有许多已知的局限性,我们正在努力解决,例如社会偏见、幻觉和对抗性提示。”【【微信】】表示。

应用:面向开发者,越来越贵

当然,除了表现方面,还有一个明显的不同是,ChatGPT-4比以前的版本“更大”,这意味着它已经接受了更多数据的训练,因此运行起来也更加昂贵。【【微信】】 只表示它使用了微软Azure来训练模型,但没有公布有关具体模型大小或用于训练它的硬件的详细信息。

这也意味使用它的成本越来越高。与ChatGPT不同的是,这个新模型目前还不能免费公开测试,虽然它鼓励开发者申请试用,但是将需要上等待名单。

新模型将提供给ChatGPT的付费用户ChatGPT Plus(每月20美元),也将作为API的一部分提供,允许开发者付费将AI集成到他们的应用程序中。【【微信】】表示,多家公司已经将GPT-4集成到他们的产品中,包 Duolingo、Stripe和Khan Academy等。

当然,如果你不是开发者或者付费用户,但是实在是想尝尝鲜,微软的Bing会是最好的选择――Bing的AI聊天机器人,过去六周以来,已经开始使用GPT-4了

你感觉到了吗?

本文来自微信公众号:硅星人 (ID:【【微信】】),作者:【【微信】】


叠加效应的k线 k线中的蝴蝶效应

叠加效应的近义词,叠加效应的加持下,叠加效应名词解释,叠加原理的前提

如今,高频交易 (HFT) 系统利用复杂的数学方程和算法来交易市场,并且非常成功。

有数据统计,美国最大的两家高频交易公司 Tradebot 和 Getco 占美国所有股票交易的 15%-20% 左右。而现在的公开数据表面,量化交易已经占到北美交易市场的约60%。

另有政府支持的调研报告结果显示,欧洲三分之一到一半的股票交易,以及美国三分之二以上的股票交易是高频交易。由此看出,量化交易一直在推动金融市场的发展。

稳定而持续的盈利,才可以充分享受复利带来的爆发性收益增长,然而在市场中寻找到可以实现这样的投资结果的方式,极度困难。

不过,高频交易表现出稳定的业绩特性,几乎达到了收益性和风险性最高兼容。那么,拥有优质高频人才,基本就等于有了持续稳定的现金流入吗?

《Science Research Writing for non-nati【【微信】】》

我读博士期间,真的把这本书背下来一大半。一直到现在,也会时不时背一下。

推荐需要写paper的博士生背下来,写文章事半功倍。

更新:做了一份PDF版,需要PDF的朋友,关注公众号“古辛说”,发送关键词“清单”就能免费获得,公众号可以自动回复。

以下为原回答:

来分享下我为自己和家人准备的物资清单,以供战时或灾时使用,仅供大家参考。

食物,水和药品,是储备物资的核心,这三类物资要准备充分。食物和水是维持生命的关键,离不开;医疗资源战时优先供应军队和上层,普通老百姓只能靠自己,所以要提前准备好自家使用的。

方便食品优先储备,因为这些食物不需要烹饪,开盖即能食用。方便食品优先储备抗饿的,能长时间保存的。

1.1压缩饼干

压缩饼干肯定是要储备的,非常抗饿,而且保质期特别长,可以买铁罐包装的。

1.2 肉类罐头

肉类罐头也需要准备一些,比如鱼肉罐头,午餐肉等等。

1.3方便面

方便面也要储备一些,有热水就能食用,没有热水干吃也行。

1.4水果罐头

光吃压缩饼干,久了肯定扛不住,水果罐头也需要准备一些。

2.1米、面、油、粉

家里可以多准备一些米,面,油,粉这些主食,真空包装的米可以放很久,如果米拆了包装要尽快吃,不然会长米虫。面,油,粉这些食物可以放很久。

如果家里有条件的话,也可以买几百斤稻谷放在家里干燥处存放,稻谷可以存放很久。再备一台打米机,需要吃米的时候,就把稻谷打成米来吃。

2.2干货类食物

晒干的蔬菜往往可以存放很久,比如干豇豆,干菌菇,木耳等等干货类蔬菜,可以列入家里的储备物资清单。

腊肉

腊肉要买那种晒干的腊肉,晒干的腊肉可以存放很久。现在有些腊肉没有晒干就在卖了,没晒干的腊肉存储不了很久。

除腊肉之外,还有风干的鸡,鸭,鱼等等,都可以存放很久。

干豇豆

干木耳

笋干

干豆皮

鹿茸菇

除了食物之外,饮用水也很重要,人离不开水。

3.1纯净水

可以在储备物资库里放瓶装或桶装的纯净水。

3.2净水器

在家里准备几个净水器,如果自来水管道被切断了,就用净水器过滤雨水、河水等来喝。

单独把盐和白糖列出来,因为盐和白糖在特殊时期非常重要,人不能不吃盐,虽然现在很多城里人养生,讲究少盐少糖,但在特殊时期,盐的重要性无法被替代。

以前抗战时期,白糖属于战略物资。今后如果发生战争,白糖也会成为战略物资,优先供给军队,因为白糖的用处很多,可以短时间给人补充能量,还可以用来制作易燃易爆品。

白糖一般可以储存比较久,所以,最好是把白糖,也列入家里的储备物资中。

如果家里有婴儿和老人,除了以上的物资储备外,还要储备供婴儿食用的奶粉,和老人能够食用的易咀嚼,消化食物。

就算自己不抽烟,不喝酒,也要准备一些平价的烟和酒。烟是非常好的社交工具,在物资紧缺的时候,烟也是硬通货,以物易物的时候,非常好使。酒也一样,可以准备一些平价的酒。

咖啡是用来提神,让自己保持兴奋的,危急时刻难免需要熬夜,咖啡就能起到让自己不打瞌睡的作用。

可以囤一些蔬菜种子和营养土,就算在城市里,也可以在阳台种出新鲜的蔬菜,这样如果不方便外出买蔬菜,就能暂时解决新鲜蔬菜的问题。

也可以多囤一些绿豆,用来发绿豆芽,发绿豆芽比较简单。

要备一本急救手册,懂得一些基础的急救知识。因为战时医疗资源很紧缺,一些急救需要靠自己来解决。

推荐:对乙酰氨基酚、布洛芬

用药说明:

1、有慢性肝病首选布洛芬。

2、有消化道疾病的首选对乙酰氨基酚。

推荐:生理性海水鼻腔喷雾剂

用药说明:

1、感冒时可以用来缓解鼻塞。

2、鼻炎患者可以用来缓解鼻炎症状。

推荐:盐酸西替利嗪、氯雷他定

用药说明:

1、过敏症状,比如荨麻疹、过敏性鼻炎都可以使用。

2、对缓解感冒期间频繁的打喷嚏流鼻涕也有效果。

推荐:盐酸氨溴索、N-乙酰半胱氨酸、氢溴酸右美沙芬

用药说明:

1、盐酸氨溴索应避免与中枢性镇咳药(如右美沙芬等)同时使用,以免稀化的痰液堵塞气道。

2、乙酰半胱氨酸有特殊臭味和刺激性,应用时避免引起支气管痉挛。

推荐:口服补盐液Ⅲ、蒙脱石散、微生态调节剂

用药说明:

1、口服补液盐Ⅲ能补充水、钠、钾、葡萄糖等,补液又止泻,能够安全有效地治疗90%以上的各种腹泻,且安全性好。

2、微生态调节剂包括双歧杆菌、枯草杆菌、布拉氏酵母菌、地衣芽胞杆菌、酪酸梭菌、嗜酸乳杆菌等制剂。此类药物主要是补充生理性肠道细菌,纠正肠道菌群失调。

推荐:开塞露、乳果糖

用药说明:

1、开塞露使用中需注意,挤入直肠内应保留5-10分钟后再去排便,过早排便不能起到刺激直肠、润滑大便的作用。

2、乳果糖可防止大便硬结,刺激肠道,促进排便。

推荐:茶苯海明片、东莨菪碱贴剂

用药说明:

1、茶苯海明片在出发前30分钟服药,每4小时用药1次。坐车路程较短者,推荐本药。

2、东莨菪碱贴剂需在出发前4小时用药;最常见的不良反应是口干。

推荐:炉甘石洗剂

用药说明:

可用于蚊虫叮咬、长痱子止痒等。使用前记得摇一摇混匀。湿疹和皮肤有破损等情况不推荐使用。

推荐:碘伏、创可贴、莫匹罗星软膏、红霉素软膏

用药说明:

1、碘伏只能消毒杀菌,不能治疗细菌感染;如果小伤口出血,用碘伏消毒后,记得贴上创可贴。

2、创可贴要经常换,一般12小时左右换1次。

推荐:维生素C+复合维生素B

高猛酸钾的用处很多,可以用来消毒,也可以用来清洗私密处。

推荐:无菌纱布、绷带、棉球、体温计、血压计、一次性口罩、三角巾、棉签

酒精需要多准备一些,因为酒精不仅可以用来消毒,还可以用来制作防御工具。

医药箱用来收纳和存放所有药品,需要用到的时候,打开医药箱即可。

卫生纸非常重要,虽然不起眼,但哪里都需要用到。

卫生巾主要是方便女性使用。

蚊香和驱蚊花露水,夏天必备,没有驱蚊产品,夏天很难睡着。

去年夏天西部很多省份就在管制电力了,战争和灾难时期,电力资源肯定更加紧缺,空调应该是指望不上了,电风扇可以准备。如果电力被切断了,那么电风扇也用不了,就要靠其他工具,来降温防暑。

冰袋

降温喷雾

这个喷雾既能人用,也能车用。战时能源肯定既稀缺又高昂,夏天开车肯定舍不得开空调,那么可以使用这个降温喷雾来物理降温。

无论战时还是灾时,很多建筑物都属于危险建筑物,外出的时候戴上安全帽,可以有效保护头部。

绝缘防滑手套可以用来切断电源

绝缘雨靴可以让人在通电的水中行走,不会被电到。

战时和灾难时,电力资源紧缺,手动剃须刀会更方便一些。

当你身体比较虚弱,发不出声音的时候,救生哨子可以帮助你求救,只需要很小的力气,就能发出很大的声音,而且小巧,容易携带。

在战时和灾时,手电筒是很有必要的,既可以用来照明,还可以用来求救。

打火机也很重要,可以用来取暖,也可以用来求救。

瑞士军刀属于多功能刀具,一把刀就能搞定很多事,很方便。

战时和灾时手摇发电收音机是必要的,可以用来收听广播,获得外界的信息,手摇发电的,不用担心电力用光。

多功能手摇发电收音机,还有手电筒,充电器的功能。

对讲机可以用来实时通信

想要防止自家变成其他人的粮仓,基本的防御工具需要准备一点,比如弹弓,就很好使。

弹弓属于中距离工具防御设备,近距离的话,对于女性来说,辣椒水喷雾效果更好,朝敌人眼睛喷去,再踢裆,可以让敌人暂时失去战斗力,为逃跑赢得时间。

男性的话,可以准备棒球棒,平时放家里也不会违法。也可以在家里放一把复合弓,那玩意儿威力贼大,射程也远,属于远距离威慑工具,上手容易,远距离威慑敌人效果很好,不过平时要放好。

除了辣椒水喷雾之外,电棍也可以准备一个,小巧,容易藏在身上,用起来也方便。

防毒面具肯定是要准备的,不仅可以用来防毒,还可以用来放灰尘,防烟雾,避免灰尘和烟雾被吸入肺部。

无人机是强力空中侦察设备,自己不方便去的地方,可以通过无人机去查看,省时省力。俄乌战争期间,无人机是最主要的单兵侦察设备,而且不容易被击落,谁掌握的空中力量,谁的胜算就更大。

无人机的操控最好平常练习一下,可以用一些便宜的机子来练习,炸机了也不会心疼。

这东西最好用不到,但万一哪个国家被干急眼了,要掀桌子呢?

平常家里准备一些现金,零钱也要准备一些,有时候零钱比百元大钞更方便。

如果想对冲通胀,防止货币贬值的话,平时可以购买一些黄金,用来对冲通胀。盛世古董,乱世黄金,古董在乱世就是一堆破瓶瓶罐罐,带着很不方便。

如果胆子大的话,乱世可以收购古董,等到盛世再卖出。因为乱世的古董很便宜,但前提是自己的知识储备够,识货,不然会被骗。

有条件的话也可以准备一些外币(美元)在身边,方便跑路,美元在全球都是硬通货。

时间序列在我们的日常生活中是无处不在的,无论是个人,集体还是其他物品,总能够产生各种各样的时间序列。例如,在不同的时刻,每个人在地球上会有相应的经纬度信息,随着时间的变化,每个人的经纬度信息就会发生变化。如果用同样的时间间隔来获取这个人的经纬度信息,那么就可以得到一个时间序列。对于时间戳 而言,可以用 来表示经度,用 来表示纬度,那么 个时间戳产生的经纬度信息就是一条时间序列 。又例如大家都知道的股票,每天都有该股票的开盘价 ,收盘价 ,涨跌幅 等信息,那么将这些数据收集起来,同样可以获得时间序列 。上述两个例子属于多维时间序列的范畴,为了将重点放在介绍时间序列上,本文将重点介绍单维的时间序列,也就是每一个时间戳只对应一个值的时间序列

时间序列

针对长度为 的时间序列为 , 时间序列可以有两种看法,第一种是从时间序列的定义出发,把它看成一个具有先后顺序的序列,第二种则是把时间序列是看成一个多重集合(multi-set),暂且放下它的先后顺序的关系。如果作为集合,那么 就可以看成一个多重集,意思是它的元素可以有重复。集合的势由其每个元素的重数之和组成,将该集合的元素进行打乱,其集合依然是不变的。

那么在做时间序列特征的时候,针对先后顺序可以做出一批特征,针对多重集合也可以做出另外一批特征。在不同的场景下,其特征所发挥到作用是截然不同的。

时间序列的特征提取框架

从 tsfresh 的官网上找到上图,每一条时间序列(sample)都有其原始值(raw time series),基于相应的特征工程提取工具,就可以得到加工后的特征(【【微信】】)。提取时间序列特征的工具包括最大值(max),最小值(min),均值(avg)等。然后通过机器学习中的特征工程重要性的选择方法(feature importance calculation),得到相对重要的一批特征(selected features)。最后可以根据相应的分类,回归或者聚类,进行模型的训练和预测。

每一条时间序列(sample)都有其原始值(raw time series),基于相应的特征工程提取工具,就可以得到加工后的特征(【【微信】】)。提取时间序列特征的工具包括最大值(max),最小值(min),均值(avg)等。然后通过机器学习中的特征工程重要性的选择方法(feature importance calculation),得到相对重要的一批特征(selected features)。最后可以根据相应的分类,回归或者聚类,进行模型的训练和预测。

通过 tsfresh,用户可以直接提取时间序列的特征,可以提取的内容包括:

  • Comprehensi【【微信】】:全面特征提取;已经封装好,并且把以上特征的参数之类的写好,直接提取即可;
  • EfficientFCParameters:是 Comprehensi【【微信】】 的子类,用于计算那些时间复杂度低的特征;去除 high computational costs 的特征;
  • IndexBasedFCParameters:是 Comprehensi【【微信】】 的子类;只计算有下标的时间序列特征,与 TimeBasedFCParameters 不一样;
  • TimeBasedFCParameters:是 Comprehensi【【微信】】 的子类,用于计算有 DatetimeIndex 的特征;
  • MinimalFCParameters:是 Comprehensi【【微信】】 的子类,选择最小参数进行计算。

tsfresh 开源工具可以提取时间序列的很多特征,开发者在工具包中开发了各种各样的特征提取方法。

时间序列的特征:最大值,最小值,均值,中位数,局部最大最小值个数

如上图所示,这条时间序列对应着很多特征,例如最大值(max),最小值(min),局部最大最小值个数(number peaks),中位数(median),均值(mean)等。除此之外,基于 tsfresh,开发者还可以提取更多的时间序列特征。这些特征工程的计算方法可以在 tsfresh 的 tsfresh.feature_extraction.feature_calculators 模块找到。下面来逐步介绍这个模块的一些特征工程方法。假设时间序列用 来表示,时间戳 对应的值是 。

时间序列最容易提取的就是各种各样的统计类特征,假设时间序列用 来表示,时间戳 对应的值是 。

对于时间序列而言,像均值(mean),中位数(median),方差(【【微信】】),偏度(skewness),峰度(kurtosis)等就是统计学中的经典指标都可以作为时间序列的统计特征。用数学公式表示就是:

基于时间序列的均值,方差等特征,时间序列有许多可以归一化的方法,假设时间序列 是一个非常值序列,那么我们可以用以下方法来进行归一化:

其中 是时间序列的均值, 是时间序列的标准差(方差的平方根)。上述两个公式都可以将时间序列进行归一化,并且 成立。

特征函数 返回的是时间序列的和,用数学公式来表示就是:

特征函数 返回时间序列的值的平方和,用数学公式来表示就是

特征函数 表示计算时间序列 的平方和的均值的平方根,用数学公式表示就是:

特征函数 返回时间序列最大的绝对值, 返回时间序列最小的绝对值,用数学公式表示就是

特征函数 返回时间序列差分的绝对值之和,特征函数 返回差分的均值,特征函数 返回差分的均值,特征函数 返回二阶差分的均值,用数学公式来表示就是

与差分相关的还有函数 ,用数学公式表示就是:

如果我们想计算时间序列 是否位于某个值上方或者某个值下方,则可以考虑使用以下几个特征函数。count above,【【微信】】,count above mean,【【微信】】 mean 就是用来计算时间序列的取值分布的,更精确地说则是:

  • 返回时间序列 中大于 的值的比例;
  • 返回时间序列 中大于均值的个数;
  • 返回时间序列 中小于 的值的比例;
  • 返回时间序列 中小于均值的个数。

特别地,如果想知道时间序列 大于或者小于某个值的最长连续长度,可以使用以下两个特征函数:

  • 返回大于时间序列 均值的最长连续子串的长度;
  • 返回小于时间序列 均值的最长连续子串的长度。

某些时候我们想知道时间序列的最大值,最小值在时间序列中的相对位置,则可以使用

, , , 这四个特征函数。它们返回的是时间序列 的最大或者最小值的相对位置,相对时间序列 的长度而言,返回的值范围是 。其中,

  • 和 分别指的是最大值和最小值第一次出现在时间序列中的相对位置;
  • 和 分别指的是指的是最大值和最小值最后一次出现在时间序列中的相对位置。

如果我们想知道时间序列中某个值出现的次数,可以参考特征函数 ,它返回的是时间序列 中值是 value 的个数。特别地,如果我们想知道时间序列的是否存在重复的值,就可以参考 tsfresh 中的 duplicate 类特征函数。详细来说:

  • 返回在时间序列 中是否存在一个值出现多次,如果存在返回 True,否则返回 Falses;
  • 返回在时间序列 中的最大值是否出现多次,如果存在返回 True,否则返回 Falses;
  • 返回在时间序列 中的最小值是否出现多次,如果存在返回 True,否则返回 Falses。

如果想进一步地知道重复的点所占据的比例,可以考虑 percentage 类函数,其定义是:

  • 返回重复出现的点所占据的比例;
  • 返回不同值出现的次数除以不同值的个数。

如果想查看时间序列 中只出现了一次的值在全局中的占比,可以直接使用函数 ,它返回的是时间序列 中唯一值的个数除以时间序列 的长度。除了计算重复值的比例之外,也可以计算出这些重复值的和。特征函数

  • 表示将时间序列 的重复数据点进行求和;
  • 表示将时间序列 的重复值的求和。

举例来看:

对于时间序列而言,很可能会穿越某个值 多次,所谓穿越就是时间序列的连续两个点 满足这个条件 。基于这个定义可以得到一个特征函数 ,它返回时间序列 穿越 的次数,穿越一次指的是时间序列的连续两个点,一个大于 ,另一个小于 。

由于时间序列是一个离散的序列,对于极大值点而言,可以查看它在多大的邻域内是极大值点。可以考虑特征函数 ,其中 是时间序列, 是邻域(support)的大小,该函数返回邻域 的极大值个数。例如,对于时间序列 而言,4 是邻域 1 和领域 2 的极大值(peak),但是对于邻域 3 而言,4 就不是邻域 3 的极大值。另外,特征函数 也是同样的含义,只不过在时间序列 进行小波变换之后再考虑其邻域 的极大值。

为了计算在给定的最小和最大值范围内的时间序列的点的个数,可以考虑函数 ,返回的是时间序列 在 内的点的个数,注意这个地方是左闭右开区间。除此之外,如果要查看时间序列中大于一定比例标准差的情况,可以使用函数 ,它返回的是在时间序列 中,有多少比例的点大于 ,其中 指的是时间序列的均值, 是比例值,std 指的是标准差。

如果均值和中位数偏差在一定的比例里面,时间序列 就看上去有某种对称性,函数 ,其中 是包含字典 ,其中 是一个 float 型的数字。该函数返回的是一个 boolean 的值,如果满足条件 ,则返回 1;否则返回 0。

【【微信】】_larger_than_standard_deviation:方差是否大于标准差。

基于一个滞后的参数 ,可以构造出时间序列的自相关性特征,例如:

其中 tras 表示 time_re【【微信】】tistic 的简称。

由于不同的滞后系数 可以产生不同的值,所以把这些值拼接起来可以提供一个向量。特征函数 可以返回 对于 成立。

根据时间序列的 AR 模型或者线性拟合模型,其实可以得到一些特征。就先以 AR 模型为例,给定一个参数 ,用 来拟合 ,于是其方程就是:

于是,特征函数 就会返回 和对应的 值作为特征。

除了自回归函数之外,还可以使用线性拟合方法(linear_trend,linear_trend_timewise),或者小波变换(cwt_coefficient,continuous_wa【【微信】】,number_cwt_peaks)的方法来获取特征。

为什么要研究时间序列的熵呢?请看下面两个时间序列:

  • 时间序列(1):[1,2,1,2,1,2,1,2,1,2,...]
  • 时间序列(2):[1,1,2,1,2,2,2,2,1,1,...]

在时间序列(1)中,1 和 2 是交替出现的,而在时间序列(2)中,1 和 2 是随机出现的。在这种情况下,时间序列(1)则更加确定,时间序列(2)则更加随机。并且在这种情况下,两个时间序列的统计特征,例如均值,方差,中位数等等则是几乎一致的,说明用之前的统计特征并不足以精准的区分这两种时间序列。

通常来说,要想描述一种确定性与不确定性,熵(entropy)是一种不错的指标。对于离散空间而言,一个系统的熵(entropy)可以这样来表示:

如果一个系统的熵(entropy)越大,说明这个系统就越混乱;如果一个系统的熵越小,那么说明这个系统就更加确定。

提到时间序列的熵特征,一般来说有几个经典的例子,那就是 binned entropy,approximate entropy,sample entropy。下面来一一介绍时间序列中这几个经典的熵。

首先,我们来看一下 Binned Entropy 的定义。从熵的定义出发,可以考虑把时间序列 的取值进行分桶的操作。例如,可以把 这个区间等分为十个小区间,那么时间序列的取值就会分散在这十个桶中。根据这个等距分桶的情况,就可以计算出这个概率分布的熵(entropy)。i.e. Binned Entropy 就可以定义为:

其中 表示时间序列 的取值落在第 个桶的比例(概率),maxbin 表示桶的个数, 表示时间序列 的长度。

如果一个时间序列的 Binned Entropy 较大,说明这一段时间序列的取值是较为均匀的分布在 之间的;如果一个时间序列的 Binned Entropy 较小,说明这一段时间序列的取值是集中在某一段上的。

其次,我们来看一下 Approximate Entropy 的定义。回到本节的问题,如何判断一个时间序列是否具备某种趋势还是随机出现呢?这就需要介绍 Approximate Entropy 的概念了,Approximate Entropy 的思想就是把一维空间的时间序列提升到高维空间中,通过高维空间的向量之间的距离或者相似度的判断,来推导出一维空间的时间序列是否存在某种趋势或者确定性。那么,我们现在可以假设时间序列 的长度是 ,同时 Approximate Entropy 函数拥有两个参数 与 ,下面来详细介绍 Approximate Entropy 的算法细节。

Step 1. 固定两个参数,正整数 和正数 ,正整数 是为了把时间序列进行一个片段的提取,正数 是表示时间序列距离的某个参数。i.e. 需要构造新的 维向量如下:

Step 2. 通过新的向量 ,可以计算出哪些向量与 较为相似。i.e.

在这