工具系列:记忆能力-记忆本质和训练方法

文 李红涛

一、记忆本质

记忆,在大脑中划分为两个能力不分,记录(储存)、回忆(输出调取);

用于记忆的四种材料:

图像、声音、文字、数字

被记忆的难以程度:

图像>声音>文字>数字

eg. 见到一个人,看到很容易想起来认识(图像),但很难想起来对方姓名(声音、文字);声音识别对也明显高于文字;

难点:需要将文字、数字的记忆能力提升,补充我们的短板;

 

目标:一目十行,过目不忘的能力;

原理:输入的信息需要进行处理,有系统的记录在大脑中;

左脑:逻辑思考、判断、理解、归纳、运算;负责语言、文字、数字;(不足:左脑没有担任记忆的功能)

右脑:空间、图像、灵感、直觉、融会贯通、音乐、旋律、感觉、运动。(优势:具有强大的记忆功能);处理资讯的能力非常强大;

 

二、传统记忆方法不足

传统记忆法:条列式的死记硬背

eg ①xx  ②xx  ③xx ④xx  ⑤xx 

每增加一条信息,都需要从前到后逐条记忆,顾虑是担心前面的信息会忘记;随着信息条数的增加,每条所记录的经历越来越少,导致都会忘记;

破解思路:需要将前面的信息先存起来;如何存?

 

 三、记忆锁链法训练

原理:记忆的时候使用跟铁链一样的思路;相互关联、可以分段记忆,达到整体记忆的效果;

记忆锁链训练

记忆锁链训练

 记忆思路:

结合四种材料记忆速度(图形>声音>文字>数字)、左脑右脑记忆优势(左脑负责语言、文字、数字,但不善于记忆;右脑善于记忆图形、声音)。即在记忆文字的时候,需要将文字图形化,则能利用到右脑强大记忆功能;

加深印象方法:以一种不可思议、反逻辑,夸张、夸大,达到记得住的效果;加深的手段,可以包括:视觉、听觉、味觉、嗅觉、触觉、运动;

记录苹果xx,则想象一个苹果图像,则能开启右脑记忆;

eg 1、苹果    2、金枪鱼  3、衣架  4、小鸟  5、望远镜

记住1&2 金枪鱼穿过苹果,卡在中间

记住2&3  把衣架挂在金枪鱼的尾巴上

记住3&4 小鸟站在衣架上

记住4&5 望远镜在小鸟嘴巴里

记住后面组合的时候,不用考虑前面组合是啥

后面每记住5组资料,则需要回顾加强记忆前面的形象;

过程对抗难点:在将文字图像化的过程中,会经历图像模糊、不清晰的问题。在逐步多加深使用图形化,会让图像更清晰、具体、多颜色; 这是一个图形化强化训练的过程;

 

使用上面的方法,继续扩展记忆20个图像:

eg 1、苹果    2、金枪鱼  3、衣架  4、小鸟  5、望远镜  6、胡萝卜  7、猩猩  8、戒子  9、手   10、马桶    11、乌龟  12、旗杆   13、拳击手套  14、钥匙  15、鳄鱼  16、麦克风  17、桌子  18、电脑  19、茶杯 20、鸡蛋

让上面20个材料信息,连成一幅画。记住20个材料信息,就变成了记住一幅画;

 

四、位置记忆法训练

科学家研究表明,人类大脑一般使用率在5%。一般在记忆东西的时候,不是大脑空间不够,而是空间太大,输入的信息不知道放在何处,待需要使用的时候不知道放在哪里?

位置记忆法,即将我们需要记忆的信息资料放在大脑熟悉的位置,方便调取使用;

我们使用身体部位,来划分我们的记忆位置;

身体定位:
1、脚底 6、喉咙
2、膝盖 7、嘴巴
3、皮带 8、鼻子
4、左手 9、眼睛
5、胸口 10、头顶

记住这十个身体位置,

现在我们来记住这十个身体代,将这些代排序,就是身体从下往上排。
第一个,脚底,踩踩脚底,好!
第二个,膝盖,拍拍膝盖!
第三个,皮带,摸摸皮带,光滑的感觉。
第四个,左手,伸伸左手,别伸了右手哦。
第五个,胸口,拍拍胸口,我一定能记住。
第六个,喉咙,摸摸喉咙,再捏一把,有点痛,记住了;
第七个,嘴巴,张张嘴巴,深呼吸,好!
第八个,鼻子,点点鼻尖,上面有豆豆吗?
第九个,眼睛,眨眨眼睛。
最后一个,头顶,摸摸头顶,希望上天的馅饼掉下来时不要砸到它!

练习就是购物清单
1. 纸巾 6、毛巾
2. 拖鞋 7、啤酒
3. 腊肠 8、词典
4. 红鱼 9、钢笔
5.电饭锅 10、烫斗

 

五、标签记忆法训练

在记忆的信息素材中,图像>语音>文字>数字,即数字是最难记忆的。标签记忆法主要针对数字记忆的方法;

11 筷子  位置在左手手掌,筷子很痛的刺在手上

12 时钟  位置+标签记忆。在左手的手肘 挂着一个时钟

13 巫婆 (13是黑色星期五的代名词 恐怖)腋下夹着一个扫把

14  医师 左边肩膀

15 月饼 左边的胸部

16 石榴 右手手掌上+石榴

17  拐杖  右手手肘+拐杖

18  身份证  右手腋下

19 一只狗 右边肩膀

20 鹅蛋 右边胸部

共计112个标签,将所有数字进行拆解记忆;

也可以参考其他数字图片记忆

 

 六、英语单词记忆法训练

在学习记忆中,英语单词是非常难记忆的。

字母锁链法

将ABCD 26个字母,关联记忆对应的图片;比如A—Apple 想象成一个苹果的图片;目标,在后续看到A字母,就能直接想象成苹果,方便加强记忆;

字母印象图片:

A a— 苹果,A-Apple 想象成一个苹果的图片

B b—蜜蜂,B看起来像蜜蜂的一对翅膀

C c—月亮

D d—马蒂

E e—天鹅

F f—镰刀

G g—蝌蚪

H h—梯子

I i—蜡烛

J j—雨伞

K k—国王

L l—拐尺

M m—麦当劳

N n—鼻子

O o—足球

P p—

Q q—

https://wenku.baidu.com/view/e51a8aa9ccbff121dc36834f.html

https://image.baidu.com/search/detail?ct=503316480&z=0&ipn=d&word=%E5%AD%97%E6%AF%8D%E8%AE%B0%E5%BF%86%E5%9B%BE%E7%89%87&hs=2&pn=2&spn=0&di=44330&pi=0&rn=1&tn=baiduimagedetail&is=0%2C0&ie=utf-8&oe=utf-8&cl=2&lm=-1&cs=1320189279%2C1853141086&os=886964676%2C4161724309&simid=3389999611%2C189960283&adpicid=0&lpn=0&ln=30&fr=ala&fm=&sme=&cg=&bdtype=0&oriquery=%E5%AD%97%E6%AF%8D%E8%AE%B0%E5%BF%86%E5%9B%BE%E7%89%87&objurl=http%3A%2F%2Fimg.ui.cn%2Fdata%2Ffile%2F2%2F9%2F9%2F2230992.jpg%3FimageMogr2%2Fauto-orient%2Fformat%2Fjpg%2Fstrip%2Fthumbnail%2F!1200%3E%2Fquality%2F90%2F&fromurl=ippr_z2C%24qAzdH3FAzdH3Fooo_z%26e3B7t_z%26e3BvgAzdH3F1jpwtsAzdH3F9nnl0b_z%26e3Bip4s&gsm=6&islist=&querylist=

https://www.wendangwang.com/doc/d79e70f8f21d3566db8ca801

 

 

AI开放平台介绍&AI模型性能调优纪要

文-李红涛

1. 背景说明

AI在业务层由各种各样的模型发挥着神奇的价值。开发者一般基于TensorFlow、paddlepaddle等深度学习平台进行AI模型训练;

AI开发平台,一般为这些深度学习平台下的子产品,提供机器学习能力,解决一站式模型开发、生产预测的平台;

 

一般AI开发平台包括如下能力:

  • 数据能力:数据获取、数据预处理(ETL)、数据集管理、数据标注、数据增强…
  • 模型能力:模型管理、模型训练、模型验证、模型部署、模型处理、模型详情…
  • 算法能力:支持各种算法、深度学习、数据运算处理框架、预置模型、算法调用、对算法组合操作…
  • 部署能力:多重部署方式、在线部署、私有化部署、边缘端部署、灰度/增量/全量部署…
  • 其他能力:AI服务市场、工单客服、权限管理、工作流可视化…

某AI商品模型训练平台如下,包括数据中心、模型中心,核心框架如下:

 

2. 模型调优阶段

在整个模型训练、开发、发布等环节,都会涉及到模型调优问题,比如训练效率低、模型训练效果不好等;

2.1 训练阶段调优问题

1、美团AI团队利用TensorFlow评论WDL推荐模型,针对性能瓶颈分析与调优如下:

在使用TensorFlow训练WDL模型时,主要发现3个性能问题:

  • 每轮训练时,输入数据环节耗时过多,超过60%的时间用于读取数据。
  • 训练时产生的网络流量高,占用大量集群网络带宽资源,难以实现分布式性能线性加速。
  • Hadoop的默认参数配置导致glibc malloc变慢,一个保护malloc内存池的内核自旋锁成为性能瓶颈。

 深入底层熟悉框架、处理逻辑,定位问题,最后给出解决方案

针对第一个问题,解决办法是使用TensorFlow Dataset接口,该接口不再使用Python线程读数据,而是用C++线程实现,避免了Python GIL问题。

针对第二个问题,社区提供了批量读数据接口TFRecordReader.read_up_to,能够指定每次读数据的数量。我们设置每次读入1000条数据,使读数句接口被调用的频次从10000次降低到10次,每轮训练时延降低2-3倍。

针对第三个问题,发现Hadoop有一项默认的环境变量配置限制进程所能使用的glibc内存池个数为4个。通过社区查询了解,将MALLOC_ARENA_MAX的默认设置改为4之后,可以不至于VIRT增加很多,而且一般作业性能没有明显影响。但这个默认配置对于WDL深度学习作业影响很大,我们去掉了这个环境配置,malloc并发性能极大提升。经过测试,WDL模型的平均训练时间性能减少至原来的1/4。

 

2、神经网络性能调优方案

https://www.jianshu.com/p/69e73704a709

(1)数据增广
(2)图像预处理
(3)网络初始化
(4)训练过程中的技巧
(5)激活函数的选择
(6)不同正则化方法
(7)来自于数据的洞察
(8)集成多个深度网络

 

3、自动调参-深度学习模型的超参数自动化调优详解

https://cloud.tencent.com/developer/article/1528472

 

2.2 模型迭代阶段

1 、模型效果优化技巧

http://www.python88.com/topic/55243

 

2、模型预测性能调优:

http://vearne.cc/archives/39300

 

2.3 模型上线前性能评估

1、模型评估性能指标

https://blog.csdn.net/u014203453/article/details/77598997

错误率、精度

准确率(查准率)、召回率(查全率)

P-A曲线 (平衡点)

mAP值-对AP值的平均值

AP值-平均精度值

 

3. AI开放平台发展趋势

AI开放平台总体目标:解决的是效率问题。

效率的提升体现在:
1、开发前(数据自动化处理、导入提速、数据自动化标注等)
2、开发中(模型组件化、模型训练效率、模型管理效率、自动调参)
3、开发后(模型发布效率、模型推理、迭代更替管理等)

 

基于效率,看到三个发展趋势:
1、PaaS平台趋向SaaS化,在做更多应用层的打包方案。本质上更简单、不用开发者/商户做过多开发,实则打包才具有更多差异性、让用户有更多依赖;服务的差异化

2、用户角色兼容性,向更多非具备开发能力/弱开发能力的多角色提供服务;
小白用户/pm/运营(搞定模型训练、可视化操作一键部署 eg.站长、创业者、公司一线业务人员)
弱开发者(基于PaaS或S-Paas能力就能满足 大量的模型市场,模型服务商提供中上层的服务 可以很方便快速调整模型 或者导入新数据训练新模型)
高阶开发者(基于底层IaaS能力,完全自主开发所需能力)

3、生态优势建设
腾讯云、阿里云,都有基于自身的泛娱乐、电商商户体系做服务。
金山云深挖的政企、视频、游戏等。

 

4. 概念科普

机器学习,是人工智能的一个分支;

深度学习,是机器学习的一个重要分支;深度学习的概念源于人工神经网络的研究,但是并不完全等于传统神经网络。深度学习可以说是在传统神经网络基础上的升级,约等于神经网络。

神经网络,是人工神经网络的简称。人工神经网络(Artificial Neural Network,即ANN ),是20世纪80 年代以来人工智能领域兴起的研究热点。 它从信息处理角度对人脑神经元网络进行抽象, 建立某种简单模型,按不同的连接方式组成不同的网络。 在工程与学术界也常直接简称为神经网络或类神经网络。

算法,用作训练模型的基础原理性能力,比如CNN 图像检索中的找相同-相似近邻检索;

模型,基于业务场景需求导向,基于算法+数据训练的解决问题的模型;

算力,模型训练所需要的计算能力,一般主要依靠CPU、GPU提供算力;

 

 

扩展阅读:

百度飞浆AI Studio  https://aistudio.baidu.com/

阿里云PAI 机器学习平台 https://help.aliyun.com/product/30347.html?spm=a2c4g.11186623.6.540.15e77d61BMqXV5

华为云ModelArts  https://www.huaweicloud.com/product/modelarts.html

京东云NeuHub https://www.jdcloud.com/cn/neuhub/all

使用TensorFlow训练WDL模型性能问题定位与调优
https://tech.meituan.com/2018/04/08/tensorflow-performance-bottleneck-analysis-on-hadoop.html

神经网络性能调优方案  https://www.jianshu.com/p/69e73704a709

AI平台详细介绍 https://zhuanlan.zhihu.com/p/102581335

金山云业务分析纪要

文-李红涛

1. 云计算行业背景

云计算结构存在较大差异,美国云计算市场以SaaS为主,占比达到64%;而中国云计算市场SaaS占比仅为33%。

国内云计算渗透率偏低,未来公有云市场空间巨大。根据GGV报告显示,中国网民人数是美国的3.2倍,中国的线上零售规模是美国的1.3倍,公司数量是美国的5.8倍,但是IT领域的花费却是美国的18%左右,国内公有云的渗透率仅10%,美国公有云的渗透率22%。

2. 金山云美股市场被看好

截止2020.7.11涨幅超过发行价41%(25.97→36.64),市值达到75亿美金;

美股市场对公有云服务商业模式已经熟知,美股云服务头部企业如,亚马逊、微软、谷歌、Salesforce、Adobe等;

弗若斯特沙利文的数据显示,自2018年以来,中国已成为全球第二大云服务市场,而增速更是已超过第一大市场美国,且国内云计算的市场渗透率远不及美国,发展潜力巨大。2015至2019年,美国云服务市场规模的复合年增长率为21.3%;相比之下,同期中国云服务市场规模的复合年增长率为37.7%,相差超过16个百分点。金山云2018-2020复合年均增长率在65%左右;

 

3. 2018-2019全年营收明细

2018 营收22亿,净亏损17亿(百度云33亿)

每个Q营收都在增加。推动云+AI。同时去小米化战略;

头部业务:视频、游戏、在线教育、企业云服务

潜力业务:

金融行业,推出金山云供应链金融解决方案

医疗领域,推出CloudHIS智慧医疗云平台已经在仙桃市全面应用、多家三甲医院落地智慧医疗试点

传媒领域,与人民网、陕西广电等开展深度合作,打造智慧传媒云引擎;

AIoT领域,发布智慧人居解决方案,并与途家网签署战略合作协议等。

 

2019 营收39亿,净亏损11.6亿(百度云70亿,亏损15亿)

营收来源:总需求量提升,垂直领域、新领域的客户增加、主要客户平均收益增加

2019 财年底,小米系为金山云贡献了人民币5.7亿元收入,占总收入的14%;支持小米云基础服务,包括AI和IOT项目;

2019公有云服务营收34亿占比87%,企业云服务营收4.86亿占比13%;2019年Q3和Q4的调整后毛利率分别为2.1%和4.8%。

 

2020 Q1营收13.9亿,净亏损3.31亿,同比亏损负增长64.6%;

疫情期间开发新的行业解决方案,eg.在线医疗、教育、远程办公和娱乐;

其中公有云营业收入12.09亿元占比87%,同比增长58.4%;企业云营收1.82亿元占比13%,同比增长118.8%。

2020年Q1的调整后毛利率为5.3%,毛利相比2019持续提升;

 

2021、2022年营收预期

综合各家投行给出的数据来看,2021年金山云的收入将在65亿元左右,而2022年的收入则将进一步增至105亿元左右,继续保持超过60%的高速增长。

 

4. 业务营收健康度

营收主要来自公有云服务,企业云服务起步较晚

2019、2020Q1金山云营收87%公有云服务(互联网行业相关服务),13%企业云服务(传统企业的私有云、混合云服务);其中企业云服务增长加速明显;

云计算生态营收单一,过于依赖CDN提升营收

总营收年均复合增长65%+,主要依赖CDN内容加速服务,在线上游戏、视频流以及其他线上娱乐方面业务较多;

二线企业缺乏能够间接变现云计算投资的生态系统。依赖销售利润率低的产品和服务,以促进收入快速增长。CDN是四种主要 IaaS 产品中利润率最低的产品,其他三种是计算、数据库和存储。2017财年至2019财年,金山云公共云服务毛收入的 58%来自分发业务(大都是CDN 业务)。阿里巴巴从 2015 年开始下调 CDN 定价,CDN 服务价格每年下跌近20%。大部分 IaaS 公司出售 CDN 服务的价格仅略高于成本,甚至毛利率为负。

小米系在自身业务增长趋缓,为金山云贡献有限

2019年小米系为金山云营收贡献占比14%

5. 营收发力点

增强获客能力

行业解决方案将成为渗透新客户的关键;强化云+AI战略,推出更多垂直行业解决方案

加强营销和销售投入

多云策略的选择

越来越多的企业已开始采取“多云”策略,以保证云服务的可靠性和安全性。因此,作为独立于“AT”的金山云,其在一定程度上能够减少客户的这种顾虑。金山云的客户就已包括字节跳动、爱奇艺、哔哩哔哩等不少互联网行业的明星公司;

 

6. 行业竞对

阿里-万网、电商形成中小企业生态;

腾讯-游戏泛娱乐生态 (投资长亮科技 to b)

百度云-云计算、智能金融、智能客服、渠道生态、IOT;东软-深耕垂直行业解决方案(医疗、政企等)、宇信科技(to b领域,比如银行)

UCloud 优刻得,港股市值368亿港币(47亿美元,略低于金山云75亿美元)

金融领域竞对:

1、平安云-视觉能力-人脸、OCR是核心业务;

2、第四范式-智能化、大数据领域;

3、度小满-金科服务平台(对个人的风险评估更全面)、智能客服

 

其他领域竞对:

微擎—围绕微信等大平台建设的可视化服务集成运维管理平台,无技术要求,方便运营;其他类似平台包括,微盟、小猪cms、有赞、点点客、微动力、微信管家、微米、乐享等;

宝塔—服务器可视化管理工具,linux下此类服务非常多;webmin、云帮手、旗鱼云梯、AppNode等;

 

7. 附录:常用行业名词

SaaS,Software-as-a-Service,软件即服务,有较强的业务属性。在云计算领域,算最上层的行业解决方案;类似成品;

PaaS,Platform-as-a-Service,平台即服务,有相关的业务属性,服务更具有通用型或灵活性。在云计算领域,会推出通用型AI平台、垂直型智慧金融、智慧工业平台服务,包括各种模型训练平台、数据标注平台等便利工具;客户会基于该平台能力进行上层业务开发,无需操心底层服务运维等;类似半成品;

aPaaS和iPaaS都属于PaaS系统;

 

aPaaS,应用程序平台即服务,是趋向于SaaS和PaaS之间。aPaaS平台提供了一个安全的、自由的环境,可以快速轻松地构建数据库应用程序、开发应用程序扩展、创建web门户或部署现成的可定制库应用程序。

 

iPaaS,集成平台即服务,趋向于IaaS和PaaS之间。iPaaS可以简化组织的整体系统。通过创建虚拟平台,iPaaS连接应用程序和资源,用来创建一致的结构。iPaaS框架创建了跨多个云、云与传统应用程序之间的资源无缝集成。iPaaS不仅致力于在云内集成企业系统,而且还致力于公共云和私有云之间的集成。

IaaS,Infrastructure-as-a-Service,基础设施即服务,无业务属性,纯底层服务。比如CPU、内存、存储、网络和其它基本的计算资源,用户能够部署和运行任意软件,包括操作系统和应用程序。开发者更自由开发自己要的中层、上层服务,对开发要求极高; 

 

参考说明:

2018-2019营收明细https://www.sohu.com/a/388931157_114984

2018业务分部 https://www.iyiou.com/p/95822.html

未来营收预期 http://finance.sina.com.cn/stock/usstock/2020-06-12/doc-iirczymk6691256.shtml

小米系对金山云营收贡献 https://finance.sina.com.cn/stock/relnews/hk/2020-06-13/doc-iirczymk6858405.shtml

2019公有云市场排行

2019公有云市场排行

工具系列:记忆能力-图形化记忆法

文-李红涛

文本的局限性

我们在获取信息、知识的时候,通常是来自文本、书籍;看着一行行的文字,却很难将信息记住;可能很费劲将一本书、一篇文章看完,但最后核心可能就记住了几句话;

远古人类记忆事物,最初是从图形化开始。即我们今天学习的汉字,大多数都是象形文字演变而来;

这说明我们的大脑乐于接受图形化的信息,确实很难快速记忆文本信息;

图形记忆法-一行行文本信息

图形记忆法-一行行文本信息

图形工具包

我们可以很方便的记住一些熟悉的图形,而且通过熟悉的图形进行快速的调整、演变,可以帮助我们记住其他含义;

这里我们列举TED知名图形记忆专家Graham Shaw自己创作的7个图形工具包,方便大家可以快速通过图形工具包,画出演变图形,记住其他信息;

图形记忆法-7个图形工具包

图形记忆法-7个图形工具包

对图形工具包演变的过程,本质是我们对每个基础图形的含义进行打标签,增加适用范围;

比如 一棵树,可以代表生命、成长、稳定

图形记忆法-基础图形的含义标签化

图形记忆法-基础图形的含义标签化

我们也可以整理自己擅长画的图形,作为自己的图形工具包;

担心自己没有绘画天赋吗?这不是核心问题,我们只要能够快速线条勾画出大概图形即可,并不是做艺术创作;

有兴趣同学,可以继续看看Graham Shaw对中风病患失去语言表达能力的病友,进行图形化表达培训。在这个过程中,发现病友很自觉的用非常用手(常用手中风失去行动力)进行绘画,且画出图形效果非常好;病友都可以做到的事情,正常人更应该有信心;

 

图形化记忆效果

了解了图形化记忆原理和工具包,那我们可以做什么?

简单,可以记住一个词,比如英语单词,图形化方便记忆;

图形记忆法-单词图形

图形记忆法-单词图形

中级,可以记住一个概念,比如白细胞可以击败病毒;

图形记忆法-记住一个概念/主体

图形记忆法-记住一个概念

高级,可以记住一个主题知识/文章。这是我们希望获得的终极能力;

但三个层级的能力,都需要逐步深入练习;

 

待更新补充如何记住一个主题知识

 

参考:How to draw to remember more | Graham Shaw | TEDxVienna

为什么人们认为他们不会画画,怎么证明他们可以 | Graham Shaw | TEDxHull

 

表达系列:应答自如-练习大脑反应速度

文 李红涛

在表达上,经常会出现大脑反应卡壳的现象,导致无法进行正常的回答互动;

卡壳,一类是因为紧张导致的大脑空白,另一类是自身的大脑反应机能迟钝。

紧张如何克服,请见该文(待更新链接)

下面继续探讨大脑反应迟钝的训练方法;

 

01 扑克牌训练法

1、制作这个扑克牌:

18个名词

18个动词

18个形容词,包括9个褒义,9个贬义。

词汇都要从晚报上找,一定要打印,打印的正规,好识别。

 

2、了解基本概念:

简单疑问句的要点:回答的话一般都很简单,用一两个字就可以回答;

复杂疑问句的要点:别人回答的时候,不能用简单的一两句话说清楚,不能是简单的是或否,也不能是好或不好。

 

3、基本训练方法

随机抽取扑克牌,用上面的词语来提问,尽量提出一个复杂疑问句,句子必须包含抽取到的词语。然后再抽取一张扑克牌,用上面的词语来回答提问,一直这么循环下去。

 

4、训练场景示例

①两个人在一起,第一个人拿出一张牌上面写“优秀”。用这个词进行提问造句;

一群人中总有优秀的一般的和落后的,我不知道你们公司用什么方式来鉴别谁是优秀的呢?”上面这是一个复杂疑问句。

②第二个人拿了一张牌,这张牌上写着“根深蒂固”。现在请用这个词汇回答前面的人的问题。

回答:我们公司鉴别优秀的人有三种方法:

第一种方法是这个人不能固执,他老用过去形成的东西,根深蒂固无法改变的东西,这样的人会落后的。

第二,这个人不能内向,内向他不跟人沟通,就无法跟上时代。

第三,这个人不能懒惰不愿意学习,他得是开放的心态。

如果符合这三条,起码在我们公司就算是优秀员工了。那么我想问,优秀员工除了这三条以外,还会有哪些表现你能看到他印证这三条呢。

③这个人回答完关于优秀的问题后,又问出了第三个问题,另一个复杂疑问句

“有哪些行为能够表现你刚才说的三条的优秀呢?”

④这次你抽到的词是“挑战”,用这个词回答刚才那个人留下的新的复杂疑问句。

练习要点:回答完了还要再问出一个新的问题。于是两个人就可以对话一直对下去。

 

5、难度组合训练——走上大师之路

当基本的训练已经不能满足你的时候,你就可以挑战更高难度的组合训练了。下面是一些高阶训练的方向,可以根据自身情况逐步进阶。

A.加上时间难度,就是在训练过程中,限定提问或者回答的时间,这个可以提升你随机应变的速度。

B.加上数量难度,一次抽一张牌改成抽取两张,同时用到两张牌来进行问答训练,提升想象力。据说郭德纲可以用8张牌的词语问答自如。

C.加上场景难度,让你的提问和回答只限定在某个类型的话题上。

D.加上角色难度,让你以某种固定的角色来训练,比如销售和客户关系。

E.加上词语难度,让扑克牌的简单词语,变成成语,变成诗句,变成歌词,变成网络流行语。

F.ABCDE再来个随机组合,我的天哪!如果这还难不倒你,你还不是大师是什么呢?

 

6、模拟练习(30秒之内说完)

甲任意抽了两张牌,一张是“情报”,一张是“抢注”。用“情报”和“抢注”造一个复杂句。

甲:——在互联网的时代,时间就是金钱,一切都讲究要快,可是快速决策是需要信息的,所以我们要搞到竞争对手的情报,所以好的域名就会被他们抢注。可是你能告诉我搞到情报以后如何鉴别这个情报是有价值的呢?乙也抽了两张牌,一张是“危机”,一张是“困难”。此时乙的任务是要用手里这两张牌来回答甲最后的问题。

乙:——(留给观众朋友思考)

如果这个能在30秒内完成,OK,下个挑战就是从三张牌开始练习。(三张牌可以是60秒)

甲抽到了三张牌:失败,冷淡,逃跑

甲:——人生中每个人都在努力,你每一个努力的阶段,都有可能成功,有可能失败,很多人失败以后就会逃跑,面对别人面对任何机会,也不热情而是冷淡。你能知道么,一个人他在失败的时候是什么心情呢?

乙抽到了三张牌:宣判,攻击,繁荣,用这三个词汇来回答甲最后提出的复杂疑问句。

乙:——(留给观众朋友思考)

这些练习,是专门训练大脑反应速度的,练成以后才练成一寸不烂之舌。更难的是抽到牌以后限制你的话题。

乙抽到了三个词,同样也要求在60秒之内完成。

如果你能完成就证明你过关了,这样你就可以用4张牌,还可以限定角色,一个是客户,一个是销售。

一天一个小时,2个星期就要换一副牌。

 

参考:唐伟 https://www.zhihu.com/question/19992161/answer/25444880

快手的边界摸底和未来猜想

文 李红涛

01 似曾相似的布局

在我印象中,非常欣赏马云老师的魔法口袋。左手右手不停从他那个魔法口袋中给你带来不一样的新产品。整体产品战略布局,又非常合理。布局之快,格局之大,叹为观止。整个阿里集团,不断突破边界。从早期的B2B2C电商平台,到现在的阿里经济体,感受下;

而最近又让我产生此类印象的,当属字节头条。真正形成了一超多强,不停布局探索新边界的可能;

 

字节跳动的快速崛起

张一鸣对外界提到过:“字节跳动的核心竞争力,直接来说是产品,产品背后是技术系统,技术系统背后是团队和文化。”

“公司边界建立要看核心能力的射程,如果激进的用户增长+精准分发搞定留存+强大的变现这三点无法成为这个事情的核心竞争力,很可能就是边界所在。”

“业务上,字节跳动最适合做大众的生意,在讲求效率的地方,算法把活干得很漂亮,然后不断复制八十分的东西就可以成功,而大部分短的、碎片化的内容都符合这个特质。但在自制内容、艺术创意和作品领域,通过数据化和内容补贴生产出来的内容是没有梯度可言的,80% 的标准内容需求里不会有大 IP,只有廉价的快消品。”

字节跳到的产品方法论底层逻辑(个性化推荐+各个领域)+地毯式孵化(试验田不同打法产品测试)+数据(内部外部数据指导决策)+领导者判断(领导者要判断数据不好,是市场不够大、需求本身不成立,还是自己没做好。)

参考:字节跳动是怎么「复制」创新的? | 十年复盘 EP07 

 

02 摸底快手的边界

回过来看快手,从目前核心业务短视频看,直接对标竞品当属字节跳动旗下的抖音。相比字节跳动,那快手是否也能有更远的边界,更大的未来呢?

快手产品矩阵-来源@郑几块整理

快手产品矩阵-来源@郑几块整理 

要搞清楚快手的边界,我们先来回答三个问题:
1、快手的核心优势是什么?
2、快手有哪些劣势和短板?
3、快手可参照对象有哪些? 

快手的核心优势:普惠思想+社交属性+深层满足

2011年推出“GIF快手”工具类制作产品,2013年7月,“GIF快手”从工具转型为短视频社区,APP改名为快手;在2017年11月dau突破1亿,2019年5月dau突破2亿,2020年3月突破3亿;

 

普惠思想

快手推崇普惠思想。
在该思想下,最直接的产品表现,即去中心化机制-给予每个平凡人发布-曝光的机会,让每个人看到不一样的世界。
去中心化,让每个人都能成为可能,这就是快手的魅力;

 

社交属性

快手自生长形成强有力的“老铁双击666”文化价值观认同,人与人之间平等、靠谱可信赖,相互交流互动强烈;
基于平级社交关系链,快手直播成为当下最大的直播平台,DAU超过1亿,信任让快手直播带货能力极强,主播一句号召,商家就瞬间爆单;
社交属性,是快手的用户基因;

 

深层满足

快手创始人按照自己的价值观主张,深入打磨产品细节,关注每个人的获得感。
对这个价值观,我认为非常有高度。相当于是在用一己之力,解决一类社会问题;写到这,让我不禁联想到豆瓣阿北、知乎黄继新的独特价值观;

对产品而言需要时间打磨,对用户而言需要时间自我寻找;

深层满足,加深了用户对快手的粘性;

 

快手的短板:情怀主义+组织能力+协同效应

我们从3个维度来看快手vs抖音之战中暴露的几个问题:

相关数据来自QuestMobile 2018-2020.4

抖音vs快手用户拉新来源和头部APP重合度

抖音vs快手用户拉新来源和头部APP重合度

拉新
1、抖音强依赖微信、QQ、淘宝、支付宝头部app拉新;对快手重合度第五;
微信-抖音83%用户重合;快手67%用户重合
2、快手强依赖微信、QQ,和抖音重合度占比31%,高达7kw;且重合用户中,在抖音人均单日时长106min,在快手78min;
3、2018-2020抖音预装20%-76%,快手在2018-2019.12,预装55%左右,2019.12-2020.3发力在70%+;
4、抖音、快手目前日均新安装量差不多,在130w-170w之间;

活跃
1、抖音vs快手,人均时长:96.3 vs 80.4
2、抖音vs快手,人均次数:14.8 vs 21.1
3、抖音vs快手,每次时长:6.5min vs 3.8min
4、抖音用户城市1、2、3、4;快手 2、3、4; 

留存
1、快手在2020春节卸载率非常高,说明拉新留不住用户;
2、新增次留快手41.7%,抖音56%;活跃次留快手85%,抖音89%
3、日均卸载量,快手190w,抖音150w; 

三个维度得出结论:快手拉新能力不差,但整体用户活跃和留存表现相比抖音有较大差距。根本原因在于,大部分新用户来了,没有第一时间打动用户留下来;

 

透过现象看本质,快手问题根源在哪?我认为有以下三个方面不足

情怀主义在现实中的不足

创始人的普惠情怀,直接确定了快手产品去中心化的经营策略。当然,快手目前的成功确实在于此坚持,快手目前的产品氛围,感觉品快手像在喝酒,越品越有味道,需要时间慢慢品。

相比抖音更像中心化的媒体,爆款传播,热榜分发机制,快手会对爆款进行刻意熔断,避免两极分化影响内容创作新人的热情,确保人人公平;但从最后抖音的反超,快手的去中心化在短期内凸显了短板。新用户来了,没有爆款、优质、中心分发留住用户,很可能短时间内摸不着头脑,会很快速离开;

我更愿意说,普惠是快手的战略思想,这点是没错的。本质上,去中心化是战术手段;在战略上有远见,在战术上应当根据战况适度调整。

比如:

内容生产,适度加强MCN建设,让头部和中长尾有个平衡,方便制造热点和爆款;

内容分发,适度加强榜单、搜索建设,同时推荐爆款热点运营等,方便及时留住新用户。留住新用户后,再逐步用去中心化机制分发更多元化的内容,让用户有更多发现和深层满足;

 

抖音爆款/流行文化vs快手去中心化普惠文化,在战术上的打法,最终定会殊路同归。但核心差异在内容调性、用户氛围的持久培养。所以此刻快手战术的适度调整,不会伤筋动骨;

 

组织能力不足

在经历了抖音反超之战,直接暴露了快手在组织能力上的不足。应变战斗能力的响应速度,以及对相关战术的调整。

快手的组织架构在2019年6月开始有较大调整,一切都为了高效合作,打仗准备。 为了改变“松散的组织、佛系的态度”,快手正在变“快”。 

任何团队组织能力,都应该服务业务。如果能应变更快速,合作更高效,那就应该继续调整;

 

协同效应不足

好的协同效应,多处水源流动构成网状生命线,而不是只依靠一根大动脉;

先不说较偏门的布局,我们来看视频赛道,字节大力做抖音短视频的同时,触角延伸到中长视频,西瓜在网络短视频、中长视频上大力深耕。西瓜视频dau 3700w,紧追长视频老三优酷dau 6260w,实力不容小觑;

快手在视频赛道上布局尝试较多,100w量级种子选手,目前仅剩AcFun。喜翻、Uget、宇宙视频,尚未跑出来。

协同效应,需要更高的战略视角布局,更坚定的毅力。手段上多样化,能跑出来就是王者。

 

快手可参照对象:微信

从快手的普惠文化,以及对产品的克制,细节打磨,很容易联想到微信;

微信也推崇去中心化,普惠文化。甚至在去中心化发挥到了极致,但在最近几年面对挑战者各种招术的竞争,微信也在做出一些适度的调整;

基础社交,去中心化

加好友,相比QQ,没有兴趣、昵称搜索等;

微信群,相比QQ群,没有群搜索功能;

基础社交功能,微信坚持去中心化分发机制;

 

信息分发,半中心化

在信息浏览分发上,微信依靠好友关系、10万+、第三方热榜,每天制造大家眼中的热帖;

特别是在10万+这个产品设计逻辑上,微信的设定就很巧妙。不是1000万,也不是100万,就是10万;这个看着触手可及,加把劲就能达到的高度,让每个平凡的人都能拥有自己的品牌,写出不一样的热文;

 

好友关系,价值协同过滤,半中心化

在信息分发上, 好友关系起到了价值协同过滤的作用。告别单一的个性化机器推荐,利用好友点“在看”来推荐更高价值的内容;

好友关系,潜在心理会有较大的跟进策略,所以更能刺激好友信任阅读;

 

快手现在经历的,微信同样也在经历。感兴趣的同学,可以进一步分析微信更多维度的调整和改变;

03 猜想快手的未来 

快手的未来,依然需要围绕普惠价值观展开。普惠,意在服务人人,体现更多社会价值;

 

从需求满足层级,推演未来

我们简单将需求满足划分为三个层级:生存→价值实现→娱乐;

快手目前更多满足的是娱乐层级,在价值实现、生存两个层级,有很多发挥空间;

娱乐层级,更类似非标、快消;

价值实现层级,更类似架构化、系统性、复杂性的价值产出和满足;比如教育学习、技能输出、信息交流互动等;

生存层级,回归到人类生存本质,包括健康、医疗、群体性生存诉求等;这个层级和下面分析的维度有些交叉,一起看下;

 

从全球经济形势,推演未来

当下全球疫情对全人类造成较大冲击,实体经济多数暂停,恢复可能需要1年多之久。在线数字经济,在这样的情形下优势凸显;

如何全球化协同、互动、沟通、在线交易,是即将面临的常态化问题。

比如在线协作效率的革新,能否挖掘更适合在线工作的效率利器,目前有国外Zoom、Slack、微软Teams,国内钉钉、飞书等;

比如跨区域跨时区,在线直播教育技能、培训、问诊等等;全球化沟通,在线交友、自动化翻译,跨越语言差异;

线下劳动力,可能会逐步被服务机器人替代,需要回到生存本质,帮助用户找到适合他们技能和生活方式的工作岗位或培训,提升生存能力;

B2B在线交易,以往依靠线下展会、线上竞价排名推广。现在是否可以推出B2B版视频在线交易方式,在线展会、企业视频版B2B交易平台;

疫情加速了线上展会形式的出现,之前张罗组织线下展会的服务商,马上嗅到了商机,为你公司设计公司形象墙、直播厅,几平米的直播墙1-2万元,40平米的6-8万元;此类和直播相关的服务商,若站在企业生态B端来看,平台有很多可做的事情来打通B端服务生态链,加速B的生意方式;可能是另一个变革”让天下没有难做的生意“;

一个大哥最近做TO B业务,问我怎么投放搜索推广,怎么做网站,怎么做SEO。细想之下,搜索推广虽然是个方式,那是否还有更好的方式呢?或许这类也可以直接视频化变革;

未来形态,都可以由最初的普惠价值,来推动扩展边界,逐步进行演变,服务更多用户,产生更大价值,承担更大社会责任;

 

扩展阅读:

字节跳动产品矩阵,来源@郑几块整理。高清大图,详见网盘地址;

链接: https://pan.baidu.com/s/1dNbm7cF8sQmiiByUJNnLxw 提取码: jm7u 复制这段内容后打开百度网盘手机App,操作更方便哦

字节跳动产品矩阵 来源@郑几块整理

字节跳动产品矩阵 来源@郑几块整理

浅析微软小冰算法和决策模型

文 李红涛

微软小冰,从2014年5月发布版本小冰一代,到2019年5月发布小冰七代;

概要:
1.小冰的训练数据,来源是全网数据
2.给用户打情绪标签
3.情绪数据来源:emoji数据表情
4.问答+情绪渲染 学习无情绪的表达 然后加上情绪的渲染

算法:
小冰的算法结构,信息输入、存储、分析、决策、输出等几个环节;
小冰的图片识别能力,是基于深度卷积神经网络(CNN)的计算机视觉算法系统,通过深度学习等机器学习算法,不断学习历史信息,建立相应数学模型。通过全网文本内容,挖掘得出相关的主题,即机器学习和文本理解的基础。
微软的 LightLDA算法是当前唯一能训练超过100万个主题的机器学习算法。

决策:
小冰采用多种联合决策机制,实现情感决策;采用分布式词向量模型训练算法,计算两个词之间的情感距离,以关系远近帮助小冰决策;为每一个词训练出上千个相关指标(维度)

 

输出:
学习人类表达方式,从中识别出带有不同情感色彩的表达方式,再结合不同对话的上下文语境,以个性化的语音方式表达出来。比如 你是天津人吗?会被表达为 你家天津那的?
深度卷积神经网络CNN、LightLDA主题词机器学习算法、分布式词向量模型等仅仅是小冰算法集中的冰山一角。

个性化:
根据聊天记录打标签,比如“失恋”。这个功能叫 Proactive Mood(主动情绪探知)
逻辑–
先划分场景,判断对话是谈情感问题,还是职业问题
再判断用户在这个场景里属于什么状态(失恋、失业)。
接下来,判断用户在这个状态里是什么情绪(愤怒、沮丧……)。比如用户的惊叹号特别多,那么他的情绪是属于几个极端情绪之一,就能锁定了。小冰并不知道无限细分的人类情绪;

如何平衡“有趣”和“有用”:
回答按照阈值打分,对“有用”的信息,采用解锁技能模式;对“有趣”的信息采用滑竿式调节;其中包括“有用”的部分,离散的点;“有趣”的部分,是线性和连续的;
emotiCON 表情符号、深度神经网络(Deep Neural Networks, 以下简称DNN)embedding词嵌入是能够用低维向量对物体进行编码还能保留其含义的特点非常适合深度学习算法;

浅谈百亿规模的内容审核业务

趋势一:内容审查监管力度逐步加强

从2018年大家就应该能感受到网络内容审查力度越来越大。感兴趣可以自行百度查询下最近2年的监管翻车触发的相关事件;

 

趋势二:内容态互联网公司审查人力成本逐步加大

需要大力投入内容审核的产品,大部分是:新闻资讯、视频直播、社区、IM聊天、低频法布类等;

尤其是直播最容易翻车!时效性越快,越容易翻车!

 

从网络公开资料看,字节跳动 2019审核人员1w人。快手 2019审核人员0.8w人;了解到dau 1000w的一个产品,审核人员2020目前是1100+人。

假定

dau 2-3亿+,审核人员0.8w-1w+;

dau 1000w+,审核人员1000+;

dau 100w+,审核人员500+;

从全网APP榜单分布看,dau 100w+产品,共计417个,其中和内容相关产品占比42%;

从内容审核行业打听到,目前审核人力成本6.5k~7k每人月,取中位数6.75k,即年薪8.1w; (Google内容审核人员换算人民币是26w每人)

取APP dau100w+的榜单中位数,按照dau 1000w+预估,互联网内容审核大盘为 1000人*8.1w*417*42%=141亿

内容审核,也许是个百亿大盘的行业;

 

趋势三:AI辅助人工审核是趋势

内容审核集中类型:涉政、色敏低俗、暴恐、舆情等;

信息载体暴恐:文本、图片、视频、音频等;

涉及到技术包括:词表+视觉,最常用;

AI模型判断,会遇到的挑战:

人-低头、侧脸、PS特征、漫画、光线角度等,难度极大;需要数据持续迭代模型;

OCR-字体、水印各种变体、深浅不一,需要富集样本;

语音-音频合成,模拟某些人的声音;

长线看机会:

1、AI模型准确率越来越高,可以逐步解放人力;

预期AI模型可以准确解决掉80%-90%的审核case,剩余10%-20%的内容需要全人力审核;

2、AI模型标准的高标准化、可复用性;

相关模型的标准基本在国内是可以统一维护、迭代的;样本量越大,准确率越高,服务更稳定,门槛越高;

单独公司去维护迭代这一套东西,成本是很大的;比如某社区产品的色敏模型,据说研发人员30人团队进行维护;这个模型的研发维护成本每年720w-1000w;

 

好了,大概先盘了几点看法。大家有啥新的发现和坑,欢迎留言交流哈;

 

机器学习入门5:KNN近邻算法-图像检索-NN最近邻检索和ANN近似最近邻检索

本文是机器学习入门的基础版,学习对象产品经理同学;

目前图像检索中最基础的检索能力:

NN检索-最近邻检索(Nearest Neighbor Search)

ANN检索-近似最近邻检索Approximate Nearest Neighbor。区别于ANN

 

1.概述

最近邻检索就是根据数据的相似性,从数据库中寻找与目标数据最相似的项目。这种相似性通常会被量化到空间上数据之间的距离,可以认为数据在空间中的距离越近,则数据之间的相似性越高。

K最近邻(K-Nearest Neighbor,KNN)检索:当需要查找离目标数据最近的前k个数据项时。

最近邻检索是线性复杂度的,不能满足对于大规模数据检索的时间性能要求。

 

2.应用领域

起初应用于文档检索系统,最近邻检索作为具有查找相似性文档信息的方法;
随后在地理信息系统中,最近邻检索也被广泛应用于位置信息,空间数据关系的查询、分析与统计;
如今在图像检索、数据压缩、模式识别以及机器学习等领域都有非常重要的作用。
在图像处理与检索的研究中,基于内容的图像检索方法(CBIR)是目前的主流。

2.1 图像的内容是什么?

这里的“内容”是指:图像中包含的主要对象的几何形状、颜色强度、表面纹理等外在特性,以及前景与后景的对比程度等整体特征。

图像的描述方式:局部特征描述子(SIFT、SURF、BRIEF) ,全局特征描述子(GIST),特征频率直方图,纹理信息,显著性区域等。

最近邻检索的引入将图像检索转化到特征向量空间,通过查找与目标特征向量距离最近的向量来获得相应图像之间的关系。 这种特征向量之间的距离通常被定义为欧几里得距离(Euclidean distance),即是空间中两点之间的直线距离。

 

3.发展趋势

最近邻检索作为数据检索中使用最为广泛的技术一直以来都是国内外学者研究的热点。近些年,涌现出大量以最近邻检索或近似最近邻检索为基本思想的两类方法。一类是基于提升检索结构性能的方法,主要方法大多基于树形结构;另一类主要基于对数据本身的处理,包括哈希算法、矢量量化方法等。

3.1 最近邻检索(精确检索)

背景:精确检索中数据维度一般较低,所以会采用穷举搜索,即在数据库中依次计算其中样本与所查询数据之间的距离,抽取出所计算出来的距离最小的样本即为所要查找的最近邻。当数据量非常大的时候,搜索效率急剧下降。

基于树结构的最近邻检索方法

概述:由于实际数据会呈现出簇状的聚类形态,因此可以考虑对数据库中的样本数据构建数据索引,索引树就是最常见的方法。其基本思想是对搜索空间进行层次划分,再进行快速匹配。

结论:当数据维度不太高(如d< 20),通常采用树型索引结构对数据进行分区以实现高效索引,如最经典的KD树算法 、R树、M树等等,它们的时间和空间复杂度都是以d为指数的指数级别的,在实际搜索时也取得了良好的效果。

当d=1时,只要采用传统的二分查找法或者各类平衡树就能找到最近邻;
当d=2时,将最近邻检索问题转化为求解查询点究竟落在哪个区域的Voronoi图问题,再通过二分查找树就能很好的解决。

 

3.2 近似最近邻检索

背景:面对庞大的数据量以及数据库中高维的数据信息,现有的基于 NN 的检索方法无法获得理想的检索效果与可接受的检索时间。因此,研究人员开始关注近似最近邻检索(Approximate Nearest Neighbor,ANN)。

概述:近似最近邻检索利用数据量增大后数据之间会形成簇状聚集分布的特性,通过对数据分析聚类的方法对数据库中的数据进行分类或编码,对于目标数据根据其数据特征预测其所属的数据类别,返回类别中的部分或全部作为检索结果。

近似最近邻检索的核心思想:搜索可能是近邻的数据项而不再只局限于返回最可能的项目,在牺牲可接受范围内的精度的情况下提高检索效率。

分类
一种是采用哈希散列的办法,另一种则是矢量量化。

3.2.1 局部敏感哈希(LSH)
核心思想:在高维空间相邻的数据经过哈希函数的映射投影转化到低维空间后,他们落入同一个吊桶的概率很大而不相邻的数据映射到同一个吊桶的概率则很小。在检索时将欧式空间的距离计算转化到汉明(Hamming)空间,并将全局检索转化为对映射到同一个吊桶中的数据进行检索,从而提高了检索速度。这种方法的主要难点在于如何寻找适合的哈希函数。

3.2.2 矢量量化
其代表是乘积量化(PQ)。它的主要思想是将特征向量进行正交分解,在分解后的低维正交子空间上进行量化,由于低维空间可以采用较小的码本进行编码,因此可以降低数据存储空间 。

PQ方法采用基于查找表的非对称距离计算(Asymmetric Distance Computation,ADC)快速求取特征向量之间的距离,在压缩比相同的情况下,与采用汉明距离的二值编码方法,采用ADC的PQ方法的检索精度更高。

感谢参考文献 

机器学习入门2:第一个算法-决策树DecisionTree

本文是机器学习入门的基础版,学习对象产品经理同学;

决策树学习三个过程:1.特征选择。2.构建决策树。3.剪枝

 

1.决策树是什么?

决策树DecisionTree是机器学习中相当经典的一种算法,既可以用作分类,也可以用作回归,同时还适合做集成学习用于随机森林等等,今天就来好好介绍一下决策树算法。

首先,决策树的思想就是非常容易理解的。通俗地讲就是拿到一堆样本之后,我首先根据某个特征,将样本划分为几类,然后在划分的每一类中,又根据新的特征再划分为若干类,这样重复的进行下去,总会达到一个效果,就是所有的样本都有且有唯一一条规则与之对应,这样决策树的构建就完成了。书面地讲就是从一个根节点出发根据某一特征划分成若干个子节点,再根据某一特征递归地划分下去,直到所有的样本都包含在内。其中中间节点通常表示样本的某一特征或者属性,而最后的叶节点则表示某一个类。

提示:若时间充足,请先阅读下方扩展知识点,了解和决策树相关几个概念)

信息

这个是熵和信息增益的基础概念,是对一个抽象事物的命名,无论用不用‘信息’来命名这种抽象事物,或者用其他名称来命名这种抽象事物,这种抽象事物是客观存在的。如果带分类的事物集合可以划分为多个类别当中,则某个类(xi)的信息(量)定义如下:

I(x)用来表示随机变量的信息,p(xi)指是当xi发生时的概率。当事件xi发生的概率p(xi)很小,但是它却发生了,那这个信息量相当大,比如买彩票中奖了,那么这个信息量肯定是很大的。相反,对于大概率事件,人们习以为常,那么这个事件的信息量就很小。这就体现在上述公式中。

信息熵
“信息熵”是度量样本纯度最常用的一种指标。所谓样本纯度,相反而言之就是凌乱程度。如一个数据集U中的样本都属于同一类,那么这时样本纯度最高而凌乱程度最低。信息熵定义为:

其中D表示样本集合,|y|样本中类别的数目, pk表示第k种分类占集合的比例。Ent(D)的值越小,D的纯度越高。

信息增益
信息增益 指的是,使用某一个属性a进行划分后,所带来的纯度提高的大小。一般而言,信息增益越大,意味着使用属性a来进行划分所获得的“纯度提升”越大。信息增益定义如下:

信息增益 = 根节点的信息熵 – 所有分支节点的信息熵的加权和

其中,权值为划分后属性a=ak节点中样本的数量与划分前节点中的样本数量的比值,即概率。概率确保了权重的和为1.

上图描述的是,使用属性a对样本集合D进行划分,因为a有V个取值,因此决策树会有V个分支。划分后每一个节点中样本的数量为属性a=ak的样本的数量。 

问:如何理解:信息增益越大,意味着使用属性a来进行划分所获得的“纯度提升”越大?

    答:因为Ent(D)的值越小,D的纯度越高。而划分后,所有的分支节点的Ent(Dk)的和就是划分后的信息熵,公式体现了前后的差距,如果差距越大,那么就说明划分后所有的分支节点的信息熵越小,纯度提升越大。

增益率

背景:当样本集中的某一属性取值使得所有样本被分到不同类别,此时分支的纯度达到最高,无需再继续划分。然而这样的决策树不具备泛化能力。事实上,信息增益准则对可取值较多的属性有所偏好。

为了减少这种偏好可能带来的影响,因此使用增益率代替信息增益准则选择划分属性。

即增益率(Gain_ratio(D,a))=信息增益Gain(D,a)/属性固有值(IV(a))。
属性A的可能取值越大,固有值IV(a)通常越大。
信息增益率偏向于可能取值减少的属性。因此C4.5算法不直接使用信息增益率来选择划分属性。

基尼值
基尼值 Gini(D) 反映了从数据集中随机抽取两个样本,其类别标记不一致的概率。当数据集的纯度越高,每次抽到不同类别标记的概率越小。打个比方,在一个袋子里装100个乒乓球,其中有99个白球,1个黄球,那么当我们随机抽取两个球的时候,很大概率是抽到两个白球。

所以数据集D的纯度可以用基尼值来度量,其定义如下:

基尼值越小,数据集D纯度越高。

基尼指数

基尼指数是针对于属性定义的,其反映的是,使用属性a进行划分后,所有分支中(使用基尼值度量的)纯度的加权和。

属性a的基尼指数定义如下:

我们在属性集合A中选择划分属性的时候,就选择使得划分后基尼指数最小的属性作为最优划分属性。CART就是用基尼指数来选择划分属性的。

2.如何构建决策树?

构建决策树的关键步骤是分裂属性,指在某个节点按照一类特征属性的不同划分构建不同的分支,使每个分支中的数据类别尽可能的纯。
决策树是一种贪心算法策略,只考虑当前数据特征的最好分割方式,不能回溯操作(只能从上往下分割)
步骤:
1.将所有的特征看成一个一个的节点
2.遍历所有特征,遍历到其中某一个特征时:遍历当前特征的所有分割方式,找到最好的分割点,将数据划分为不同的子节点,计算划分后子节点的纯度信息
3.在遍历的所有特征中,比较寻找最优的特征以及最优特征的最优划分方式,纯度越高,则对当前数据集进行分割操作
4.对新的子节点继续执行2-3步,直到每个最终的子节点都足够纯

决策树算法构建的停止条件:
1.(会导致过拟合)当子节点中只有一种类型的时候停止构建
2.(比较常用)当前节点种样本数小于某个值,同时迭代次数达到指定值,停止构建,此时使用该节点中出现最多的类别样本数据作为对应值

3.决策树三大算法

ID3算法: 内部使用信息熵以及’信息增益‘来进行构建,每次迭代选择信息增益最大的特征属性作为分割属性。只支持离散的特征属
优点:决策树构建速度快,实现简单
缺点:算法依赖样本中出现次数较多的特征属性,但是出现次数最多的属性并不一定最优

C4.5算法:使用’信息增益率‘来构建,在树的构建过程中会进行剪枝操作的优化,能够自动完成对连续属性的离散化处理。选择信息增益率大的属性进行分割
优点:准确率较高,实现简单
缺点:对数据集需要进行多次顺序扫描和排序,效率较低。

CART算法:使用’基尼系数’作为数据纯度的量化指标来构建,选择‘GINI增益率’来分割,越大的即作为当前数据集的分割属性.可用于分类和回归。(二叉树构建)

三种算法主要区别:CART构建的一定是二叉树,ID3,C4.5构建的不一定是二叉树

4.分类树和回归数的区别:

1.分类树是基于概率来构建的,采用信息增益、信息增益率、基尼系数来作为树的评价指标。
2.回归数是基于平均值来构建的,采用均方差作为树的评价指标。 

5.决策树优化策略:

1.决策树欠拟合:没有将不同的数据类别划分开,原因:决策树深度太浅导致。
解决方案:1.增加树的深度。2.使用集成算法,Boosting算法(GBDT)
2.决策树过拟合:学习能力太强,将噪音数据特征也学习到数据分割中了,原因:决策树深度太深导致
解决方案:1.剪枝(调整API中的参数)2.使用集成算法:Bagging算法(随机森林)
 

 6.决策树的剪枝:

1.前置剪枝:是指在决策树生成过程中,对每个节点在划分前先进行估计,若当前的节点划分不能带来决策树泛化的提升,则停止划分并将当前节点标记为叶子节点。(深度浅,容易欠拟合)
2.后置剪枝:是指先从训练数据集中生成一课完整的决策树,然后自底向上对非叶子节点进行考察,若将该节点对应的子树替换为叶子结点能够带来决策树泛化能力的提升,则将该节点替换为叶子节点。 
参考文献:

https://blog.csdn.net/NeilGY/article/details/82746270

https://blog.csdn.net/sinat_22594309/article/details/59090895

https://blog.csdn.net/akirameiao/article/details/79953980