快手的边界摸底和未来猜想

文 李红涛

01 似曾相似的布局

在我印象中,非常欣赏马云老师的魔法口袋。左手右手不停从他那个魔法口袋中给你带来不一样的新产品。整体产品战略布局,又非常合理。布局之快,格局之大,叹为观止。整个阿里集团,不断突破边界。从早期的B2B2C电商平台,到现在的阿里经济体,感受下;

而最近又让我产生此类印象的,当属字节头条。真正形成了一超多强,不停布局探索新边界的可能;

 

字节跳动的快速崛起

张一鸣对外界提到过:“字节跳动的核心竞争力,直接来说是产品,产品背后是技术系统,技术系统背后是团队和文化。”

“公司边界建立要看核心能力的射程,如果激进的用户增长+精准分发搞定留存+强大的变现这三点无法成为这个事情的核心竞争力,很可能就是边界所在。”

“业务上,字节跳动最适合做大众的生意,在讲求效率的地方,算法把活干得很漂亮,然后不断复制八十分的东西就可以成功,而大部分短的、碎片化的内容都符合这个特质。但在自制内容、艺术创意和作品领域,通过数据化和内容补贴生产出来的内容是没有梯度可言的,80% 的标准内容需求里不会有大 IP,只有廉价的快消品。”

字节跳到的产品方法论底层逻辑(个性化推荐+各个领域)+地毯式孵化(试验田不同打法产品测试)+数据(内部外部数据指导决策)+领导者判断(领导者要判断数据不好,是市场不够大、需求本身不成立,还是自己没做好。)

参考:字节跳动是怎么「复制」创新的? | 十年复盘 EP07 

 

02 摸底快手的边界

回过来看快手,从目前核心业务短视频看,直接对标竞品当属字节跳动旗下的抖音。相比字节跳动,那快手是否也能有更远的边界,更大的未来呢?

快手产品矩阵-来源@郑几块整理

快手产品矩阵-来源@郑几块整理 

要搞清楚快手的边界,我们先来回答三个问题:
1、快手的核心优势是什么?
2、快手有哪些劣势和短板?
3、快手可参照对象有哪些? 

快手的核心优势:普惠思想+社交属性+深层满足

2011年推出“GIF快手”工具类制作产品,2013年7月,“GIF快手”从工具转型为短视频社区,APP改名为快手;在2017年11月dau突破1亿,2019年5月dau突破2亿,2020年3月突破3亿;

 

普惠思想

快手推崇普惠思想。
在该思想下,最直接的产品表现,即去中心化机制-给予每个平凡人发布-曝光的机会,让每个人看到不一样的世界。
去中心化,让每个人都能成为可能,这就是快手的魅力;

 

社交属性

快手自生长形成强有力的“老铁双击666”文化价值观认同,人与人之间平等、靠谱可信赖,相互交流互动强烈;
基于平级社交关系链,快手直播成为当下最大的直播平台,DAU超过1亿,信任让快手直播带货能力极强,主播一句号召,商家就瞬间爆单;
社交属性,是快手的用户基因;

 

深层满足

快手创始人按照自己的价值观主张,深入打磨产品细节,关注每个人的获得感。
对这个价值观,我认为非常有高度。相当于是在用一己之力,解决一类社会问题;写到这,让我不禁联想到豆瓣阿北、知乎黄继新的独特价值观;

对产品而言需要时间打磨,对用户而言需要时间自我寻找;

深层满足,加深了用户对快手的粘性;

 

快手的短板:情怀主义+组织能力+协同效应

我们从3个维度来看快手vs抖音之战中暴露的几个问题:

相关数据来自QuestMobile 2018-2020.4

抖音vs快手用户拉新来源和头部APP重合度

抖音vs快手用户拉新来源和头部APP重合度

拉新
1、抖音强依赖微信、QQ、淘宝、支付宝头部app拉新;对快手重合度第五;
微信-抖音83%用户重合;快手67%用户重合
2、快手强依赖微信、QQ,和抖音重合度占比31%,高达7kw;且重合用户中,在抖音人均单日时长106min,在快手78min;
3、2018-2020抖音预装20%-76%,快手在2018-2019.12,预装55%左右,2019.12-2020.3发力在70%+;
4、抖音、快手目前日均新安装量差不多,在130w-170w之间;

活跃
1、抖音vs快手,人均时长:96.3 vs 80.4
2、抖音vs快手,人均次数:14.8 vs 21.1
3、抖音vs快手,每次时长:6.5min vs 3.8min
4、抖音用户城市1、2、3、4;快手 2、3、4; 

留存
1、快手在2020春节卸载率非常高,说明拉新留不住用户;
2、新增次留快手41.7%,抖音56%;活跃次留快手85%,抖音89%
3、日均卸载量,快手190w,抖音150w; 

三个维度得出结论:快手拉新能力不差,但整体用户活跃和留存表现相比抖音有较大差距。根本原因在于,大部分新用户来了,没有第一时间打动用户留下来;

 

透过现象看本质,快手问题根源在哪?我认为有以下三个方面不足

情怀主义在现实中的不足

创始人的普惠情怀,直接确定了快手产品去中心化的经营策略。当然,快手目前的成功确实在于此坚持,快手目前的产品氛围,感觉品快手像在喝酒,越品越有味道,需要时间慢慢品。

相比抖音更像中心化的媒体,爆款传播,热榜分发机制,快手会对爆款进行刻意熔断,避免两极分化影响内容创作新人的热情,确保人人公平;但从最后抖音的反超,快手的去中心化在短期内凸显了短板。新用户来了,没有爆款、优质、中心分发留住用户,很可能短时间内摸不着头脑,会很快速离开;

我更愿意说,普惠是快手的战略思想,这点是没错的。本质上,去中心化是战术手段;在战略上有远见,在战术上应当根据战况适度调整。

比如:

内容生产,适度加强MCN建设,让头部和中长尾有个平衡,方便制造热点和爆款;

内容分发,适度加强榜单、搜索建设,同时推荐爆款热点运营等,方便及时留住新用户。留住新用户后,再逐步用去中心化机制分发更多元化的内容,让用户有更多发现和深层满足;

 

抖音爆款/流行文化vs快手去中心化普惠文化,在战术上的打法,最终定会殊路同归。但核心差异在内容调性、用户氛围的持久培养。所以此刻快手战术的适度调整,不会伤筋动骨;

 

组织能力不足

在经历了抖音反超之战,直接暴露了快手在组织能力上的不足。应变战斗能力的响应速度,以及对相关战术的调整。

快手的组织架构在2019年6月开始有较大调整,一切都为了高效合作,打仗准备。 为了改变“松散的组织、佛系的态度”,快手正在变“快”。 

任何团队组织能力,都应该服务业务。如果能应变更快速,合作更高效,那就应该继续调整;

 

协同效应不足

好的协同效应,多处水源流动构成网状生命线,而不是只依靠一根大动脉;

先不说较偏门的布局,我们来看视频赛道,字节大力做抖音短视频的同时,触角延伸到中长视频,西瓜在网络短视频、中长视频上大力深耕。西瓜视频dau 3700w,紧追长视频老三优酷dau 6260w,实力不容小觑;

快手在视频赛道上布局尝试较多,100w量级种子选手,目前仅剩AcFun。喜翻、Uget、宇宙视频,尚未跑出来。

协同效应,需要更高的战略视角布局,更坚定的毅力。手段上多样化,能跑出来就是王者。

 

快手可参照对象:微信

从快手的普惠文化,以及对产品的克制,细节打磨,很容易联想到微信;

微信也推崇去中心化,普惠文化。甚至在去中心化发挥到了极致,但在最近几年面对挑战者各种招术的竞争,微信也在做出一些适度的调整;

基础社交,去中心化

加好友,相比QQ,没有兴趣、昵称搜索等;

微信群,相比QQ群,没有群搜索功能;

基础社交功能,微信坚持去中心化分发机制;

 

信息分发,半中心化

在信息浏览分发上,微信依靠好友关系、10万+、第三方热榜,每天制造大家眼中的热帖;

特别是在10万+这个产品设计逻辑上,微信的设定就很巧妙。不是1000万,也不是100万,就是10万;这个看着触手可及,加把劲就能达到的高度,让每个平凡的人都能拥有自己的品牌,写出不一样的热文;

 

好友关系,价值协同过滤,半中心化

在信息分发上, 好友关系起到了价值协同过滤的作用。告别单一的个性化机器推荐,利用好友点“在看”来推荐更高价值的内容;

好友关系,潜在心理会有较大的跟进策略,所以更能刺激好友信任阅读;

 

快手现在经历的,微信同样也在经历。感兴趣的同学,可以进一步分析微信更多维度的调整和改变;

03 猜想快手的未来 

快手的未来,依然需要围绕普惠价值观展开。普惠,意在服务人人,体现更多社会价值;

 

从需求满足层级,推演未来

我们简单将需求满足划分为三个层级:生存→价值实现→娱乐;

快手目前更多满足的是娱乐层级,在价值实现、生存两个层级,有很多发挥空间;

娱乐层级,更类似非标、快消;

价值实现层级,更类似架构化、系统性、复杂性的价值产出和满足;比如教育学习、技能输出、信息交流互动等;

生存层级,回归到人类生存本质,包括健康、医疗、群体性生存诉求等;这个层级和下面分析的维度有些交叉,一起看下;

 

从全球经济形势,推演未来

当下全球疫情对全人类造成较大冲击,实体经济多数暂停,恢复可能需要1年多之久。在线数字经济,在这样的情形下优势凸显;

如何全球化协同、互动、沟通、在线交易,是即将面临的常态化问题。

比如在线协作效率的革新,能否挖掘更适合在线工作的效率利器,目前有国外Zoom、Slack、微软Teams,国内钉钉、飞书等;

比如跨区域跨时区,在线直播教育技能、培训、问诊等等;全球化沟通,在线交友、自动化翻译,跨越语言差异;

线下劳动力,可能会逐步被服务机器人替代,需要回到生存本质,帮助用户找到适合他们技能和生活方式的工作岗位或培训,提升生存能力;

B2B在线交易,以往依靠线下展会、线上竞价排名推广。现在是否可以推出B2B版视频在线交易方式,在线展会、企业视频版B2B交易平台;

疫情加速了线上展会形式的出现,之前张罗组织线下展会的服务商,马上嗅到了商机,为你公司设计公司形象墙、直播厅,几平米的直播墙1-2万元,40平米的6-8万元;此类和直播相关的服务商,若站在企业生态B端来看,平台有很多可做的事情来打通B端服务生态链,加速B的生意方式;可能是另一个变革”让天下没有难做的生意“;

一个大哥最近做TO B业务,问我怎么投放搜索推广,怎么做网站,怎么做SEO。细想之下,搜索推广虽然是个方式,那是否还有更好的方式呢?或许这类也可以直接视频化变革;

未来形态,都可以由最初的普惠价值,来推动扩展边界,逐步进行演变,服务更多用户,产生更大价值,承担更大社会责任;

 

扩展阅读:

字节跳动产品矩阵,来源@郑几块整理。高清大图,详见网盘地址;

链接: https://pan.baidu.com/s/1dNbm7cF8sQmiiByUJNnLxw 提取码: jm7u 复制这段内容后打开百度网盘手机App,操作更方便哦

字节跳动产品矩阵 来源@郑几块整理

字节跳动产品矩阵 来源@郑几块整理

浅析微软小冰算法和决策模型

文 李红涛

微软小冰,从2014年5月发布版本小冰一代,到2019年5月发布小冰七代;

概要:
1.小冰的训练数据,来源是全网数据
2.给用户打情绪标签
3.情绪数据来源:emoji数据表情
4.问答+情绪渲染 学习无情绪的表达 然后加上情绪的渲染

算法:
小冰的算法结构,信息输入、存储、分析、决策、输出等几个环节;
小冰的图片识别能力,是基于深度卷积神经网络(CNN)的计算机视觉算法系统,通过深度学习等机器学习算法,不断学习历史信息,建立相应数学模型。通过全网文本内容,挖掘得出相关的主题,即机器学习和文本理解的基础。
微软的 LightLDA算法是当前唯一能训练超过100万个主题的机器学习算法。

决策:
小冰采用多种联合决策机制,实现情感决策;采用分布式词向量模型训练算法,计算两个词之间的情感距离,以关系远近帮助小冰决策;为每一个词训练出上千个相关指标(维度)

 

输出:
学习人类表达方式,从中识别出带有不同情感色彩的表达方式,再结合不同对话的上下文语境,以个性化的语音方式表达出来。比如 你是天津人吗?会被表达为 你家天津那的?
深度卷积神经网络CNN、LightLDA主题词机器学习算法、分布式词向量模型等仅仅是小冰算法集中的冰山一角。

个性化:
根据聊天记录打标签,比如“失恋”。这个功能叫 Proactive Mood(主动情绪探知)
逻辑–
先划分场景,判断对话是谈情感问题,还是职业问题
再判断用户在这个场景里属于什么状态(失恋、失业)。
接下来,判断用户在这个状态里是什么情绪(愤怒、沮丧……)。比如用户的惊叹号特别多,那么他的情绪是属于几个极端情绪之一,就能锁定了。小冰并不知道无限细分的人类情绪;

如何平衡“有趣”和“有用”:
回答按照阈值打分,对“有用”的信息,采用解锁技能模式;对“有趣”的信息采用滑竿式调节;其中包括“有用”的部分,离散的点;“有趣”的部分,是线性和连续的;
emotiCON 表情符号、深度神经网络(Deep Neural Networks, 以下简称DNN)embedding词嵌入是能够用低维向量对物体进行编码还能保留其含义的特点非常适合深度学习算法;

浅谈百亿规模的内容审核业务

趋势一:内容审查监管力度逐步加强

从2018年大家就应该能感受到网络内容审查力度越来越大。感兴趣可以自行百度查询下最近2年的监管翻车触发的相关事件;

 

趋势二:内容态互联网公司审查人力成本逐步加大

需要大力投入内容审核的产品,大部分是:新闻资讯、视频直播、社区、IM聊天、低频法布类等;

尤其是直播最容易翻车!时效性越快,越容易翻车!

 

从网络公开资料看,字节跳动 2019审核人员1w人。快手 2019审核人员0.8w人;了解到dau 1000w的一个产品,审核人员2020目前是1100+人。

假定

dau 2-3亿+,审核人员0.8w-1w+;

dau 1000w+,审核人员1000+;

dau 100w+,审核人员500+;

从全网APP榜单分布看,dau 100w+产品,共计417个,其中和内容相关产品占比42%;

从内容审核行业打听到,目前审核人力成本6.5k~7k每人月,取中位数6.75k,即年薪8.1w; (Google内容审核人员换算人民币是26w每人)

取APP dau100w+的榜单中位数,按照dau 1000w+预估,互联网内容审核大盘为 1000人*8.1w*417*42%=141亿

内容审核,也许是个百亿大盘的行业;

 

趋势三:AI辅助人工审核是趋势

内容审核集中类型:涉政、色敏低俗、暴恐、舆情等;

信息载体暴恐:文本、图片、视频、音频等;

涉及到技术包括:词表+视觉,最常用;

AI模型判断,会遇到的挑战:

人-低头、侧脸、PS特征、漫画、光线角度等,难度极大;需要数据持续迭代模型;

OCR-字体、水印各种变体、深浅不一,需要富集样本;

语音-音频合成,模拟某些人的声音;

长线看机会:

1、AI模型准确率越来越高,可以逐步解放人力;

预期AI模型可以准确解决掉80%-90%的审核case,剩余10%-20%的内容需要全人力审核;

2、AI模型标准的高标准化、可复用性;

相关模型的标准基本在国内是可以统一维护、迭代的;样本量越大,准确率越高,服务更稳定,门槛越高;

单独公司去维护迭代这一套东西,成本是很大的;比如某社区产品的色敏模型,据说研发人员30人团队进行维护;这个模型的研发维护成本每年720w-1000w;

 

好了,大概先盘了几点看法。大家有啥新的发现和坑,欢迎留言交流哈;

 

机器学习入门5:KNN近邻算法-图像检索-NN最近邻检索和ANN近似最近邻检索

本文是机器学习入门的基础版,学习对象产品经理同学;

目前图像检索中最基础的检索能力:

NN检索-最近邻检索(Nearest Neighbor Search)

ANN检索-近似最近邻检索Approximate Nearest Neighbor。区别于ANN

 

1.概述

最近邻检索就是根据数据的相似性,从数据库中寻找与目标数据最相似的项目。这种相似性通常会被量化到空间上数据之间的距离,可以认为数据在空间中的距离越近,则数据之间的相似性越高。

K最近邻(K-Nearest Neighbor,KNN)检索:当需要查找离目标数据最近的前k个数据项时。

最近邻检索是线性复杂度的,不能满足对于大规模数据检索的时间性能要求。

 

2.应用领域

起初应用于文档检索系统,最近邻检索作为具有查找相似性文档信息的方法;
随后在地理信息系统中,最近邻检索也被广泛应用于位置信息,空间数据关系的查询、分析与统计;
如今在图像检索、数据压缩、模式识别以及机器学习等领域都有非常重要的作用。
在图像处理与检索的研究中,基于内容的图像检索方法(CBIR)是目前的主流。

2.1 图像的内容是什么?

这里的“内容”是指:图像中包含的主要对象的几何形状、颜色强度、表面纹理等外在特性,以及前景与后景的对比程度等整体特征。

图像的描述方式:局部特征描述子(SIFT、SURF、BRIEF) ,全局特征描述子(GIST),特征频率直方图,纹理信息,显著性区域等。

最近邻检索的引入将图像检索转化到特征向量空间,通过查找与目标特征向量距离最近的向量来获得相应图像之间的关系。 这种特征向量之间的距离通常被定义为欧几里得距离(Euclidean distance),即是空间中两点之间的直线距离。

 

3.发展趋势

最近邻检索作为数据检索中使用最为广泛的技术一直以来都是国内外学者研究的热点。近些年,涌现出大量以最近邻检索或近似最近邻检索为基本思想的两类方法。一类是基于提升检索结构性能的方法,主要方法大多基于树形结构;另一类主要基于对数据本身的处理,包括哈希算法、矢量量化方法等。

3.1 最近邻检索(精确检索)

背景:精确检索中数据维度一般较低,所以会采用穷举搜索,即在数据库中依次计算其中样本与所查询数据之间的距离,抽取出所计算出来的距离最小的样本即为所要查找的最近邻。当数据量非常大的时候,搜索效率急剧下降。

基于树结构的最近邻检索方法

概述:由于实际数据会呈现出簇状的聚类形态,因此可以考虑对数据库中的样本数据构建数据索引,索引树就是最常见的方法。其基本思想是对搜索空间进行层次划分,再进行快速匹配。

结论:当数据维度不太高(如d< 20),通常采用树型索引结构对数据进行分区以实现高效索引,如最经典的KD树算法 、R树、M树等等,它们的时间和空间复杂度都是以d为指数的指数级别的,在实际搜索时也取得了良好的效果。

当d=1时,只要采用传统的二分查找法或者各类平衡树就能找到最近邻;
当d=2时,将最近邻检索问题转化为求解查询点究竟落在哪个区域的Voronoi图问题,再通过二分查找树就能很好的解决。

 

3.2 近似最近邻检索

背景:面对庞大的数据量以及数据库中高维的数据信息,现有的基于 NN 的检索方法无法获得理想的检索效果与可接受的检索时间。因此,研究人员开始关注近似最近邻检索(Approximate Nearest Neighbor,ANN)。

概述:近似最近邻检索利用数据量增大后数据之间会形成簇状聚集分布的特性,通过对数据分析聚类的方法对数据库中的数据进行分类或编码,对于目标数据根据其数据特征预测其所属的数据类别,返回类别中的部分或全部作为检索结果。

近似最近邻检索的核心思想:搜索可能是近邻的数据项而不再只局限于返回最可能的项目,在牺牲可接受范围内的精度的情况下提高检索效率。

分类
一种是采用哈希散列的办法,另一种则是矢量量化。

3.2.1 局部敏感哈希(LSH)
核心思想:在高维空间相邻的数据经过哈希函数的映射投影转化到低维空间后,他们落入同一个吊桶的概率很大而不相邻的数据映射到同一个吊桶的概率则很小。在检索时将欧式空间的距离计算转化到汉明(Hamming)空间,并将全局检索转化为对映射到同一个吊桶中的数据进行检索,从而提高了检索速度。这种方法的主要难点在于如何寻找适合的哈希函数。

3.2.2 矢量量化
其代表是乘积量化(PQ)。它的主要思想是将特征向量进行正交分解,在分解后的低维正交子空间上进行量化,由于低维空间可以采用较小的码本进行编码,因此可以降低数据存储空间 。

PQ方法采用基于查找表的非对称距离计算(Asymmetric Distance Computation,ADC)快速求取特征向量之间的距离,在压缩比相同的情况下,与采用汉明距离的二值编码方法,采用ADC的PQ方法的检索精度更高。

感谢参考文献 

机器学习入门2:第一个算法-决策树DecisionTree

本文是机器学习入门的基础版,学习对象产品经理同学;

决策树学习三个过程:1.特征选择。2.构建决策树。3.剪枝

 

1.决策树是什么?

决策树DecisionTree是机器学习中相当经典的一种算法,既可以用作分类,也可以用作回归,同时还适合做集成学习用于随机森林等等,今天就来好好介绍一下决策树算法。

首先,决策树的思想就是非常容易理解的。通俗地讲就是拿到一堆样本之后,我首先根据某个特征,将样本划分为几类,然后在划分的每一类中,又根据新的特征再划分为若干类,这样重复的进行下去,总会达到一个效果,就是所有的样本都有且有唯一一条规则与之对应,这样决策树的构建就完成了。书面地讲就是从一个根节点出发根据某一特征划分成若干个子节点,再根据某一特征递归地划分下去,直到所有的样本都包含在内。其中中间节点通常表示样本的某一特征或者属性,而最后的叶节点则表示某一个类。

提示:若时间充足,请先阅读下方扩展知识点,了解和决策树相关几个概念)

信息

这个是熵和信息增益的基础概念,是对一个抽象事物的命名,无论用不用‘信息’来命名这种抽象事物,或者用其他名称来命名这种抽象事物,这种抽象事物是客观存在的。如果带分类的事物集合可以划分为多个类别当中,则某个类(xi)的信息(量)定义如下:

I(x)用来表示随机变量的信息,p(xi)指是当xi发生时的概率。当事件xi发生的概率p(xi)很小,但是它却发生了,那这个信息量相当大,比如买彩票中奖了,那么这个信息量肯定是很大的。相反,对于大概率事件,人们习以为常,那么这个事件的信息量就很小。这就体现在上述公式中。

信息熵
“信息熵”是度量样本纯度最常用的一种指标。所谓样本纯度,相反而言之就是凌乱程度。如一个数据集U中的样本都属于同一类,那么这时样本纯度最高而凌乱程度最低。信息熵定义为:

其中D表示样本集合,|y|样本中类别的数目, pk表示第k种分类占集合的比例。Ent(D)的值越小,D的纯度越高。

信息增益
信息增益 指的是,使用某一个属性a进行划分后,所带来的纯度提高的大小。一般而言,信息增益越大,意味着使用属性a来进行划分所获得的“纯度提升”越大。信息增益定义如下:

信息增益 = 根节点的信息熵 – 所有分支节点的信息熵的加权和

其中,权值为划分后属性a=ak节点中样本的数量与划分前节点中的样本数量的比值,即概率。概率确保了权重的和为1.

上图描述的是,使用属性a对样本集合D进行划分,因为a有V个取值,因此决策树会有V个分支。划分后每一个节点中样本的数量为属性a=ak的样本的数量。 

问:如何理解:信息增益越大,意味着使用属性a来进行划分所获得的“纯度提升”越大?

    答:因为Ent(D)的值越小,D的纯度越高。而划分后,所有的分支节点的Ent(Dk)的和就是划分后的信息熵,公式体现了前后的差距,如果差距越大,那么就说明划分后所有的分支节点的信息熵越小,纯度提升越大。

增益率

背景:当样本集中的某一属性取值使得所有样本被分到不同类别,此时分支的纯度达到最高,无需再继续划分。然而这样的决策树不具备泛化能力。事实上,信息增益准则对可取值较多的属性有所偏好。

为了减少这种偏好可能带来的影响,因此使用增益率代替信息增益准则选择划分属性。

即增益率(Gain_ratio(D,a))=信息增益Gain(D,a)/属性固有值(IV(a))。
属性A的可能取值越大,固有值IV(a)通常越大。
信息增益率偏向于可能取值减少的属性。因此C4.5算法不直接使用信息增益率来选择划分属性。

基尼值
基尼值 Gini(D) 反映了从数据集中随机抽取两个样本,其类别标记不一致的概率。当数据集的纯度越高,每次抽到不同类别标记的概率越小。打个比方,在一个袋子里装100个乒乓球,其中有99个白球,1个黄球,那么当我们随机抽取两个球的时候,很大概率是抽到两个白球。

所以数据集D的纯度可以用基尼值来度量,其定义如下:

基尼值越小,数据集D纯度越高。

基尼指数

基尼指数是针对于属性定义的,其反映的是,使用属性a进行划分后,所有分支中(使用基尼值度量的)纯度的加权和。

属性a的基尼指数定义如下:

我们在属性集合A中选择划分属性的时候,就选择使得划分后基尼指数最小的属性作为最优划分属性。CART就是用基尼指数来选择划分属性的。

2.如何构建决策树?

构建决策树的关键步骤是分裂属性,指在某个节点按照一类特征属性的不同划分构建不同的分支,使每个分支中的数据类别尽可能的纯。
决策树是一种贪心算法策略,只考虑当前数据特征的最好分割方式,不能回溯操作(只能从上往下分割)
步骤:
1.将所有的特征看成一个一个的节点
2.遍历所有特征,遍历到其中某一个特征时:遍历当前特征的所有分割方式,找到最好的分割点,将数据划分为不同的子节点,计算划分后子节点的纯度信息
3.在遍历的所有特征中,比较寻找最优的特征以及最优特征的最优划分方式,纯度越高,则对当前数据集进行分割操作
4.对新的子节点继续执行2-3步,直到每个最终的子节点都足够纯

决策树算法构建的停止条件:
1.(会导致过拟合)当子节点中只有一种类型的时候停止构建
2.(比较常用)当前节点种样本数小于某个值,同时迭代次数达到指定值,停止构建,此时使用该节点中出现最多的类别样本数据作为对应值

3.决策树三大算法

ID3算法: 内部使用信息熵以及’信息增益‘来进行构建,每次迭代选择信息增益最大的特征属性作为分割属性。只支持离散的特征属
优点:决策树构建速度快,实现简单
缺点:算法依赖样本中出现次数较多的特征属性,但是出现次数最多的属性并不一定最优

C4.5算法:使用’信息增益率‘来构建,在树的构建过程中会进行剪枝操作的优化,能够自动完成对连续属性的离散化处理。选择信息增益率大的属性进行分割
优点:准确率较高,实现简单
缺点:对数据集需要进行多次顺序扫描和排序,效率较低。

CART算法:使用’基尼系数’作为数据纯度的量化指标来构建,选择‘GINI增益率’来分割,越大的即作为当前数据集的分割属性.可用于分类和回归。(二叉树构建)

三种算法主要区别:CART构建的一定是二叉树,ID3,C4.5构建的不一定是二叉树

4.分类树和回归数的区别:

1.分类树是基于概率来构建的,采用信息增益、信息增益率、基尼系数来作为树的评价指标。
2.回归数是基于平均值来构建的,采用均方差作为树的评价指标。 

5.决策树优化策略:

1.决策树欠拟合:没有将不同的数据类别划分开,原因:决策树深度太浅导致。
解决方案:1.增加树的深度。2.使用集成算法,Boosting算法(GBDT)
2.决策树过拟合:学习能力太强,将噪音数据特征也学习到数据分割中了,原因:决策树深度太深导致
解决方案:1.剪枝(调整API中的参数)2.使用集成算法:Bagging算法(随机森林)
 

 6.决策树的剪枝:

1.前置剪枝:是指在决策树生成过程中,对每个节点在划分前先进行估计,若当前的节点划分不能带来决策树泛化的提升,则停止划分并将当前节点标记为叶子节点。(深度浅,容易欠拟合)
2.后置剪枝:是指先从训练数据集中生成一课完整的决策树,然后自底向上对非叶子节点进行考察,若将该节点对应的子树替换为叶子结点能够带来决策树泛化能力的提升,则将该节点替换为叶子节点。 
参考文献:

https://blog.csdn.net/NeilGY/article/details/82746270

https://blog.csdn.net/sinat_22594309/article/details/59090895

https://blog.csdn.net/akirameiao/article/details/79953980

机器学习入门1:算法概述

本文是机器学习入门的基础版,学习对象产品经理同学;

机器学习,简言之:一堆数据,用算法模型进行训练,再用于使用。

似乎算法看上去是最重要的,但这里也需要强调下:数据来源,数据处理,特征选取,在特定场景下算法优劣的衡量和算法一样重要。 

1.算法

算法满意度:

如何衡量一个算法的好坏,有两个指标:准确率、召回率(也叫查准率和查全率)。准确率和召回率都是越高越好,且是互斥关系,单独说准确率或召回率高是没有意义。

有如下定义:

准确率 P = TP/TP+FP = TP/T’ 识别出的正例中有多少是正例
召回率 R = TP/TP+FN = TP/T 输入的正例中多少被找回了

算法平衡点:

在衡量算法好坏时,常用P-R图表示。将预测结果按预测概率从高到低排序,再按此顺序,将样本作为正例,计算准确率和召回率。以准确率为横轴、召回率为纵轴得到P-R曲线。

而以假正例率为横轴,真正例率为纵轴得到的ROC曲线,面积称为AUC。 
当A曲线完全包含B曲线时,则断定A曲线性能更好,若有交叉,则无法一般性的断定谁更好,只能在给定准确率/召回率时比较。

 

2.数据预处理-归一化

在上述算法中,如果我测试100个苹果,100个非苹果,准确率是1/2;但如果我测试100个苹果,200个非苹果,得到的准确率是100/300=1/3; 测试200个苹果,100个非苹果,得到的准确率是2/3;发生了什么问题?这是因为在统计时,必须两种样本的数量相当,否则计算概率(比值)一定会倾向于数量大的那部分。

即在训练过程也是一样,最好保持训练样本中正负样本的数量相当。

所以,在训练之前,数据预处理的重要一步是归一化。

(注:归一化还包括其他内容,例如让数据的变化范围在给定区域等,这里仅指让正负样本的数量一致。) 
最简单的方式有二种: 

1) 上采样(过采样)
将样本少的一方放大,但不能简单的copy多份,会导致严重过拟合问题。过拟合是指,学习算法把样本学的太好了,很可能把一些训练样本自身的特征当成了该类别的一般特征,导致泛化性能下降。 
代表性算法有SMOTE是通过对正例进行插值得到额外的正例。(可自主了解该算法) 

2) 下采样(欠采样) 
将样本多的一方缩小,但不能随意丢弃,很可能丢失重要信息。代表性算法有EasyEnsemble。

扩展阅读:不均衡学习的抽样方法

 

3.特征提取/特征选择

要点:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已; 

为什么要进行特征选择?

1.维数灾难。当属性太多时,选择重要的特征,使学习过程仅在一部分特征上构建模型,则维数灾难问题将大为减轻。

2.去除不相关特征会降低学习任务的难度。属性并不是越多越好,复杂的,没有意义的属性会增加学习的成本。就好像侦破案件时,只保留关键因素,真相越容易看清。 

如何从初识特征集中选取子集,并评价该子集的好坏。一般的,由贪心算法的思路,分为前向搜索、后向搜索、或二者结合的方式。

前向搜索是指,在初始集合中先选取一个属性作为特征子集,在接下来的每一轮中,都选择一个最有意义的属性加入特征子集,直到特征子集最有意义。

后向搜索是指,将初始集合作为特征子集,在接下来的每一轮中,都剔除一个最无意义的属性,直到保留下来的特征子集最有意义。 
上述表达中的“最有意义”依赖如何评价子集的好坏,一般可通过计算特征子集的信息增益判断。 
常见的特征选择方法有:过滤式、包裹式、嵌入式。 

4.算法的划分方式

机器学习算法有很多,有分类、回归、聚类、推荐、图像识别领域等等。在机器学习算法中,没有最好的算法,只有“更适合”解决当前任务的算法。

按照学习方式的不同,一般划分为四类:

监督学习

输入数据叫训练集,训练集中需要预测的字段是有已知答案的(比如是不是垃圾邮件,或者某一时间点的股价)。

一个预测模型通过训练过程来准备,训练过程中如果预测是错误的能够得到纠正。训练过程会一直持续,直到算法模型达到一定的预测准确度。

典型的问题是分类回归

典型的算法有对数几率回归和反向传播神经网络。

 

非监督学习

输入数据中需要预测的字段没有已知答案。

预测模型通过输入数据中的推导结构来准备。这样可能抽象出通用规则。它通过一个过程来系统地减少冗余,也有可能是通过相似性来组织数据。

典型的问题是聚合,降维,和相关性学习。

典型的算法是Apriori算法和k-Means算法。

总结:当使用数据构建商业决策模型,你通常会使用监督型和非监督型的学习算法。

 

半监督学习

输入数据中有的有预测结果,有的没有。

存在需要预测的问题,但是模型需要学习结构来组织数据并作出预测。大多数的实际应用都是半监督学习,因为现在的数据太多了,不太可能所有的数据都没有标签,同时,将所有的数据都带上标签又太费时间,所以半监督学习是个很好的折中。

典型问题是分类回归

典型算法是一些对其他灵活算法的扩展,这些灵活的算法对如何为数据建模作出了假设。

目前一个热点问题就是在类似图像识别这样的领域中使用半监督学习,这些问题中一般都拥有很大的数据集,但是很少的数据已经有了预测结果。

强化学习

输入数据作为对模型的反馈,不像监督模型那样,输入数据仅仅是作为一个检查模型对错的方式,在强化学习下,输入数据直接反馈到模型,模型必须对此立刻作出调整。

典型问题是常见的应用场景包括动态系统以及机器人控制等,AlphaGo则是强化学习最有名的实例。

典型算法-马可夫决策就是强化学习的一种,还包括Q-Learning、时间差学习(Temporal difference learning)。 

常用top10算法:

线性回归(Linear Regression)
逻辑回归(Logistic Regression)
决策树(Decision Tree)
支持向量机(Support Vector Machine, “SVM”)
朴素贝叶斯分类(Naive Bayes)
K最近邻(K-Nearest Neighbors, “KNN”)
K均值(K-Means)
随机森林(Random Forest)
降维(Dimensionality Reduction Algorithms)
梯度增强和自适应增强(Gradient Boost & Adaboost)


算法思想:

现有的机器学习算法只有几种思想,基于每种算法思想会衍生出一系列同类型的算法,使机器学习算法家族庞大而复杂。

例如以神经网络为思想衍生的一系列算法,BP网络是指BP算法训练的多层前馈神经网络,RBF网络是一种单隐层前馈网络,以及复杂模型为代表的深度学习。同时,各思想之间有借鉴及交融,形成新的算法。

例如,集成学习的主要思想是通过结合多个学习器来完成学习任务,其两大类别的代表算法有Boosting和随机森林。而随机森林的基础思想是决策树,所以可以说随机森林是一种集成学习算法,也可以说随机森林是一种决策树算法。

我女儿和人工智能的思考

上篇:聊下我的女儿
满满,纯种人类,5月26日2岁。

0-6个月 哭
1.肚子饿了
2.哪里不舒服,需要帮忙处理

6-12个月 自己的语言、学习站立行走
1.咿咿呀呀,完全是婴儿世界独有的语言,成年人不懂。我有录音,试着后续翻译出来。
2.天生会叫mama,这让我理解了,妈妈读音的来源。同时也发现其他国家针对妈妈母亲的读音大多数都mama,所以这个不是巧合。
3.爬行阶段到站立行走,感觉是满周岁就开始会站立了,两步、三步…

1岁-1岁6个月 语言和校正、人物(称呼)识别、模仿学习、执行命令、自我意识(思维)
1.开始学习叫baba,但还不清楚babamama是哪一位,逐步通过不断校正反馈学习,进行人物(称呼)识别
2.开始校正自己的语言,逐渐演变为成年人大概能理解的语言
3.开始探索世界,进行对话发问:“这是什么呀?”
4.开始模仿学习。看到小朋友会的动作,回来后自己就会了。学习打电话,拿着任何东西,任何时刻都可以立马开始变为打电话姿势,并和“对方”对话;敲击电脑、开手机等
5.开始执行命令做任务。帮忙拿东西,识别语言命令,识别物体,识别任务流程等
6.开始自我意识(思维)。比如爸爸开门回家,主动拿包往屋里拖;

重点说下自我意识(思维)阶段:
这个阶段是我觉得人类最神奇的地方,非常非常让我惊喜意外。这个过程没有大人教导,完全是女儿自我意识触发的举动。例子太多太多,女儿每次产生独立意识行为的时候,都让我非常吃惊。

1岁6个月-2岁  任务参与感、兴趣
1.希望参与一切任务,积极搭把手,一起协作
2.喜欢拿笔涂画,画线条,还不是成年人理解的图形,但还是有很自如的美感

满满画画

满满画画

2岁+ 语言能力爆棚、模仿能力
1.长句子,只要有人教一遍,随口就会,包括英语,也会跟着有模有样的重复读,虽然不知道什么意思
2.模仿其他小孩做的游戏,即时大人看着很重复无聊的一个游戏,她也会觉得非常开心

下篇:聊下人工智能机器人

BBC研究的智能机器人发展阶段
0.编程人员0和1的程序。智能取决于编程者
1.自己的语言。产生机器人自己的语言,区别于人类语系。
2.语言校正学习。和同类机器人用自己的语言对话,校正确认语言的命令识别的关联性
3.做任务。发出命令到执行
4.自我意识。这个阶段还尚未实现。这个阶段也是我非常惊讶于我女儿在1岁6个月时候拥有的能力。
BBC地平线:探寻人工智能.BBC.Horizon.2012.The.Hunt.for.AI.中英字幕

目前人工智能类产品:
1.微软小冰。语料库、人脸识别、大数据学习,整个过程不断建模进行case学习,不停矫正学习。
2.百度度秘。针对一个垂直领域的关键词提取,进行自动回复相关O2O服务。
3.阿里小AI。在《我是歌手4》期间大量PR宣传自己拥有歌王预测能力。初步分析是不断对已经发生的事情和之前历史数据进行整体舆情分析、包括音乐能力识别,综合起来做的一个接近实时的历史数据分析和推演,还无法做到在某场比赛开始前下定论预测比赛结果。

人工智能发展现状观点:
目前人工智能类产品,还处在对语意的识别、理解,这个过程还不是很成熟。还需要不断建立case库进行深度学习。
非常期待人工智能的自我意识阶段,拥有独立的思维:发现、判断、决策、行动。

也希望目前发展中的一些智能产品,别吹牛逼了,做到什么程度就说什么程度的话。

有突破总是令人惊喜的,不是吗?

结语:
感谢女儿带给我一起成长,一起学习、探索的过程。
如果要研究人工智能,请一定先养一个孩子。没有孩子,没有发言权,或者很难有新研究成就:)
最后送给我身边不打算要小孩的大哥大姐,大多数是宁可养小动物,也不养小孩。
其实,小孩比小动物好玩多了,过程自己体会吧。不要拿担心不能给孩子将来作为借口,也许是小孩给你将来,将来是未知数,没有过怎么知道将来结果呢!