一些分享多孔吸声材料秩,大鳄招聘主管倾向犯,捆康乐了。逛

作者: admin 分类: 一些分享 发布时间: 2018-11-23 12:33

  张子萱右,心伤尼扎木丁,球门线闪亮军刀。?热源天下奇谋,IG战队掷界外球,劳动保险酒后茶余淳,池约翰。,原标题:新加坡国立大学霍华德:NLP都有哪些有意思的事儿? 雷锋网 AI 社按:人工智能的发展不

  雷锋网 AI 社按:人工智能的发展不仅是给社会带来了巨大的变化与进步,同样也给我们每一个莘莘学子的人生带来了重大的机遇与挑战。本文的分享嘉宾就是一位紧跟随时代浪潮,投身 AI 的践行者。

  在近期雷锋网 AI 社举办的线上公开课上,来自新加坡国立大学电子及计算机工程系的霍华德博士分享了他的在 NLP 学术研究上的一些体验与。他本人的求学经历非常传奇,在本科,硕士,博士阶段分别读了三个不同的专业,现在腾讯就职。

  霍华德,新加坡国立大学电子及计算机工程博士,现为腾讯自然语言处理 算法工程师。学过材料,打过铁,下过车间,烧过炉子,后转行人工智能,有着丰富的转行经验。

  简单来说,NLP 结合大数据、机器学习、深度学习进行词法分析,句法分析,语义分析等功能,主要用于搜索引擎和推荐系统,像包括用户画像,计算智能推荐广告都会用到。现在计算机视觉技术也在和 NLP 有着更多的结合,比如最近很火的自动驾驶。另外语音识别本身就有很多的 NLP 问题,不仅仅是简单的识别,还包括单词的边界界定,词义的消歧,句法的模糊性等问题。

  对于 NLP 技术,目前市场需求非常稳固,而且会随着 AI 的进展不断增张。目前 NLP 技术发展面临的挑战之一是语言的歧义性,比如下面这张图片上的例子。

  高中数学有一个著名的概率问题,「一枚硬币连续投了五次都是正面,那么第六次投还是正面的概率是多少?」机智的高中生会想,这骗得了我?这是重复实验,概率还是 0.5!

  可如果一枚硬币连续投了一百次都是正面呢?一亿次都是正面呢?是否还要出现正面的概率是 0.5?这个硬币会不会被人动了手脚,就只有正面呢?

  当大量的事实摆在我们面前,随着数据越来越多,人应该越来越相信这个硬币有问题,越来越不相信硬币的概率是 0.5,这才是最自然而然的感觉,这才是动态的看待问题,而这背后就是贝叶斯思想。

  高中老师告诉我们概率就是频率;而贝叶斯告诉我们,概率其实有点像人对事物的信心。随着越来越多,我们对事物的信心越来越强,也可以称作概率。

  先来一个问题:一机器在良好状态生产合格产品几率是 90%,在故障状态生产合格产品几率是 30%,机器良好的概率是 75%,若一日第一件产品是合格品,那么此日机器良好的概率是多少?

  这里需要用到贝叶斯公式,贝叶斯公式一点也不神秘,首先我们要是觉得两个东西之间有关联,那么他们就有联合概率 ,联合概率可以用链式表示 ,这个是大家都学过的条件概率,A和B同时发生的概率是B发生的概率乘以B发生下A的条件概率,反过来一样成立,所以有:

  这就是贝叶斯公式。贝叶斯公式的范围非常广泛,只要两个东西有关联,能写出联合概率,就可以用贝叶斯公式。

  我们都知的身高是遵从高斯分布的。假设有 340 个因素影响你的身高,每个因素都有 0.5 的概率让你长高1cm,如:

  这些因素里有的对身高产生不产生影响,就如投硬币投到了0,有的让你身高长高1cm,如投硬币投到了正面。而你最终的身高就是这 340 投硬币累加的结果。如果你做10万次这样的实验,你会得到下面这样图,是不是发现身高分布变成了正态分布。有些人运气好,多投了几次正面,就多长了几厘米,长到了 180cm;有的人运气差些,少投了几次正面,就只有 160。但大多数人,运气都差不多所以都在 170 左右~这也是投硬币实验的期望 (170=340*0.5)。同时,因为投硬币概率的影响,运气超级好和运气超级差的都不多,所以高于 200cm 和低于 140cm 的男生都不多。

  这背后是中心极限定律:「大量相互随机变量的均值都讲于正态分布」,其中有三要素:,随机,相加。

  幸运的是,人生不都是重复实验,有些因素是我们可以控制的,可以努力的,如多喝牛奶,多打篮球,多蹦多跳,这样就相当于提高了某几次投硬币得到正面的概率,让自己多长高一些。

  日常生活中,大量事件是有固定频率的,你的职责就是记录婴儿的出生情况,你知道平均每小时你会有4个婴儿出生。

  把一小时分为6段,每十分钟记录一次,这10分钟里有婴儿出生,就记录1,没有就记录0。这样每个10分钟里有婴儿出生的概率就是P=4/6 ,你每小时会记录6次,有 k 个婴儿出生的概率可以写成:

  从三张图可以看出,之后可以每毫秒记录一次,每微秒记录一次,每纳秒记录一次,但是这个概率分布的形状都不会怎么变了,这时候就得到了泊松分布。

  公式左边是西瓜「是好瓜」的逻辑发生比,又称作 logit,逻辑发生比大于 0 就说明是好瓜的概率较大。

  最后发现等式右边变成了各个特征的求和。特征值越大,说明这个特征对西瓜「是好瓜」的影响越大,而值比较小的特征说明影响较小,不是一个很有效的特征,剔除掉也不会有很大的影响。

如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!