创意编程问卷 机器学习、数据科学、人工智能、深度学习和统计学之间的区别是什么?

[更新]
·
·
分类:互联网
3564 阅读

创意编程问卷

机器学习、数据科学、人工智能、深度学习和统计学之间的区别是什么?

机器学习、数据科学、人工智能、深度学习和统计学之间的区别是什么?

1、数据科学(DS)
简单定义为:数据科学是从数据中提取有用知识的一系列技能和技术。
这些技能通常用德鲁·康威(Drew Conway)创造的维恩图(或它的变体)来表示:
三个圆圈分别代表三个不同的领域:编程领域(语言知识、语言库、设计模式、体系结构等);数学(代数、微积分等)和统计学领域;数据领域(特定领域的知识:医疗、金融、工业等)。
这些领域共同构成了定义中的技能和技术。它们包括获取数据、数据清理、数据分析、创建假设、算法、机器学习、优化、结果可视化等等。
数据科学汇集了这些领域和技能,支持和改进了从原始数据中提取见解和知识的过程。
什么是“有用的知识”?就是可以具有某种价值、可以回答或解决现实世界中问题的知识。
数据科学也可以定义为:研究应用数据处理和分析方面的进展,为我们提供解决方法和答案的领域。
2、人工智能
机器能思考吗?
1950年,艾伦·图灵(Alan Turing)提出了这个问题,他甚至发明了一个著名的测试,来评估机器给出的答案是否与人类的答案相似。从那以后,对人工智能的幻想就开始了,重点在于模仿人类行为。
你做过那个测试吗?
人工智能不是《银翼杀手》中的复制人,也不是《太空堡垒卡拉狄加》中的赛昂人。我们可以把人工智能定义为任何具有某种智能行为的机器或软件。
什么是智能行为
问得好!这就是有分歧的地方。随着机器不断被开发出新功能,以前被认为是智能的任务也从人工智能环境中剥离了出来。
我们可将人工智能定义为能够从其环境中正确解释数据、从中学习,并在不断变化的环境中使用所获得的知识来执行特定任务的机器或软件。
例如:一辆会自行停车的汽车不是智能汽车;它只是按照常规测量距离和移动。我们认为能够自动驾驶的汽车就是智能的,因为它能够根据周边发生的事件(在完全不确定的环境中)做出决定。
人工智能领域包括几个分支,它们目前正处于鼎盛时期。将其可视化后就能准确地知道我们在说什么:
3、机器学习
机器学习是人工智能最重要的分支。它的任务是:研究和开发技术,使机器能够在没有人类明确指令的情况下自学,从而执行特定的任务。
机器将从输入数据集(称为样本或训练数据)中学习,根据算法检测到的模式建立数学模型。该模型的最终目标是对之后来自相同数据源的数据进行(准确的)预测或决策。
传统的机器学习主要有两种类型:
· 监督学习:当训练数据被“标记”时。这意味着,对于每个样本,我们都有与观察到的变量(输入)和我们想要学习预测或分类的变量(输出、目标或因变量)相对应的值。在这种类型中,我们找到了回归算法(预测数值的算法)和分类算法(输出仅限于某些分类值时)。
· 无监督学习:当训练数据没有标记时(我们没有目标变量)。这里的目标是找到某种结构或模式,例如对训练样本进行分组,这样我们就可以对未来的样本进行分类。
传统的机器学习已经让位于更复杂或更现代的学习类型:
· 集成方法:基本上是几种算法联合使用,将它们的结果结合起来以获取更好的结果。尽管XGBoost凭借在Kaggle的胜利而得名,但最常见的例子还是随机森林。
· 强化学习:机器通过反复试误来学习,这得益于它对周围环境的迭代做出的反馈。你可能听说过AlphaGo或AlphaStar(在《星际争霸2》中实力碾压人类)。
· 深度学习:皇冠上的宝石……
4、深度学习
深度学习是机器学习中的一个子领域。
它基于人工神经网络的应用。人工神经网络是一个计算模型,具有分层结构,由相互连接的节点共同工作而形成。这个名字的灵感来自(或试图模仿)大脑的生物神经网络。
虽然神经网络已经被研究和使用多年,但该领域的进展一直很缓慢;主要是限于计算能力不足。尽管深度学习近些年来取得蓬勃发展,这多少要归功于神经网络训练采用了CPU,但其开始不过才十年。
人们普遍认为:任何机器学习问题,无论多么复杂,都可以通过神经网络解决,只要把它做得足够大就行了。如今,深度学习的发展带动了人工智能其他领域的发展;无论是更传统的领域(改善获得的结果),还是最流行的领域:自然语言处理、人工视觉、语音识别、逼真多媒体内容的生成等。
留言 点赞 关注
我们一起分享AI学习与发展的干货
欢迎关注全平台AI垂类自媒体 “读芯术”

大数据的含义和作用是什么?

大数据简单说就是现实世界数据化!
而大数据对于个人的意义就是:个人与信息的强结合,个人自带可信的信息。
就拿健康码来说,为什么绿码就能放行?为什么各个检查口看到绿码就放行?因为绿码 是携带了个人安全的健康信息,表示这个人是低风险的。
换句话说,健康码是个人信息的一部分,而且是可信的。
健康码的存在,是基于大数据的。我们人会休息,但是手机不会休息,于是我们的位置信息随时随地被记录下来,形成一个个人的行动路径。我们有没有经过高风险地区,甚至可以划分到社区和小区。通过收集类似的个人大量数据,最终形成了一个绿色的健康码。以证明我们是安全的,我们没有携带病毒。
早期互联网,人和信息是分开的。电脑是固定在一个个地方,我们只能收集到ip,个人账户信息。地理位置只能通过ip来推测,那个时代,广告的精准推送是非常难的。只能根据地区来推送。
而现在,智能手机的大量普及,不可避免的,我们通过各种“用户协议”开始暴露我们的个人数据,去了哪里,买了什么东西,和谁是朋友和一些基本信息,性别,年龄等等。
于是,大数据算法可以推算出,我们的行动路径,我们的爱好,活跃时间,喜欢什么app,喜欢什么文章。最终逐渐的,我们数据个人形象越来越逼近真实的我们。
而健康码的出现,几乎就是一个正面的证明,说明我们的个人数据形象和真实的我们已经几乎等同了。
这就是大数据时代,我们逐渐在变得越来越透明,越来越数据化。
数据就是我们,我们就是数据!