随着人工智能的兴起,机器学习的热度一直在上升。机器学习在给我们带来智能生活的同时,其自身的安全问题也逐渐进入人们的视线。这个安全问题最早由L Ngoodfellow和Papernot提出,可以定义为机器学习的安全和隐私问题。在机器学习的发展和完善过程中,安全问题不容小觑。
机器学习是指研究计算机如何模拟或实现人类的学习行为,获取新的知识或技能。机器学习产业链由三部分组成,可细分为上游基础层、中间技术层,下游多与垂直领域结合。
机器学习广泛应用于金融、教育、医疗、工业、零售、能源等多个垂直领域,在 2014年~2018年,其行业市场规模从2014年的8.7亿元增长至2018年的52.5亿元,年复合增长率达到了56.7%。预计至2023年,机器学习市场规模将达336.7亿元。
机器学习广泛应用于金融、教育、医疗、工业、零售、能源等多个垂直领域。2014年至2018年,其行业市场规模从2014年的8.7亿元增长至2018年的52.5亿元,年复合增长率为56.7%。预计到2023年,机器学习市场规模将达到336.7亿元。
机器学习应用的安全性对于战斗学习至关重要。
所谓反机器学习,是机器学习研究中安全细分的一个方向,可以在一定程度上保证机器学习应用模型的安全性。
这是由于现在的模式识别技术包括语音、物品识别它们都借助机器学习中的深度学习得到了长足的进步。但是同时这些技术也很容易被对抗样本所迷惑,而所谓的对抗样本,就是指一些为识别任务精心打造的故意混淆和误导检测任务的样本。
这是因为现在的模式识别技术,包括语音和物体识别,在机器学习的深度学习的帮助下有了很大的进步。但与此同时,这些技术也很容易被对抗样本所混淆,所谓对抗样本是指一些故意混淆和误导为识别任务精心设计的探测任务的样本。
如图,人眼识别没有区别。由于加入了对抗性噪声,原雪山被机器识别为狗,原河豚被机器识别为螃蟹。
在近些年来的研究中进一步发现, 不仅仅是像素级别的扰动, 在真实世界中也存在着大量的扰动, 即便是日常生活中我们肉眼可以做出简单区分的事物, 在通过摄像机镜头的采集后, 也具备了攻击性。
近年来的研究进一步发现,现实世界中不仅存在像素级扰动,还存在大量扰动。即使是日常生活中我们肉眼可以简单分辨的东西,被相机镜头捕捉到之后,也具有攻击性。
正如直播中李博给我们带来的分享, 如停止标志牌, 无论是没有涂鸦的还是有涂鸦的, 对于人来说都是肉眼可以识别的停止标志,但是对于自动驾驶的识别系统来说,附加了涂鸦的车牌则可能会被认为是一个非停止的标志。
正如李博在直播中跟我们分享的,比如站牌,不管有没有涂鸦,都是肉眼可以识别的站牌,但是对于自动驾驶识别系统来说,贴有涂鸦的车牌可能会被认为是非停车牌。
真实世界测试:下图左右两边都有停车标志,但是在左边,由于干扰,机器学习把标志误认为限速45,所以车不会停在停车标志下面。
依然是真实世界的测试:停止标志被加上了图画后,机器学习无法识别,从而无法做出停止的行为。
还是现实世界的测试:停车标志画出来后,机器学习无法识别,所以停不下来。
现阶段模型攻击的分类
主要分为两类,分别从训练阶段和推理阶段进行。在训练阶段,主要方法是对模型的参数进行轻微扰动,使模型的性能偏离预期。
训练阶段
标签操作
标签操纵就是直接通过对于训练数据的标签进行替换,让数据样本和标签不对应,从而最后训练的结果也一定与预期的产生差异。
标签操纵是直接替换训练数据的标签,使数据样本与标签不对应,这样最终的训练结果必然与预期不同。
输入操作
操纵是一种直接攻击方式,主要是在线获取训练数据的输入权限,操纵恶意数据扰乱在线训练过程。最后的结果是输出出乎意料。
推理阶段的攻击是,在训练一个模型的时候,主观上可以把它看成一个盒子。如果盒子对我们来说是透明的,就可以认为是“白盒”模型;否则可以视为“黑箱”模式。对抗防御机制
反样本攻击:主要是基于附加信息引入辅助块模型进行附加输出,作为一种自我整合的防御机制,特别是针对攻击者的黑盒攻击和白盒攻击,这种机制效果很好。另外,防御蒸馏也可以起到一定的防御能力。防御蒸馏是将训练好的模型转移到结构更简单的网络中,从而达到防御攻击的效果。直面学习前沿趋势
目前在对抗性学习的研究中已经提出了很多针对样本生成的攻击算法,但是在防御机制上仍然有很多改进空。根据攻击方式的不同,防御手段通常是修复漏洞。目前,还没有一个标准化的、通用的方法来防御所有的攻击。就算上面提到的辅助块模型,防御蒸馏,或者胶囊神经网络等。,集成手段不够成熟,没有形成完整的防御体系,只能在局部达到有效的防御效果。在对抗攻击方向,防御技术和机制仍有很大的发展前景。
还有,正如李博在直播中关于对抗式学习未来商业应用的介绍中所说,对抗式学习未来将在自动驾驶领域大有作为,为我们的安全驾驶保驾护航。同样,在医疗领域,通过对抗性学习消除焦虑,大大提高了医疗的准确性。在患者隐私层面,通过对抗性学习修改和保护隐私信息也大有可为。
在对抗学习巨大的商业发展前景下,机器学习行业正在涌现出足够多的优秀企业,这些企业也在不断推动对抗学习的发展。机器学习相关的领先企业
朱坚智能竹智是一家利用深度学习、情感计算、计算机视觉等技术开发对话式机器人产品的机器学习公司。其人工智能解决方案包括AI+金融、AI+零售、AI+教育、AI+政务等。
2016年1月,Takeshi Intelligence获得2500万美元A轮融资。2018年12月,朱坚智能获得3000万美元B轮融资,国开金融控股领投,国泰金控跟投,科沃斯、尚易继续跟投。
第四范式
第四范式是将机器学习、人工智能、大数据等技术应用于金融、电信等领域的大数据技术公司。旗下产品包括SageAI平台、SageHyperCycle ML、Sage HyperCycleCv、智能风控平台。
2015年7月,第四范式获得天使轮100万人民币。2 0 1 6年5月,第四范式获得创新工厂100万美元A轮融资。2017年12月,第四范式获得B轮融资。2 0 1 8年12月,第四范式获得超过10亿人民币的C轮融资,投资方包括红杉资本、保利资本、三峡资本、中国农业银行、中国交通银行、中信银行等。
公手
Kurt是一家专注于机器学习、计算机视觉等人工智能技术,从事机器人及相应软件的研发、生产等相关业务的公司。库贝特主要为物流、医疗、食品、教育、电子等行业提供技术解决方案。
Kurt的产品包括C O B O T S S S,C G R A S P,CPOLISH,CAssemblyC2,COMATRIX,COHAND等。
1.C O B O T S Y S是基于计算机视觉、智能能力控制、抓取规划和机器学习的智能工业机器人操作系统,可实现重力标定、力位混合控制、接触保护和过程监控等功能。
2.C Grab是一款柔性机器人抓取产品,可以根据抓取物品的类型自适应选择视觉算法和运动路径。主要应用于物流、医药、食品、电子、零售等行业。
3.CPOLISH是集机器视觉和智能控制技术于一体的抛光系统。该系统可以通过3D摄像头对抛光工件进行扫描建模,计算工件在3D 空中的坐标,然后根据视觉重建的模型生成路径,实现抛光工艺路径的设计。
4.CASSEMBLYC2是一款机械臂操作产品,配有六维传感器和腕部视觉摄像头。
5.COMATRIX是一款具有GPU处理能力的3D可视化产品。
6.COHAND是一款灵活的机械手产品,兼容Windows、Linux、ROS操作系统。主要面向教育、科研、物流分拣等领域。
2016年6月,固铂获得天使轮100万人民币融资。2017年3月,固铂获得4000万人民币A轮融资,投资方为经纬中国。2017年12月,固铂获得1.02亿元人民币B轮融资,投资方为ggv capital、Matrix Parnters等。
阿亚萨迪
Ayasdi是一家由DARPA(美国国防部高级研究项目组)资助的初创公司。其核心技术“拓扑数据分析”可以在复杂的数据中发现细微的模式。
Ayasdi一直与美国顶级医院和制药公司合作。医院和制药公司可以从公共信息源获得大量数据,并结合自己的数据进行一些新的研究。
数字推理
数字推理是一家专注于认知计算的公司,利用机器学习来识别通信数据中有意义的人类行为。它可以利用人工智能积累上下文,从任何来源填充认知空白,从而通过暴露隐藏的关系、暴露的风险和潜在的机会,明确事物的价值取向,得出结论。
数字推理公司开发的机器学习平台可以比传统工具更智能地识别银行的内幕交易和价格操纵行为。它可以在知识图谱的基础上真正理解用户的需求,而不是拘泥于用户输入的句子的字面意思,它可以通过文字挖掘真实需求,准确捕捉用户输入的句子背后的真实意图,并进行搜索和挖掘,从而更准确地将结果反馈给用户。
数字推理还与纳斯达克合作,帮助其建立监控资本市场的工具。纳斯达克在2020年5月向其投资了4000万美元。
黑暗痕迹
Darktrace是一家利用机器学习提供“企业免疫系统”的网络安全系统的公司,它模拟了人类的免疫系统:在知道所有设备和用户的“正常行为”是什么之后,通过环境的变化来更新对新信息的洞察力,然后寻找异常情况下的安全问题。
企业免疫系统是目前世界上最先进的网络防御机器学习技术。由于该系统受人类免疫系统自我学习和自我防御的启发,这一新技术从根本上改变了组织在复杂多变的网络威胁新时代的自我保护模式。
Qburst
QBurst是机器学习公司的先驱。QBurst通过机器学习,以业务所需的速度做出数据驱动的决策,并根据客户需求定制解决方案,以提高效率,大幅提高生产力,预测新的机会和需求,以及其他许多可能性。
1.能源需求预测:机器学习预测系统可以利用过去的能源消耗数据和天气参数来预测未来的能源需求。将久经考验的SARIMA模型与新的机器学习技术相结合的混合预测模型也在开发中。
2.欺诈识别:基于合法和欺诈交易的已知案例的模型可以为新交易分配怀疑分数,从而帮助识别信用卡欺诈。决策树和贝叶斯网络用于预测和标记保险索赔中的欺诈。
3.预测性维护:在地理上分散的地点对机器进行持续监控,检测算法可以根据历史数据分析实时机器参数,从而识别设备的劣化状态。因此,操作员可以启动预测性维护,以防止对资产造成不可逆转的损坏。
4.病历笔记:电子健康记录作为大数据分析中丰富的患者数据来源,由于其高度非结构化的特点,不适合直接分析。因此,在NLP中使用机器学习可以对患者的症状、治疗周期和恢复情况进行分析和标记,使其在临床决策中更容易搜索。
5.健康信息学:将NLP与语义知识处理和机器学习相结合的智能系统,可以帮助研究人员更快地找到特定问题的研究文献。
6.医学影像分析:监督机器学习技术在医学影像分析中的应用,通过计算机帮助诊断一些特殊部位的疾病,比如大脑。基于大量标记图像(如CT和MRI扫描)训练的模型可以自动检测疾病指标,帮助医生进行预测。
7.智能广告牌:通过使用实时图像识别应用程序,零售商根据客户的年龄、性别,甚至种族和肤色对客户进行分类,从而在数字广告牌上显示有针对性的广告,以提高交易的成功率和受欢迎程度。
8.推荐产品:基于用户画像的某些特征或共性,通过内容和算法的协同过滤,产生针对用户的推荐。这些推荐可以根据特定画像特征的用户和相似用户喜欢的物品来进行。
9. 情感分析:从运用自然语言处理,用户情感可以被挖掘,以此为基础来建立更多具有影响性的商业活动。
9.情感分析:从自然语言处理的运用,挖掘用户的情感,在此基础上建立更有影响力的商业活动。
机器学习前沿的发展趋势
CapsNets是Hinton提出的一种新型深度神经网络架构,以胶囊单元作为神经元载体,胶囊的设计更符合人类神经元的原理。胶囊网络是在卷积神经网络的基础上发展起来的。由于C N N与物体的空间关系,以及大旋转后物体的识别能力较弱,胶囊网络的提出克服了上述问题。
目前,胶囊网还处于发展的初级阶段。随着训练算法的不断完善,胶囊网络的性能将进一步提高,其在图像识别领域的应用也将逐步深入。
在本次分享的最后,李博谈了一些关于逆反学习研究的经验和建议。她崇尚自信,开放的心态,不拘泥于一些小圈子,勇敢的去进行自己感兴趣的研究,对自己有信心,坚持不懈最终会让一切都有回报。
学术关注的是前沿科技和为之奋斗的科研工作者。我们希望通过不断的分享,带给大家前沿的科学技术和科研工作者走过“弯路”却依然艰辛的真实经历。
评论列表()