Advertisement

论文阅读笔记:Reinforcement learning for IoT Security

阅读量:

论文阅读笔记:Reinforcement learning for IoT Security: A Comprehensive Survey

文章目录

  • abstract

  • 一、为何要使用RL,RL的优势在哪里

  • 二、具体物联网中的安全问题以及应用

    • 1.Threats in IoT security

      • (1) Deinal-of-Service Attack
      • (2) Jamming attack
      • (3) spoofing attack
    • 2. Cyber-physical systems

  • 总结


abstract

物联网设备连接数字世界与真实世界,随着物联网设备越来越多,安全问题也越来越突出…blabla
文章主要叙述了RL在物联网安全领域中的应用,具体包括:

  1. 为何要使用RL,RL的优势在哪里

  2. 具体有哪些物联网中的安全问题,文章中分为了两大块
    1 “Threats in IoT security”: DoS,Jamming,Spoofing attack
    2 ‘Cyber-physical systems’(CPS): security in smart grid, smart transportation system

  3. RL在这些安全问题中的应用

接下来针对这三个问题进行叙述。


提示:以下是本篇文章正文内容,下面案例可供参考

一、为何要使用RL,RL的优势在哪里

与传统方法相比,RL不需要对环境进行具体建模。RL可以在model-free的前提下进行学习,并且随着物联网设备越来越多,对于IoT的建模会愈加复杂。

与监督学习相比,RL不需要大量的标注数据,RL可以在缺失先验信息的条件下,通过与环境的interaction进行学习更新模型;监督学习的模型有效性依靠数据包涵的广泛性,对于未在训练集内的攻击方式,监督学习很难进行有效的防御,需要收集该新攻击方式的数据再更新模型,具有一定的滞后性,而RL可以不断交互持续在线的学习。

同时文中提出 Reinforcement Learning for Securing IoT Against Adversarial Learning Environment ,RL可以应对对抗学习,但是也就一小段话。

二、具体物联网中的安全问题以及应用

1.Threats in IoT security

(1) Deinal-of-Service Attack

DoS攻击主要是对网络注入大量无用数据造成网络阻塞。
DoS attack is achieved by flooding the communication network with unnecessary traffic
Malialis and Kudenko 提出一种multiagent RL方法抵御DDoS攻击,其将路由routers作为agent。这些路由器通过对victim server限制流量来抵御DDoS。

K. Malialis and D. Kudenko, “Multiagent router throttling: Decentralized coordinated response against DDoS attacks,” in Proc. 25th IAAI Conf., 2013, pp. 1551–1556.

文献[64]提出了一种部署在central SDN上基于DDPG的算法,该agent可以控制流向某一server的流量以防止flooding of traffic。 state space为各个交换机的switch and flow statistics;action为基于特定主机允许的最大带宽的通信量限制;reward function为到达server的benign traffic和attack traffic的比值。

Y. Liu, M. Dong, K. Ota, J. Li, and J. Wu, “Deep reinforcement learning based smart mitigation of DDoS flooding in software-defined networks,” in Proc. IEEE 23rd Int. Workshop Comput.-Aided Model.
Design Commun. Links Netw. (CAMAD), Barcelona, Spain, 2018, pp. 1–6

(2) Jamming attack

Jamming攻击主要是对原信号中加入中断杂讯,干扰transmission部分,甚至中断通信传输过程。

文献[80]通过RL进行power control以抵御jamming(估计就是有jamming的时候增大发射功率,SINR增大,jamming的影响就小一些)

Y. Chen, Y. Li, D. Xu, and L. Xiao, “DQN-based power control for IoT transmission against jamming,” in Proc. IEEE 87th Veh. Technol. Conf. (VTC Spring), Porto, Portugal, 2018, pp. 1–5.

Han等人[81]提出一种基于DQN的2-D抗干扰通信算法,agent可以采取两种action,1. 离开强干扰区,切换至另一个基站;2. 通过跳频用另一个信道传输。state space为 the availability of the number of PUs and the discrete SINR value of the SU at that time slot ,(看不懂PU available,不知道是不是指的信道,每个PU占用一个信道?)

G. Han, L. Xiao, and H. V. Poor, “Two-dimensional anti-jamming communication based on deep reinforcement learning,” in Proc. IEEE Int. Conf. Acoust. Speech Signal Process. (ICASSP), New Orleans, LA, USA, 2017, pp. 2087–2091

大部分文献都设定对面使用的策略非智能,文献[85]提出了一种智能干扰以应对DRL的抗干扰。这种DRL vs DRL的文献还是比较有趣的,不过self-play可能也可以做到。

Y. Li et al., “On the performance of deep reinforcement learning-based anti-jamming method confronting intelligent jammer,” Appl. Sci., vol. 9, no. 7, p. 1361, 2019

(3) spoofing attack

欺骗式攻击,文章中举的例子是无人机,某架外来无人机加入某个自组织的无人机网络,该无人机和正常无人机一样巡逻,但是其会收集各个地区的数据,并且会给网络中心上传错误数据。

文献[94][95]主要是运用RL去决定选取哪个门限判定是否为欺骗数据包,高于该门限就为spoofed packet。(这种并没有用RL直接去做决策,而是用RL去辅助决策进行门限选取,感觉不用RL也应该可以)

[94] J. Liu, L. Xiao, G. Liu, and Y. Zhao, “Active authentication with reinforcement learning based on ambient radio signals,” Multimedia Tools Appl., vol. 76, no. 3, pp. 3979–3998, 2017.
[95] L. Xiao, Y. Li, G. Han, G. Liu, and W. Zhuang, “PHY-layer spoofing detection with reinforcement learning in wireless networks,” IEEE Trans. Veh. Technol., vol. 65, no. 12, pp. 10037–10047, Dec. 2016.

2. Cyber-physical systems

主要涉及一些软硬件结合的攻击,和个人暂时没什么关联,就没咋看 = 。= 有机会再更新吧

总结

survey的日期是2020撰写,2021发表,还是比较新的。但是感觉IoT security对RL的利用程度不高,大部分还在使用传统Q-learning,SARSA和DQN,并且比如jamming attack下的power control,用RL进行功率控制其实在其他领域已经被做烂了,IoT security只是套了一个新背景而已。该文章列举介绍了一些常见的attack,对于刚进入领域的人比较友好。

个人感觉攻击防御中ai vs ai这种方式还是比较有意思的,噱头也够好,水文章不错。

全部评论 (0)

还没有任何评论哟~