Phương pháp cải tiến LSTM dựa trên đặc trưng thống kê trong phát hiện DGA botnet

  • Mạc Đình Hiếu School of Information and Communication technology, Hanoi University of technology
  • Tống Văn Vạn School of Information and Communication technology, Hanoi University of technology
  • Bùi Trọng Tùng School of Information and Communication technology, Hanoi University of technology
  • Trần Quang Đức School of Information and Communication technology, Hanoi University of technology
  • Nguyễn Linh Giang School of Information and Communication technology, Hanoi University of technology
Keywords: DGA Botnet, NXDomain, Recurrent Neural Network, Long Short-Term Memory Network.

Abstract

Phần lớn botnet sử dụng cơ chế sinh tên miền tự động (DGA: Domain Generation Algorithms) để kết nối và nhận lệnh từ máy chủ điều khiển. Việc tìm ra dạng DGA botnet thực hiện qua xác định cách thức tạo sinh tên miền đặc trưng cho loại botnet đó dựa trên những phân tích đặc trưng tên miền thu thập từ các truy vấn DNS. Trong bài báo này chúng tôi đề xuất phương pháp phân tích tên miền và phát hiện DGA botnet dựa trên sự kết hợp mạng LSTM (Long Short-Term Memory) với các đặc trưng thống kê như độ dài, entropy, mức độ ý nghĩa của tên miền nhằm tăng khả năng khái quát hóa cho mạng LSTM. Phương pháp đề xuất được thử nghiệm và đánh giá trên bộ dữ liệu tên miền thu thập trong thực tế bao gồm một triệu tên miền Alexa và hơn 750 nghìn tên miền được sinh bởi 37 loại DGA botnet. Kết quả thử nghiệm đã chứng minh tính hiệu quả của phương pháp đề xuất trong cả hai trường hợp phân loại hai lớp và phân loại đa lớp, với giá trị macro-averaging F1-score cao hơn 5% và nhận biết thêm được 3 loại DGA so với phương pháp phát hiện DGA botnet dựa trên mạng LSTM truyền thống.

DOI: 10.32913/rd-ict.vol3.no40.528

References

Tống Văn Vạn, Nguyễn Linh Giang, and Trần Quang Đức, “Phân loại tên miền sử dụng các đặc trưng ngữ nghĩa trong phát hiện DGA Botnet,” Research and Development on Information and Communication Technology, vol. 11, pp. 57–62, 2016.

N. Davuth and S.-R. Kim, “Classification of malicious domain names using support vector machine and bi-gram method,” International Journal of Security and Its Applications, vol. 7, no. 1, pp. 51–58, 2013.

J. Kwon, J. Lee, H. Lee, and A. Perrig, “PsyBoG: A scalable botnet detection method for large-scale DNS traffic,” Computer Networks, vol. 97, pp. 48–73, 2016.

M. Grill, I. Nikolaev, V. Valeros, and M. Rehak, “Detecting DGA malware using NetFlow,” in Proceedings of the IFIP/IEEE International Symposium on Integrated Network Management (IM), 2015, pp. 1304–1309.

M. Mowbray and J. Hagen, “Finding domain-generation algorithms by looking at length distribution,” in Proceedings of the IEEE International Symposium on Software Reliability Engineering Workshops, 2014, pp. 395–400.

S. Schiavoni, F. Maggi, L. Cavallaro, and S. Zanero, “Phoenix: Dga-based botnet tracking and intelligence,” in Proceedings of the International Conference on Detection of Intrusions and Malware, and Vulnerability Assessment. Springer, 2014, pp. 192–211.

M. Antonakakis, R. Perdisci, Y. Nadji, N. Vasiloglou, S. Abu-Nimeh, W. Lee, and D. Dagon, “From throw-away traffic to bots: detecting the rise of dga-based malware,” in Proceedings of the 21st fUSENIXg Security Symposium (fUSENIXg Security 12), 2012, pp. 491–506.

R. Perdisci, I. Corona, and G. Giacinto, “Early detection of malicious flux networks via large-scale passive DNS traffic analysis,” IEEE Transactions on Dependable and Secure Computing, vol. 9, no. 5, pp. 714–726, 2012.

J. Woodbridge, H. S. Anderson, A. Ahuja, and D. Grant, “Predicting domain generation algorithms with long shortterm memory networks,” arXiv preprint arXiv:1611.00791, 2016.

V. Tong and G. Nguyen, “A method for detecting DGA botnet based on semantic and cluster analysis,” in Proceedings of the Seventh Symposium on Information and Communication Technology. ACM, 2016, pp. 272–277.

T.-D. Nguyen, T.-D. Cao, and L.-G. Nguyen, “DGA botnet detection using collaborative filtering and density-based clustering,” in Proceedings of the Sixth International Symposium on Information and Communication Technology. ACM, 2015, pp. 203–209.

H. Zhang, M. Gharaibeh, S. Thanasoulas, and C. Papadopoulos, “BotDigger: Detecting DGA Bots in a Single Network,” Computer Science Technical Report, Tech. Rep., 2016.

Osint DGA Feed. [Online]. Available: https://osint.bambenekconsulting.com/feeds/

T. Robinson, “An application of recurrent nets to phone probability estimation,” IEEE Transactions on Neural Networks, vol. 5, no. 2, 1994.

T. Mikolov, M. Karafiát, L. Burget, J. Cernockỳ, and S. Khudanpur, “Recurrent neural network based language model,” in Proceedings of the Eleventh Annual Conference of the International Speech Communication Association, 2010.

S. Hochreiter and J. Schmidhuber, “Long short-term memory,” Neural computation, vol. 9, no. 8, pp. 1735–1780, 1997.

F. Gers, J. Schmidhuber, and F. Cummins, “Learning to forget: continual prediction with LSTM,” Neural computation, vol. 12, no. 10, pp. 2451–2471, 2000.

J. Han and C. Moraga, “The influence of the sigmoid function parameters on the speed of backpropagation learning,” in International Workshop on Artificial Neural Networks. Springer, 1995, pp. 195–201.

G. F. Becker, Hyperbolic functions, 1931.

P. F. Brown, P. V. Desouza, R. L. Mercer, V. J. D. Pietra, and J. C. Lai, “Class-based n-gram models of natural language,” Computational Linguistics, vol. 18, no. 4, pp. 467–479, 1992.

L. van der Maaten and G. Hinton, “Visualizing data using t-SNE,” Journal of Machine Learning Research, vol. 9, no. Nov, pp. 2579–2605, 2008.

Alexa. [Online]. Available: http://www.alexa.com

T.-S. Wang, C.-S. Lin, and H.-T. Lin, “DGA botnet detection utilizing social network analysis,” in Proceedings of the International Symposium on Computer, Consumer and Control (IS3C). IEEE, 2016, pp. 333–336.

D.-F. Xia, S.-L. Xu, and F. Qi, “A proof of the arithmetic mean-geometric mean-harmonic mean inequalities,” RGMIA Research Report Collection, vol. 2, no. 1, 1999.

Published
2018-12-15
Section
Bài báo