본문 바로가기

Traffic Classification/Papers

Online Classification of Network Flows



요약
-------------------------------------------------------------------------------------------------------

본 논문은 hybrid mechanism을 이용하여 실시간 트래픽 분류를 한 내용이다. 두 단계에 걸쳐 트래픽 분류가 이루어지며, 첫번째 단계는 페이로드 시그니쳐를 이용한 방법, 두번째 단계는 페이로드 시그니쳐 방법으로 분류하지 못한 unknown 트래픽을 statistical feature를 사용한 supervised algorithms(J48 Decision Tree, Random Forest, Naive Bayes, Bayesian Network(BayesNet), Naive Bayes Tree(NBTree), Bagging, AdaBoost)으로 트래픽을 분류한다.

적용한 feature들 (flow에 기반한 feature)
 SrcIP  source IP address
 DstIP  destination IP address
 SrcPort  source port number
 DstPort  destination port number
 ProtocolName  the name of the protocol used in transport layer
 ConnectionDuration  the period of time in milliseconds during which the connection is alive
 SrcBytes  the total number of bytes sent from the source to the destination
 DstBytes  the total number of bytes sent from the destination to the source
 SrcPackets  the total number of packets sent from the source to the destination
 DstPackets  the total number of packets sent from the destination to the source
 SrcBytes/DstBytes  the ratio of “SrcBytes” to “DstBytes”
 SrcPackets/DstPackets  the ratio of “SrcPackets” to “DstPackets”
 SrcBytes/SrcPackets  the ratio of “SrcBytes” to “SrcPackets”
 DstBytes/DstPackets  the ratio of “DstBytes” to “DstPackets”

Statistical classifier는 최신의 training set(e.g.하루 전)을 이용하여 주기적으로 갱신된다. 이 때, training set은 hybrid 시스템의 첫 번째 단계인 페이로드 시그니쳐 기반 분류기에 의한 결과를 통해 얻어진다.

실험 데이터를 통해 여러 supervised algorithms을 테스트(10-fold cross-validation) 한 결과 정확도와 학습 시간을 고려했을 때, J48이 가장 좋은 결과를 나타내었다.

-------------------------------------------------------------------------------------------------------

나의 의견
-------------------------------------------------------------------------------------------------------

이 논문은 페이로드 시그니쳐 기반 분류기를 통해 트래픽을 분류를 하고, 페이로드 시그니쳐 기반 분류기가 분류하지 못한 unknown 트래픽을 머신러닝 기법을 통해 추가적으로 분류한다는 내용이다.
이 논문이 간과한 점은 페이로드 시그니쳐 기반 분류기의 정확도가 거의 100%라고 가정을 두고 있다는 것이다.
또한, 실시간 트래픽 분류에 대한 실험을 하였지만 검증 결과가 명확하지 않으며, 과연 트래픽 양이 많은 네트워크에서 본 논문에서 제시한 머신러닝 기법이 제한된 시간 내에 학습할 수 있을 지도 의문이다.

-------------------------------------------------------------------------------------------------------