요약
-------------------------------------------------------------------------------------------------------
본 논문은 hybrid mechanism을 이용하여 실시간 트래픽 분류를 한 내용이다. 두 단계에 걸쳐 트래픽 분류가 이루어지며, 첫번째 단계는 페이로드 시그니쳐를 이용한 방법, 두번째 단계는 페이로드 시그니쳐 방법으로 분류하지 못한 unknown 트래픽을 statistical feature를 사용한 supervised algorithms(J48 Decision Tree, Random Forest, Naive Bayes, Bayesian Network(BayesNet), Naive Bayes Tree(NBTree), Bagging, AdaBoost)으로 트래픽을 분류한다.
적용한 feature들 (flow에 기반한 feature)
SrcIP | source IP address |
DstIP | destination IP address |
SrcPort | source port number |
DstPort | destination port number |
ProtocolName | the name of the protocol used in transport layer |
ConnectionDuration | the period of time in milliseconds during which the connection is alive |
SrcBytes | the total number of bytes sent from the source to the destination |
DstBytes | the total number of bytes sent from the destination to the source |
SrcPackets | the total number of packets sent from the source to the destination |
DstPackets | the total number of packets sent from the destination to the source |
SrcBytes/DstBytes | the ratio of “SrcBytes” to “DstBytes” |
SrcPackets/DstPackets | the ratio of “SrcPackets” to “DstPackets” |
SrcBytes/SrcPackets | the ratio of “SrcBytes” to “SrcPackets” |
DstBytes/DstPackets | the ratio of “DstBytes” to “DstPackets” |
Statistical classifier는 최신의 training set(e.g.하루 전)을 이용하여 주기적으로 갱신된다. 이 때, training set은 hybrid 시스템의 첫 번째 단계인 페이로드 시그니쳐 기반 분류기에 의한 결과를 통해 얻어진다.
실험 데이터를 통해 여러 supervised algorithms을 테스트(10-fold cross-validation) 한 결과 정확도와 학습 시간을 고려했을 때, J48이 가장 좋은 결과를 나타내었다.
-------------------------------------------------------------------------------------------------------
나의 의견
-------------------------------------------------------------------------------------------------------
이 논문은 페이로드 시그니쳐 기반 분류기를 통해 트래픽을 분류를 하고, 페이로드 시그니쳐 기반 분류기가 분류하지 못한 unknown 트래픽을 머신러닝 기법을 통해 추가적으로 분류한다는 내용이다.
이 논문이 간과한 점은 페이로드 시그니쳐 기반 분류기의 정확도가 거의 100%라고 가정을 두고 있다는 것이다.
또한, 실시간 트래픽 분류에 대한 실험을 하였지만 검증 결과가 명확하지 않으며, 과연 트래픽 양이 많은 네트워크에서 본 논문에서 제시한 머신러닝 기법이 제한된 시간 내에 학습할 수 있을 지도 의문이다.
-------------------------------------------------------------------------------------------------------
'Traffic Classification > Papers' 카테고리의 다른 글
K-dimensional trees for continuous traffic classification (0) | 2010.05.19 |
---|---|
Peer-to-Peer Application Recognition Based on Signaling Activity (0) | 2010.03.31 |