본문 바로가기

Traffic Classification/Papers

K-dimensional trees for continuous traffic classification

출처 - 2010 TMA(Traffic Monitoring and Analysis Workshop)


요약
-------------------------------------------------------------------------------------------------------

K-Dimensional Tree의 데이터 구조를 K-NN 알고리즘에 적용하여 K-NN 분류기의 분류 속도를 향상시킨 논문.

논문에서 언급하는 K-NN(K-Nearest Neighbor) 알고리즘을 이용한 트래픽 분류의 특징을 다음과 같다.

- 높은 정확도
- 쉬운 구현
- Training 단계의 불필요
- 낮은 분류 속도

K-NN 알고리즘의 낮은 분류 속도를 해결하기 위해 다음과 같은 K-Dimensional Tree의 특성을 이용한다.

- Binary Tree
- Approximate searches (using approximation value)

트래픽 분류에 사용한 특징으로는 플로우의 첫 N개의 패킷의 크기와 포트 번호를 이용하였다.
제안된 분류 방법은 또한 지속적인 업데이트(continuous training)을 통해서 최신의 KD-Tree를 유지하는 것이 중요하다고 주장한다.

-------------------------------------------------------------------------------------------------------

나의 의견
-------------------------------------------------------------------------------------------------------

우리가 사용하는 용어와 다른 용어들의 사용

 Our  This Paper   Opinion
 Traffic Classification  Traffic Identification   트래픽을 정체를 확인한다는 개념에서 'Identification'이 좀 더 어울린다고 판단된다. 'Classification'이라는 용어는 ML(Machine Learning)의 Classification 기법에서 온 것이라 생각된다.
 Ground-truth  Base-truth   
 Updating Signature  Continuous training  우리는 주로 시그니쳐 관점에서 시그니쳐를 최신의 시그니쳐로 업데이트한다는 의미로써 용어를 사용해 왔다. 하지만, 본 논문에서는 'continuous' 라는 용어를 사용하여 새로운 용어를 사용한다. 시그니쳐나 분류 알고리즘을 지속적으로 업데이트한다는 뜻의 용어의 결정은 좀 더 생각해 봐야 할 것이다. (ex. Continuous Updating Signature)

내가 연구하고 있는 Exact Matching과 Distance Matching의 중간 정도의 알고리즘으로 생각된다. 여기서 사용된 KD-Tree는 공부를 통해 내용을 파악하고 현재 개발 중인 시스템에 적용 가능한지 파악하는 것이 필요하다.

-------------------------------------------------------------------------------------------------------

공부해야 할 것
- K-Dimensional Tree