Show Menu
화제×

예외 항목 탐지에서 사용된 통계 기법

Analysis Workspace의 예외 항목 탐지에서는 일련의 고급 통계 기법을 사용하여 관찰 내용을 예외적인 것으로 간주해야 하는지 여부를 결정합니다.
보고서에 사용된 날짜 세부기간에 따라, 시간별, 일별, 주별/월별 예외 항목 탐지에 대해 3개의 서로 다른 통계 기술이 사용됩니다. 각 통계 기법은 아래에 요약되어 있습니다.

Anomaly detection for daily granularity

일별 세부기간 보고서의 경우, 알고리즘에서는 가능한 가장 정확한 결과를 제공하기 위해 몇 가지 중요한 요인들을 고려합니다. 첫째, 알고리즘은 시간 시리즈 기반 모델 또는 이상치 감지 모델(기능 필터링이라고 함) 중 하나를 선택하여 사용할 수 있는 데이터를 기반으로 적용할 모델 유형을 결정합니다.
시계열 모델의 선택은 오류 유형, 트렌드 및 시즌(ETS)에 대한 다음의 조합을 기반으로 합니다( Hyndman et al. (2008) )에 설명됨. 특히, 알고리즘에서는 다음의 조합을 시도합니다.
  1. ANA(additive error, no trend, additive seasonality)
  2. AAA(additive error, additive trend, additive seasonality)
  3. MNM(multiplicative error, no trend, multiplicative seasonality)
  4. MNA(multiplicative error, no trend, additive seasonality)
  5. AAN(additive error, additive trend, no seasonality)
알고리즘에서는 다음 중 MAPE(mean absolute percentage error)가 가장 좋은 하나를 선택하여 각의 적합성을 테스트합니다. 하지만, 가장 좋은 시계열 모델의 MAPE가 15%를 넘는 경우, 기능 필터링이 적용됩니다. 일반적으로, 반복 내용이 많은 데이터(예: 주 단위 또는 월 단위 반복)는 시계열 모델에 가장 적합합니다.
모델 선택 후에는 알고리즘이 휴일과 연 단위 시즌을 기반으로 결과를 조정합니다. 휴일의 경우, 알고리즘에서는 다음 휴일 중 보고 날짜 범위에 있는 것이 있는지 확인합니다.
  • 메모리얼 데이
  • 4년 7월
  • 추수감사절
  • 블랙 프라이데이
  • 사이버 먼데이
  • 12월 24-26일
  • 1월 1일
  • 12월 31일
이러한 휴일은 많은 고객 데이터 포인트에서 광범위한 통계적 분석을 기반으로 하여 가장 많은 수의 고객 트렌드에 가장 중요한 휴일을 식별합니다. 이 목록은 모든 고객 또는 비즈니스 주기에서 완전하지는 않지만, 이러한 휴일을 적용하면 거의 모든 고객의 데이터 세트에 대한 알고리즘 성능이 크게 향상되었음을 알게 되었습니다.
모델을 선택하고 보고 날짜 범위에 있는 휴일이 식별되면, 다음 방식으로 알고리즘이 계속 진행됩니다.
  1. 예외 항목 참조 기간을 구성합니다. 이 기간에는 보고 날짜 범위 최대 35일 전, 일치하는 날짜 범위 1년 이전(필요한 경우 윤일을 계산하고 이전 연도의 다른 달력 날에 발생할 수 있는 적용 가능한 휴일을 포함)이 포함됩니다.
  2. 가장 최근 데이터를 기반으로 현재 기간에 있는 휴일(이전 연도 제외)이 이례적인지 테스트합니다.
  3. 현재 날짜 범위의 휴일이 예외 사항일 경우, 이전 연도의 공휴일(전과 후 2일 고려)에 제공된 현재 휴일의 예상 값과 신뢰 구간을 조정합니다. 현재 휴일의 수정은 다음 항목의 최저 MAPE(mean absolute percentage error)를 기반으로 합니다.
    1. 부가 효과
    2. 승법적 효과
    3. 전년 대비 차이
다음 예에서는 크리스마스와 설날에 극적인 성능 개선을 주목하십시오.

Anomaly detection for hourly granularity

시간별 데이터는 일별 세부기간 알고리즘이 수행되는 것과 동일한 시계열 알고리즘 접근 방식에 따라 다릅니다. 하지만, 이것은 주말/주중 주기와 24시간 주기, 이렇게 두 개의 트렌드 패턴에도 강하게 의존합니다. 이 두 개의 시즌 효과를 캡처하기 위해, 시간별 알고리즘은 위에 요약된 동일한 접근 방식을 사용하여 주말 및 주중에 대한 별도의 두 모델을 구성합니다.
시간별 트렌드에 대한 교육 기간은 336시간 전환 확인 기간에 따라 다릅니다.

Anomaly detection for weekly and monthly granularities

주별 및 월별 트렌드는 일별 또는 시간별 세부기간에 있는 것과 동일한 주별 또는 일별 트렌드를 보여주지 않으므로, 이와 같이 별도의 알고리즘이 사용됩니다. 주별 및 월별의 경우, GESD(Generalized Extreme Studentized Deviate) 테스트로 알려진 두 단계 이상 값 감지 접근 방식이 사용됩니다. 이 테스트에서는 이상 값의 최대 개수를 결정하기 위해 조정된 상자 그림 접근 방식(이상 값 발견을 위한 비매개변수적 방식)과 결합된 예상된 예외 항목의 최대 개수를 고려합니다. 두 단계는 다음과 같습니다.
  1. 조정된 상자 그림 함수: 이 함수는 입력 데이터를 고려할 때 예외 항목의 최대 개수를 결정합니다.
  2. GESD 함수: 1단계의 결과가 있는 입력 데이터에 적용됩니다.
휴일 및 YoY 계절성 예외 항목 탐지 단계는 올해 데이터에서 작년 데이터를 빼낸 다음 위의 2단계 프로세스를 사용하여 예외 항목이 계절적으로 적절한지 다시 반복합니다. 이 날짜 세부기간의 각각에서는 선택된 보고 날짜 범위를 포함하는 15개 기간 전환 확인(15개월이나 15주 중 하나)과 교육을 위한 1년 전 해당 날짜 범위를 사용합니다.