광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
로고

[머신러닝] 머신러닝을 통해 새로운 스팸 도메인을 예측한다. 프랑스의 연구원들은 대량 이메일 스패머가 '뺑소니' 방식으로 사용할 가능성이 있는 새로 등록된 도메인을 식별하기 위한 방법을 고안했다. 이 기술은 이메일 출처를 확인하는 방법인 SPF(발신자 정책 프레임워크 Sender Policy Framework)가 새로 등록된 도메인에 설정되는 방식을 분석한 것이다.

https://www.unite.ai/anticipating-new-spam-domains-through-machine-learning/

JM Kim | 기사입력 2022/05/07 [00:00]

[머신러닝] 머신러닝을 통해 새로운 스팸 도메인을 예측한다. 프랑스의 연구원들은 대량 이메일 스패머가 '뺑소니' 방식으로 사용할 가능성이 있는 새로 등록된 도메인을 식별하기 위한 방법을 고안했다. 이 기술은 이메일 출처를 확인하는 방법인 SPF(발신자 정책 프레임워크 Sender Policy Framework)가 새로 등록된 도메인에 설정되는 방식을 분석한 것이다.

https://www.unite.ai/anticipating-new-spam-domains-through-machine-learning/

JM Kim | 입력 : 2022/05/07 [00:00]

수동 DNS(도메인 이름 시스템) 센서의 사용 덕분에 연구원들은 시애틀에 기반을  회사 Farsight로부터 거의 실시간 DNS 데이터를 얻을  있었고, 다양한 도메인에 대한 TXT 레코드에 대한 SPF 활동을 산출했다.

 

원래 불균형 의료 데이터 처리를 위해 설계되고 scikit-learn 머신러닝 Python 라이브러리에 구현된 클래스 가중치 알고리즘을 사용하여 연구원들은 대기 중인 스팸 도메인의 4분의 3   안에 또는 작업 전에 감지할  있었다.

 

논문에서는 다음과 같이 말한다.

 

'TXT 레코드에 대한 단일 요청으로 스팸 캠페인이 시작되기 전에 스팸 도메인의 75% 감지한다. 따라서 우리의 계획은 중요한 대응 속도를 제공한다. 메일이 전송되기 전과 DNS 트래픽이 급증하기 전에도 우수한 성능으로 스패머를 탐지할  있다.'

 

연구원들은 그들의 기술에 사용된 기능이 성능을 향상시키기 위해 기존 스팸 탐지 시스템에 추가될  있다고 주장한다. 시스템은 문제에 대한 다양한 접근 방식에 이미 사용 중인 거의 실시간 DNS 피드에서 수동적으로 추론된 SPF 데이터에 의존하기 때문에 상당한 계산 오버헤드를 추가하지 않는다.

 

 문서의 제목은 패시브 DNS SPF 사용한 스팸 도메인의 조기 감지이며 그르노블 대학교의 3명의 연구원이 작성했다.

 

SPF 활동

 

SPF 등록되고 승인된 IP 주소가 이메일을 보내는  사용되었는지 확인하여 이메일 주소 스푸핑을 방지하도록 설계되었다.

 

 

SPF 예에서 'Alice' 'Bob'에게 무해한 이메일을 보내고 공격자 'Mallory' Alice 가장하려고 시도한다.   자신의 도메인에서 메일을 보내고 있지만 Alice 서버만 Alice 메일을 보내도록 등록되어 있으므로 Mallory 가짜 메일이 SPF 확인에 실패할  스푸핑이 저지된다. 출처: https://arxiv.org/pdf/2205.01932.pdf

 

다른 이메일 확인 방법에는 DKIM(도메인키 식별 메일DomainKeys Identified Mail) 서명과 DMARC(도메인 기반 메시지 인증, 보고  적합성) 있다.

 

 가지 방법 모두 인증 발신 도메인에 대한 도메인 등록 기관에서 TXT 레코드(구성 설정) 등록해야 한다.

 

스팸  화상

 

스패머는 이와 관련하여 '서명 행위' 나타낸다. 그들의 의도(또는 최소한 그들의 활동의 부수적 효과) 이러한 서비스를 판매하는 네트워크 공급자가 조치를 취할 때까지 대량 메일을 폭파하여 도메인  해당 IP 주소의 평판을 '소각'하는 것이다. 또는 관련 IP 주소가 인기 있는 스팸 필터 목록에 등록되어 현재 발신자에게 쓸모가 없게 만든다(또한 IP 주소의 미래 소유자에게는 문제가 ).

 

 

기회의 좁은 : SpamHaus  기타 다양한 모니터링 서비스에 의해 새로운 스팸 도메인이 금지되어 쓸모없게 되기까지의 시간(시간).

 

도메인 위치가  이상 실행 가능하지 않으면 스패머는 필요에 따라 다른 도메인  서비스로 이동하여  IP 주소  구성으로 절차를 반복한다.

 

데이터  방법

 

연구를 위해 연구한 도메인은 Farsight에서 제공한 대로 2021 5월에서 8 사이의 기간을 포함한다. 영구 스패머의 방식과 일치하므로 새로 등록된 도메인만 고려했다.

 

도메인 목록은 ICANN 중앙 영역 데이터 서비스(CZDS) 데이터를 기반으로 작성되었다. SURBL SpamHaus 프로젝트의 블랙리스트 정보는 잠재적으로 문제가 있는  도메인 등록을 거의 실시간으로 식별하는  사용되었다. 작성자는 스팸 목록의 불완전한 특성으로 인해 양성 도메인이 실수로 대량 메일의 잠재적 소스로 분류될  있다는 점을 인정한다.

 

수동 DNS 피드에서 발견된 새로 등록된 도메인에 대한 DNS TXT 쿼리를 캡처한  유효한 SPF 데이터가 있는 쿼리만 유지되어 알고리즘에 대한 실제 정보를 제공했다.

 

 

SPF에는 여러 가지 유용한 기능이 있다.  문서에 따르면 '양호한' 도메인 소유자는+include 메커니즘을 가장 일반적으로 사용하지만 스패머는 (현재 사용되지 않는) +ptr 기능을 가장 많이 사용한다.

 

 

스패머의 SPF 규칙 사용량과 표준 사용량 비교.

 

+ptr 조회는 보내는 메일의 IP 주소를 해당 IP 호스트 이름(: GoDaddy) 간의 연결에 대해 존재하는 모든 레코드와 비교한다. 호스트 이름이 검색되면 해당 도메인은 SPF 레코드를 참조하는  처음 사용된 도메인과 비교된다.

 

스패머는 +ptr 명백한 엄격함을 악용하여  신뢰할  있는 조명으로 자신을 나타낼  있다. 실제로는 대규모 +ptr 조회를 수행하는  필요한 리소스로 인해 많은 공급자가 확인을 완전히 건너뛸  있다.

 

요컨대 스패머가 '폭발  소각' 작전이 시작되기 전에 기회의 창을 확보하기 위해 SPF 사용하는 방식은 기계 분석으로 유추할  있는 특징적인 시그니처를 나타낸다.

 

 

스팸 도메인에 대한 특징적인 SPF 관계.

 

스패머는 종종 매우 가까운 IP 범위와 리소스로 이동하기 때문에 연구원들은 IP 범위와 도메인 간의 상관 관계를 조사하기 위해 관계 그래프를 개발했다. 그래프는 SpamHaus  기타 소스의 새로운 데이터에 대한 응답으로 거의 실시간으로 업데이트될  있으므로 시간이 지남에 따라 더욱 유용하고 완전해진다.

 

연구원들은 다음과 같이 말한다.

 

'이러한 구조에 대한 연구는 잠재적인 스팸 도메인을 강조할  있다. 우리 데이터 세트에서 수십 개의 도메인이 동일한 [SPF] 규칙을 사용하고 대부분이 스팸 블랙리스트에 나타나는 [구조] 발견했다. 따라서 나머지 도메인은 아직 탐지되지 않았거나 아직 활성 스팸 도메인이 아닐 가능성이 있다고 가정하는 것이 합리적이다.'

 

결과

 

연구원들은 50시간 동안 SpamHaus SURBL 대한 접근 방식의 스팸 도메인 탐지 지연 시간을 비교했다. 그들은 식별된 스팸 도메인의 70% 대해 자체 시스템이  빨랐다고 보고했지만 식별된 스팸 도메인의 26% 다음 시간에 상업 블랙리스트에 나타났음을 인정했다. 도메인의 30% 패시브 DNS 피드에 나타났을  이미 블랙리스트에 있었다.

 

저자는 단일 DNS 쿼리를 기반으로  F1 점수가 79%라고 주장하지만 Exposure 같은 경쟁 방법은 일주일의 예비 분석이 필요할  있다.

 

그들은 관찰한다:

 

'우리의 체계는 도메인 수명 주기의 초기 단계에 적용할  있다. 수동(또는 능동) DNS 사용하여 새로 등록된 도메인에 대한 SPF 규칙을 가져와 즉시 분류하거나 해당 도메인에 대한 TXT 쿼리를 감지하고 구체화할 때까지 기다릴  있다. 회피하기 어려운 시간적 특징을 사용한 분류.'

 

그리고 계속:

 

'[우리의] 최고의 분류기는 스팸 도메인의 85% 탐지하고 가양성 비율을 1% 미만으로 유지한다. 도메인 SPF 규칙의 내용과  관계만 분류하고 DNS 트래픽을 기반으로  기능을 회피하기 어렵다는 점에서 탐지 결과가 괄목할 만하다.

 

'분류기의 성능은 단일 TXT 쿼리(수동적으로 또는 능동적으로 쿼리됨)에서 수집할  있는 정적 기능만 제공되더라도 높은 상태를 유지한다.'

 

새로운 방법에 대한 프레젠테이션을 보려면 아래에 포함된 비디오를 확인하라.

 

 

 
머신러닝, 스팸 도메인 예측 관련기사목록
광고
광고
광고
광고
광고
광고
많이 본 기사
AI바이오제약 수명연장 많이 본 기사