광고
광고
광고
광고
광고
광고
광고
로고

[머신러닝] 사이버 보안(CYBERSECURITY) 다크 웹 연구를 가능하게 하는 머신러닝으로 보안 문자 해결한다. 미국의 공동 학술 연구 프로젝트에서 CAPTCHA 테스트를 무효화하는 방법을 개발했으며, 보고에 따르면 GAN(생성적 적대 네트워크 Generative Adversarial Networks)을 사용하여 시각적으로 복잡한 문제를 디코딩함으로써 유사한 최첨단 머신러닝 솔루션보다 성능이 우수하다.

https://www.unite.ai/solving-captchas-with-machine-learning-to-enable-dark-web-research/

JM Kim | 기사입력 2022/01/13 [00:00]

[머신러닝] 사이버 보안(CYBERSECURITY) 다크 웹 연구를 가능하게 하는 머신러닝으로 보안 문자 해결한다. 미국의 공동 학술 연구 프로젝트에서 CAPTCHA 테스트를 무효화하는 방법을 개발했으며, 보고에 따르면 GAN(생성적 적대 네트워크 Generative Adversarial Networks)을 사용하여 시각적으로 복잡한 문제를 디코딩함으로써 유사한 최첨단 머신러닝 솔루션보다 성능이 우수하다.

https://www.unite.ai/solving-captchas-with-machine-learning-to-enable-dark-web-research/

JM Kim | 입력 : 2022/01/13 [00:00]

최고의 현재 프레임워크에 대해 새 시스템을 테스트한 결과, 연구원들은 신중하게 선별된 실제 벤치마크 데이터 세트에서 그들의 방법이 94.4% 이상의 성공을 달성했으며 CAPTCHA로 보호되는 신흥 데이터를 탐색할 때 '인간의 개입을 제거'할 수 있음이 입증되었음을 발견했다. Dark Net Marketplace는 최대 3번의 시도에서 CAPTCHA 문제를 자동으로 해결한다.

 

 

DW-GAN의 워크플로. 출처: https://arxiv.org/pdf/2201.02799.pdf

 

저자들은 그들의 접근 방식이 일반적으로 Amazon Mechanical Turk(AMT)와 같은 크라우드소싱 플랫폼을 통해 CAPTCHA를 수동으로 해결하기 위해 루프에 인간을 공급하는 비용을 부담해야 했던 사이버 보안 연구원에게 획기적인 것이라고 주장한다.

 

시스템이 적응력과 탄력성을 입증할 수 있다면 더 자동화된 감독 시스템과 TOR 네트워크의 인덱싱 및 웹 스크래핑을 위한 길을 열 수 있다. 이를 통해 현재까지 CAPTCHA 방화벽에 의해 방해를 받은 새로운 사이버 보안 접근 방식 및 기술의 개발뿐만 아니라 확장 가능한 대용량 분석이 가능하다.

 

이 백서는 사전 예방적 사이버 위협 인텔리전스를 위한 생성적 적대적 학습Generative Adversarial Learning을 사용한 다크 웹 텍스트 기반 CAPTCHA 대응이라는 제목으로 애리조나 대학, 사우스 플로리다 대학 및 조지아 대학의 연구원들이 작성한 것이다.

 

시사점

 

Dark Web-GAN(DW-GAN, GitHub에서 사용 가능)이라고 하는 시스템은 분명히 이전 제품보다 훨씬 더 성능이 뛰어나므로 이를 극복하기 위한 일반적인 방법으로 사용될 가능성이 있다(일반적으로 덜 어려움). 이 특정 구현에서 또는 새 문서에서 설명하는 일반 원칙을 기반으로 하는 표준 웹의 CAPTCHA 자료. 그러나 GitHub의 저장 공간이 제한되어 있기 때문에 현재 프레임워크와 관련된 데이터를 얻으려면 수석 작성자 Ning Zhang에게 연락해야 한다.

 

DW-GAN에는 CAPTCHA를 해독하기 위한 '긍정적인' 임무가 있기 때문에(TOR 자체가 원래 군사 통신을 보호하고 나중에는 언론인을 보호하기 위한 긍정적인 임무를 가졌던 것처럼), CAPTCHA는 둘 다 합법적인 방어 수단이기 때문입니다(유비쿼터스 CDN에서 자주 사용 거대한 CloudFlare)와 불법 다크 웹 마켓플레이스에서 가장 선호하는 도구인 이 접근 방식은 틀림없이 '평준화' 기술이다.

 

저자들은 DW-GAN이 더 광범위하게 사용된다는 점을 인정한다.

 

'이 연구는 좀 더 어려운 문제로 주로 다크 웹 CAPTCHA에 초점을 맞추었지만, 본 연구에서 제안한 방법은 일반성을 잃지 않고 다른 유형의 CAPTCHA에도 적용할 수 있을 것으로 기대된다.'

 

DW-GAN 또는 이와 유사한 시스템은 다크 웹 시장이 기계로 해결할 수 없는 솔루션을 찾거나 최소한 '냉전' 시나리오인 CAPTCHA 구성을 주기적으로 발전시키도록 광범위하고 명백하게 확산되어야 한다.

 

동기

 

논문에서 관찰한 바와 같이 다크 웹은 사이버 공격과 관련된 해커 인텔리전스의 주요 글꼴로, 2025년까지 세계 경제가 10조 달러에 이를 것으로 추정된다. 따라서 양파 네트워크는 불법 다크 넷 커뮤니티에 비교적 안전한 환경으로 남아 있다. 세션 시간 초과, 쿠키 및 사용자 인증을 포함한 다양한 방법으로 보더를 격퇴한다.

 

 

두 가지 유형의 CAPTCHA, 둘 다 모호한 배경과 기울어진 글자를 사용하여 기계 가독성을 떨어뜨린다.

 

그러나 저자들은 이러한 장애물 중 어느 것도 '민감한' 커뮤니티에서 브라우징 경험을 강조하는 보안문자(CAPTCHA)만큼 크지 않다고 관찰한다:

 

'이러한 조치의 대부분은 크롤러 프로그램에서 자동화된 대응 조치를 구현하여 효과적으로 우회할 수 있지만, CAPTCHA는 종종 자동화 도구가 보유하지 않는 높은 인지 능력으로 인해 쉽게 우회할 수 없는 다크 웹에서 가장 방해가 되는 크롤링 방지 수단이다.’

 

텍스트 기반 CAPTCHA만 사용할 수 있는 옵션은 아니다. 우리 중 많은 사람들에게 친숙한 변형이 있어 사용자가 비디오, 오디오, 특히 이미지를 해석해야 한다. 그럼에도 불구하고 저자가 관찰한 것처럼 텍스트 기반 보안 문자는 현재 다크 웹 시장에서 선택의 과제이며 TOR 네트워크를 기계 분석에 더 취약하게 만드는 자연스러운 출발점이다.

 

건축학

 

중국 노스웨스트 대학의 이전 접근 방식은 CAPTCHA 플랫폼에서 특징 패턴을 도출하기 위해 생성적 적대 네트워크 Generative Adversarial Networks를 사용했지만, 새 논문의 저자는 이 방법이 챌린지에서 인식된 문자에 대한 더 깊은 조사보다는 래스터화 된 이미지의 해석에 의존한다고 언급한다. ; DW-GAN의 효율성은 일반적으로 다크 웹 보안 문자에서 발견되는 의미 없는 단어(및 숫자)의 가변 길이에 의해 영향을 받지 않는다.

 

DW-GAN 4단계 파이프라인을 사용한다. 먼저 이미지가 캡처 된 다음 주석이 달린 CAPTCHA 샘플에 대해 학습된 GAN을 사용하는 배경 노이즈 제거 모듈에 공급되므로 문자를 혼란스러운 배경과 구별할 수 있다. 쉬고 있다. 그런 다음 추출된 문자는 GAN 기반 추출 후 남은 노이즈에서 추가로 필터링된다.

 

다음으로, 추출된 텍스트에서 분할이 수행되고 윤곽 감지 알고리즘을 사용하여 구성 문자로 보이는 것으로 분할된다.

 

 

문자 분할은 픽셀 그룹을 분리하고 경계 추적으로 인식을 시도한다.

 

마지막으로 '추측된' 문자 세그먼트는 CNN(Convolutional Neural Network)을 통한 문자 인식의 대상이다.

 

 

때때로 문자가 겹칠 수 있다. 이는 기계 시스템을 속이도록 특별히 설계된 하이퍼 커닝이다. 따라서 DW-GAN은 간격 기반 분할을 사용하여 경계를 강화하고 분리하여 문자를 효과적으로 분리한다. 단어는 일반적으로 무의미하기 때문에 이 과정에 도움이 되는 의미론적 컨텍스트가 없다.

 

 

결과

 

DW-GAN 3개의 다양한 다크 웹 데이터 세트의 CAPTCHA 이미지와 인기 있는 CAPTCHA 합성기에 대해 테스트되었다. 이미지가 시작된 암시장은 Rescator-1 Rescator-2라는 두 개의 카딩 샵과 당시 신흥 시장인 Yellow Brick(나중에 DarkMarket의 중단으로 인해 사라진 것으로 보고됨)의 소설 세트로 구성되었다. ).

 

 

세 가지 데이터 세트의 샘플 CAPTCHA와 오픈 소스 CAPTCHA 합성기.

 

저자에 따르면 테스트에 사용된 데이터는 다크 넷 시장 전반에 걸친 광범위한 확산을 기반으로 CTI(Cyber Threat Intelligence) 전문가가 권장했다.

 

각 데이터 세트를 테스트하는 데는 500개의 CAPTCHA 이미지를 수집하는 TOR 방향 스파이더 개발이 포함되었으며, 이후에 CTI 고문이 레이블을 지정하고 큐레이션했다.

 

세 가지 실험이 고안되었다. 첫 번째는 표준 SOTA 방법에 대한 DW-GAN의 일반적인 CAPTCHA 패배 성능을 평가했다. 경쟁 방법은 이란과 영국의 공동 연구인 그레이스케일 변환, 정규화 및 가우시안 평활화를 포함하는 사전 처리가 포함된 이미지 수준 CNN이었다. 간격 기반 분할을 사용하는 문자 수준 CNN 및 영국 옥스포드 대학의 이미지 수준 CNN.

 

 

첫 번째 실험에 대한 DW-GAN의 결과를 이전의 최첨단 접근 방식과 비교했다.

 

연구원들은 DW-GAN이 전반적으로 이전 결과를 개선할 수 있음을 발견했다(위 표 참조).

 

두 번째 실험은 외부 또는 이차적 요인이 결과에 영향을 미칠 가능성을 줄이기 위해 활성 프레임워크의 다양한 구성요소를 제거하거나 비활성화하는 절제 연구였다.

 

 

절제 연구 결과.

 

여기에서도 저자는 아키텍처의 주요 섹션을 비활성화하면 거의 모든 경우에서 DW-GAN의 성능이 저하된다는 사실을 발견했다(위 표 참조).

 

세 번째 오프라인 실험은 무의미한 CAPTCHA 단어가 임의적인 경우 DW-GAN의 문자 평가가 유용성에 영향을 미치는 정도를 확인하기 위해 벤치마크 이미지 기반 방법과 두 가지 문자 수준 방법과 DW-GAN의 효율성을 비교했다. (미리 정의된 것이 아니라) 길이. 이러한 경우 CAPTCHA 길이는 4-7자 사이였다.

 

이 실험을 위해 저자는 50,000개의 CAPTCHA 이미지로 구성된 훈련 세트를 사용했으며 5,000개는 일반적인 90/10 분할에서 테스트용으로 예약했다.

 

여기에서도 DW-GAN은 이전 접근 방식을 능가했다.

 

 

다크 넷 시장에서의 라이브 테스트

 

마지막으로 DW-GAN (당시 라이브) Yellow Brick 다크 넷 시장에 배포되었다. 이 테스트를 위해 DW-GAN을 브라우징 기능에 통합하여 CAPTCHA 문제를 자동으로 구문 분석하는 Tor 웹 브라우저가 개발되었다.

 

이 시나리오에서는 평균 15개의 HTTP 요청마다 보안 문자가 자동화된 크롤러에 제공되었다. 크롤러는 1,223개의 마약 관련 제품(오피오이드 및 코카인 포함), 44개의 해킹 패키지, 9개의 위조 문서 스캔을 포함하여 Yellow Brick에서 판매되는 1,831개의 불법 품목을 색인화할 수 있었다. 시스템은 도난당한 신용 카드 102개와 도난당한 계정 로그인 131개를 포함하여 총 286개의 사이버 보안 관련 항목을 식별할 수 있었다.

 

저자는 DW-GAN이 모든 경우에 세 번 이하의 시도로 CAPTCHA를 해독할 수 있었으며 1,831개의 모든 제품을 보호하는 CAPTCHA를 설명하는 데 76분의 처리 시간이 필요했다고 말한다. 개입하는 데 사람이 필요하지 않았고 엔드포인트 실패 사례도 발생하지 않았다.

 

저자는 튜링 테스트를 모델로 한 것으로 보이는 일부를 포함하여 텍스트 CAPTCHA보다 더 높은 수준의 정교함을 제공하는 문제의 출현에 주목하고 DW-GAN이 대중화됨에 따라 이러한 새로운 경향을 수용하도록 향상될 수 있음을 관찰했다.

 

*컴퓨터와 인간을 구분하는 완전히 자동화된 공개 튜링 테스트

 
머신러닝, 튜링 테스트 관련기사목록
광고
광고
광고
광고
광고
많이 본 기사
AIbio로봇,AR/VR·바이오제약 많이 본 기사
최신기사