광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
로고

[AI 구현에서 데이터 품질의 중요성] 인공지능의 세계는 끊임없이 변화하고 있다. 회사마다 데이터를 다른 방식으로 사용하지만 데이터 품질은 AI 구현 프로젝트에서 여전히 필수적이다. 신뢰할 수 있는 양질의 데이터가 있다면 방대한 데이터 세트의 필요성을 없애고 성공 가능성을 높일 수 있다. 다른 모든 조직과 마찬가지로 조직이 AI 구현으로 전환하는 경우 양질의 데이터가 있는지 확인해야한다. 소스가 신뢰할 수 있는지 확인하고 데이터 요구 사항을 준수하는지 확인하기 위해 실사를 수행해야 한다.

https://www.unite.ai/importance-of-data-quality-in-ai-implementation/

JM Kim | 기사입력 2022/09/10 [00:00]

[AI 구현에서 데이터 품질의 중요성] 인공지능의 세계는 끊임없이 변화하고 있다. 회사마다 데이터를 다른 방식으로 사용하지만 데이터 품질은 AI 구현 프로젝트에서 여전히 필수적이다. 신뢰할 수 있는 양질의 데이터가 있다면 방대한 데이터 세트의 필요성을 없애고 성공 가능성을 높일 수 있다. 다른 모든 조직과 마찬가지로 조직이 AI 구현으로 전환하는 경우 양질의 데이터가 있는지 확인해야한다. 소스가 신뢰할 수 있는지 확인하고 데이터 요구 사항을 준수하는지 확인하기 위해 실사를 수행해야 한다.

https://www.unite.ai/importance-of-data-quality-in-ai-implementation/

JM Kim | 입력 : 2022/09/10 [00:00]

인공지능 및 머신러닝 기술은 모든 규모의 산업에 상당한 이점을 제공할 수 있다. McKinsey 보고서에 따르면 인공지능기술을 사용하는 기업은 2030년까지 현금 흐름이 두 배로 증가하게 된다. 반대로 AI를 배포하지 않는 기업은 현금 흐름이 20% 감소하게 된다. 그러나 그러한 혜택은 재정 이상의 것이다. AI는 기업이 노동력 부족 문제를 해결하는 데 도움이 될 수 있다. 또한 AI는 고객 경험과 비즈니스 결과를 크게 개선하여 비즈니스를 더욱 안정적으로 만든다.

 

AI에는 많은 장점이 있는데 왜 모든 사람이 AI를 채택하지 않을까? 2019 PwC 설문조사에 따르면 기업의 76%가 비즈니스 가치를 개선하기 위해 AI를 사용할 계획이다. 그러나 겨우 15%만이 비즈니스 목표를 달성하기 위해 고품질 데이터에 액세스할 수 있다. Refinitiv의 또 다른 연구에 따르면 응답자의 66%는 품질이 낮은 데이터가 AI를 효과적으로 배포하고 채택하는 능력을 저해한다고 말했다.

 

설문 조사에 따르면 머신러닝 및 AI 기술 작업의 세 가지 주요 과제는 다음과 같다. "데이터의 범위, 기록 및 모집단에 대한 정확한 정보", "불완전하거나 손상된 기록 식별" "데이터 정리 및 정규화". 이는 낮은 품질의 데이터가 기업이 고품질 AI 기반 분석을 얻는 데 주요 장애물임을 보여준다.

 

데이터가 왜 중요한가?

 

AI 구현에서 데이터 품질이 중요한 이유는 여러 가지가 있다. 다음은 가장 중요한 몇 가지이다.

 

1. 가비지 인 및 가비지 아웃

 

출력이 입력에 크게 의존한다는 것을 이해하는 것은 매우 간단하다. 이 경우 데이터 세트가 오류로 가득 차 있거나 왜곡되어 있으면 결과도 잘못된 방향으로 가게 될 것이다. 대부분의 데이터 관련 문제는 반드시 데이터의 양이 아니라 AI 모델에 제공하는 데이터의 품질에 관한 것이다. 데이터 품질이 낮으면 AI 모델이 아무리 좋아도 제대로 작동하지 않는다.

 

2. 모든 AI 시스템이 평등하지는 않다

 

데이터 세트를 생각할 때 일반적으로 양적 데이터 측면에서 생각한다. 그러나 비디오, 개인 인터뷰, 의견, 사진 등의 형태의 질적 데이터도 있다. AI 시스템에서 양적 데이터 세트는 구조화되고 정성적 데이터 세트는 비 구조적이다. 모든 AI 모델이 두 종류의 데이터 세트를 모두 처리할 수 있는 것은 아니다. 따라서 적절한 모델에 대한 올바른 데이터 유형을 선택하는 것은 예상되는 출력을 얻는 데 필수적이다.

 

3. 품질 대 수량

 

AI 시스템은 학습을 위해 많은 데이터를 수집해야 한다고 믿어진다. 품질 대 수량에 대한 논쟁에서 기업은 일반적으로 후자를 선호한다. 그러나 데이터 세트가 고품질이지만 본질적으로 더 짧다면 출력이 적절하고 강력하다는 것을 어느 정도 보장할 수 있다.

 

4. 좋은 데이터셋의 특징

 

좋은 데이터 세트의 특성은 주관적일 수 있으며 주로 AI가 제공하는 애플리케이션에 따라 다르다. 그러나 데이터 세트를 분석하는 동안 찾아야 하는 몇 가지 일반적인 기능이 있다.

 

-완전성: 데이터 세트는 데이터 세트에 빈 그리드나 점이 없어야 한다. 모든 셀에는 데이터 조각이 있어야 한다.

 

-포괄성: 데이터 세트는 가능한 한 포괄적이어야 한다. 예를 들어 사이버 위협 벡터를 찾고 있다면 모든 서명 프로필과 필요한 모든 정보가 있어야 한다.

 

-일관성: 데이터세트는 할당된 명확한 변수 아래에 맞아야 한다. 예를 들어 패키지 상자를 모델링하는 경우 선택한 변수(플라스틱, 종이, 판지 등)에 해당 범주에 속하려면 적절한 가격 데이터가 있어야 한다.

 

-정확성: 정확성은 좋은 데이터 세트의 핵심이다. AI 모델에 제공하는 모든 정보는 신뢰할 수 있고 완전히 정확해야 한다. 데이터 세트의 많은 부분이 올바르지 않으면 출력도 정확하지 않다.

 

-독창성: 이 점은 일관성과 유사하다. 각 데이터 포인트는 제공하는 변수에 대해 고유해야 한다. 예를 들어, 플라스틱 포장지의 가격이 다른 포장 범주에 속하기를 원하지 않는다.

 

데이터 품질 보장

 

데이터 원본을 신뢰할 수 있는지 확인하는 것과 같이 데이터 품질을 높이는 방법에는 여러 가지가 있다. 다음은 AI 모델에 대해 최상의 품질 데이터를 얻을 수 있는 몇 가지 최고의 기술이다.

 

1. 데이터 프로파일링

 

데이터를 사용하기 전에 데이터를 이해하려면 데이터 프로파일링이 필수적이다. 데이터 프로파일링은 값 분포, 최대값, 최소값, 평균값 및 이상 값에 대한 통찰력을 제공한다. 또한 데이터의 불일치 형식을 지정하는 데 도움이 된다. 데이터 프로파일링은 데이터 세트를 사용할 수 있는지 여부를 이해하는 데 도움이 된다.

 

2. 데이터 품질 평가

 

사전 구축된 데이터 품질 규칙의 중앙 라이브러리를 사용하여 중앙 라이브러리로 모든 데이터 세트의 유효성을 검사할 수 있다. 데이터 도구가 내장된 데이터 카탈로그가 있는 경우 해당 규칙을 재사용하여 고객 이름, 이메일 및 제품 코드를 검증할 수 있다. 또한 일부 데이터를 보강하고 표준화할 수도 있다.

 

3. 데이터 품질 모니터링 및 평가

 

과학자들은 사용하려는 대부분의 데이터 세트에 대해 사전 계산된 데이터 품질을 가지고 있다. 속성의 범위를 좁혀 속성에 어떤 특정 문제가 있는지 확인한 다음 해당 속성을 사용할지 여부를 결정할 수 있다.

 

4. 데이터 준비

 

연구원과 과학자는 일반적으로 AI 모델링을 위해 데이터를 약간 조정해야 한다. 이러한 연구원은 속성을 구문 분석하고 열을 전치하고 데이터에서 값을 계산하기 위해 사용하기 쉬운 도구가 필요하다.

 
인공지능, 머신러닝, 데이터 관련기사목록
광고
광고
광고
광고
광고
광고
많이 본 기사
AIbio소식 많이 본 기사