구조화되지 않은 데이터
비정형 데이터란 무엇입니까?
- 미리 정의된 데이터 모델이 없거나 미리 정의된 방식으로 구성되지 않은 정보
- = 비정형 데이터, 비정형 정보
비정형 데이터의 속성
- 일반적으로 텍스트 지향적이며 날짜, 숫자 및 사실과 같은 데이터를 포함합니다.
- 이상 및 모호성이 발생하면 데이터베이스에 열 형식으로 저장됩니다.
- 기존 프로그램으로는 이해할 수 없는 문서의 주석이 달린(의미적으로 태그가 지정된) 데이터와 비교
데이터 형식과 데이터 수집 간의 관계
- 구조화된 데이터
- 주로 내부 시스템이므로 수집이 용이합니다.
- 파일 형태의 테이블이지만 처리가 용이한 형식을 포함하고 있습니다.
- 주로 내부 시스템이므로 수집이 용이합니다.
- 반구조화된 데이터
- 대부분 API 형태로 제공되기 때문에 데이터 처리 능력이 필요합니다.
- 대부분 API 형태로 제공되기 때문에 데이터 처리 능력이 필요합니다.
- 구조화되지 않은 데이터
- 텍스트 마이닝이나 파일의 경우 파일을 데이터 형태로 파싱해야 하므로 수집된 데이터를 가공하기 어렵다.
- 텍스트 마이닝이나 파일의 경우 파일을 데이터 형태로 파싱해야 하므로 수집된 데이터를 가공하기 어렵다.
비정형 데이터 관리 및 분석에서 의미 도출
- 데이터 저장의 효율성 측면
- 구조화된 데이터: 미리 정의된 규칙에 따라 저장/관리
- 비정형 데이터: 표준화 어려움으로 인한 저장/관리 어려움
- 정형 데이터에 비해 디스크 공간을 많이 차지
- 비정형 데이터로 인해 분석이 쉽지 않은 부분이 있습니다.
비정형 데이터 분석
데이터 수집
- 체계적이고 자동적으로 통계적 규칙이나 패턴을 분석하여 가치 있는 정보를 추출하는 과정
- 통계 데이터 마이닝
- 패턴인식부터 다양한 계량기법 활용
- 고급 탐색적 데이터 분석, 가설 검정, 다변량 분석, 시계열 분석 및 일반 선형 모델과 같은 방법 사용
- 데이터베이스의 데이터 마이닝
- OLAP(Online Analytical Processing)과 같은 기술적 방법을 사용하여 인공 지능, 신경망 및 전문가 시스템 분야에서 개발된 SOM
- 적용 범위
- 신용평가시스템을 위한 신용평가모형 개발
- 사기 탐지 시스템
- 장바구니 분석
- 최적의 포트폴리오 구축 등
- 분류: 특정 집단에 대한 구체적인 정의를 통한 분류 및 차별화의 결론
- 예) 경쟁사로 이직한 고객
- 클러스터링: 공통된 특정 특성을 가진 클러스터 검색
- 예시) 유사 행동 집단 분류
- 연관: 동시 이벤트 간의 관계를 정의합니다.
- 예) 장바구니에 동시에 추가된 상품간 관계식별
- 시퀀싱: 일정 기간 동안 발생하는 관계 식별
- 예) 슈퍼마켓 반복 방문 및 금융상품 이용
- 예측: 대규모 데이터 세트의 패턴을 기반으로 미래 예측
- 예) 서로 다른 수요예측
- 데이터 마이닝의 단점
- 데이터에 의존하여 현상 유지를 개선하는 강한 성격
- 데이터가 현실을 충분히 반영하지 못한 상태에서 정보를 추출하는 모델을 개발하면 잘못된 모델을 생성하는 오류가 발생한다.
- 즉, 신뢰도가 높은 충분한 데이터가 필요합니다.
텍스트 마이닝
- 기존 데이터 마이닝의 한계를 훨씬 넘어
- 사람의 음성으로 구성된 비정형 텍스트 데이터에 대한 자연어 처리 방법 이용
- 정보 추출, 화합물 식별, 분류 및 클러스터링, 대용량 문서로의 집계를 통해 데이터의 숨겨진 의미를 발견하는 기술
- 자연어 처리(NLP)
- 컴퓨터 등의 기계를 이용하여 인간의 언어 현상을 연구하고 구현하는 인공지능의 주요 분야 중 하나.
- 연구 대상이 언어이기 때문에 자연어 처리는 언어 자체를 연구하는 언어학이나 언어 현상의 내부 메커니즘을 연구하는 언어인지 과학과 밀접한 관련이 있습니다.
- 구현을 위해 많은 수학적/통계적 도구가 사용되며, 특히 기계 학습 도구를 자주 사용하는 대표적인 분야가 하나 있습니다.
- 적용분야 : 정보검색, QA시스템, 자동문서분류, 신문기사클러스터링, 인터랙티브 에이전트 등
여론 조사
- 텍스트 마이닝의 분류
- 주어진 주제에 대한 사람들의 주관적인 의견을 통계/숫자로 변환하여 객관적인 정보로 변환하는 빅데이터 분석 기술
- 텍스트 마이닝과의 차이점
- 텍스트 마이닝: 문장에서 주제 식별
- 오피니언 마이닝: 감정/뉘앙스/태도 등을 구별하므로 감정 분석이라고도 함
- 텍스트 내 정보 식별을 위한 문장, 문장과 어휘 간의 관계를 분석하여 키워드와 관련된 감성어휘의 빈도를 중립/긍정/부정으로 분류하고 강도를 평가한다.
- 특정 서비스 및 제품에 대한 시장 규모, 소비자 반응, 입소문 등을 예측하는 데 사용됩니다.
- 특정 서비스 및 제품에 대한 시장 규모, 소비자 반응, 입소문 등을 예측하는 데 사용됩니다.
웹 마이닝
- 웹 자원에서 의미 있는 패턴, 트렌드 등 도출
- 핵심은 데이터를 분석하여 유용한 정보를 추출하고 인사이트를 생성하는 데 있습니다.
- 디바이스에 누적되는 모든 로그, 사용자 행동 및 생성된 콘텐츠를 포함합니다.
- 디바이스에 누적되는 모든 로그, 사용자 행동 및 생성된 콘텐츠를 포함합니다.
- 웹 마이닝의 특징
- 웹 환경의 정보를 다양한 활동에 활용
- 데이터 마이닝을 사용하여 문서 및 서비스에서 정보 추출
- 대량의 로그 기록을 기반으로 정보 수집 및 데이터 정제
- 다양한 서비스에 적용
- 웹 마이닝의 종류
- 웹 구조 마이닝: 웹 사이트에서 구조 개요 정보를 추출합니다.
- 웹 콘텐츠 마이닝: 웹 사이트 또는 페이지에서 의미 있는 콘텐츠 추출
- 웹 사용량 마이닝(Web Usage Mining): 웹에서의 사용자 행동과 같은 패턴에서 인사이트를 도출하는 방법.
- 웹 구조 마이닝: 웹 사이트에서 구조 개요 정보를 추출합니다.