학습 개요
- 비정형 데이터는 고정된 스키마나 구조 없이 저장된 데이터 형태로, 이미지, 텍스트, 오디오, 영상 등 다양한 형태로 존재함
- 이러한 데이터는 전체 데이터의 대부분을 차지하며, 소비자 행동, 사회 현상, 트렌드 분석 등 복잡한 정보를 포함하고 있어 기업과 기관의 의사 결정에 매우 중요한 자원이 됨
- 그러나 전통적인 데이터 분석 기법으로는 이러한 비정형 데이터를 효율적으로 처리하기 어렵기 때문에, 최근에는 인공 지능 기반의 접근 방식이 필수적으로 활용되고 있음
- 비정형 데이터의 개념과 특성을 이해하고, 이를 수집, 처리, 분석하기 위한 기술적 접근법을 학습함
- RSS를 활용한 데이터 수집 방법을 살펴본 후 VLM과 LLM 같은 멀티 모달 딥러닝 기술을 중심으로, 이미지 분석과 텍스트 생성 기술을 통합적으로 학습함
- 실습을 통해 이미지 기반 텍스트 분석과 키워드 시각화, 보고서 자동 생성까지 전체 분석 흐름을 경험함
학습 목표
- 이미지와 같은 비정형 데이터의 특성을 이해할 수 있음
- 비정형 데이터의 수집 방법을 설명할 수 있음
- 비정형 데이터에서 의미 있는 정보를 추출하기 위한 프롬프트 설계 기법을 활용 할 수 있음
- VLM과 LLM을 활용하여 이미지를 의미 있는 인사이트로 변환할 수 있음
강의록
비정형 데이터 분석
비정형 데이터의 이해
- 비정형 데이터의 정의
- 일정한 형식이나 구조가 없이 저장 된 정보
- 이미지, 영상, 음성, 텍스트 등 다양한 형태로 존재
- 비정형 데이터의 특징
- 정형 데이터에 비해 압도적인 데이터 양(전체 대비 70%)
- 풍부한 정보를 담고 있으나 전통적 분석으로는 처리 제한
- 비정형 데이터의 가치
- 소비자의 취향, 시장 트렌드, 사회적 변화 등 정보 내포
- 기업의 의사 결정, 마케팅 전략, 제품 개발 등에 활용 가능
RSS를 활용한 데이터 수집
- RSS(Rich Site Summary)
- 콘텐츠가 자주 갱신 되는 사이트의 정보를 XML 포맷으로 구조화된 형식으로 제공하는 기술
- 구조화된 방식으로 비정형 데이터를 실시간으로 수집할 수 있는 효율적인 메커니즘으로 사용 가능
RSS 피드의 구조
![image.png]()
시각 언어 모델(VLM)의 이해
- 시각 언어 모델(VLM)
- 이미지를 이해하고 이를 자연어로 설명하는 AI 모델
- 이미지와 텍스트를 동시에 처리하는 멀티 모달 AI 기술
- “사람이 입은 옷의 스타일을 설명해 줘”와 같은 지시를 이해
![image.png]()
- 이미지를 이해하고 이를 자연어로 설명하는 AI 모델
토크나이저(tokenizer)
- 자연어와 기계어 사이의 번역기 역할
- VLM과 LLM에서 텍스트 입력을 처리하는 컴포넌트
- 텍스트 분할
- 자연어 텍스트를 모델이 처리할 수 있는 토큰(단어, 서브워드, 문자 수준 등)으로 분리
- 언어별 특성을 고려한 분할 알고리즘 적용
- 수치 변환
- 각 토큰을 모델이 이해할 수 있는 숫자(ID)로 변환
- 미리 정의된 어휘 사전에서 숫자 ID로 변환되며, 이는 모델이 훈련 중에 학습한 단어와 일치하는지 확인
- 텍스트 분할
프롬프트(Prompt)의 개념과 설계
- 프롬프트
- 모델에 제공하는 입력 텍스트로, 모델의 출력을 유도하는 지시문
- 모델과의 대화를 시작하고 방향을 설정하는 역할
- 질문, 명령, 맥락 정보 등 다양한 형태로 구성 가능
- 모델에 제공하는 입력 텍스트로, 모델의 출력을 유도하는 지시문
- 효과적인 프롬프트 설계 원칙
- 명확하고 구체적인 지시 포함
- 원하는 출력 형식과 스타일 명시
- 필요 시 예시 제공
- 맥락 정보와 배경 지식 추가
- 단계별 안내를 통한 복잡한 작업 분해
실습 프로젝트
- 패션 매거진의 사진 데이터를 활용하여 패션 트렌드를 분석
- VLM, LLM 등 AI를 활용한 이미지 분류 및 보고서 작성
| 단계 | 주요 내용 | | — | — | | 1. 데이터 수집 및 전처리 | - requests를 이용한 RSS 데이터 수집
- lxml을 이용한 XML 파싱
이미지 데이터 추출 2. 이미지 분석 - 프롬프트를 이용한 이미지 필터링 프롬프트를 이용한 스타일 분석 3. 키워드 분석 및 보고서 작성 - 텍스트 전처리 - 색상 및 스타일 키워드 추출
- 워드 클라우드 분석
보고서 작성
연습 문제
다음 중 비정형 데이터에 포함된다고 할 수 없는 것은?
a. 관계형 데이터베이스
VLM은 어떤 기능을 수행하는 모델인가?
a. 이미지 분류 및 자연어 설명 생성
프롬프트 설계 시 고려할 사항으로 적절하지 않은 것은?
a. 무작위 응답 유도
정리 하기
- CNN, VLM, LLM 등의 딥러닝 기술은 비정형 데이터를 해석하는 새로운 방법론을 제공함
- 필터링된 이미지를 대상으로 VLM을 활용하여 옷의 스타일, 색상, 트렌드 특징 등을 자연어로 설명하는 분석을 수행할 수 있음
- VLM 기반 분석은 시각적 데이터를 풍부한 텍스트 정보로 전환하여 정성적 인사이트를 제공함
- LLM을 활용하여 스타일 분석 결과로부터 색상과 스타일 키워드를 한글로 추출하고, 정규 표현식 기반 전처리 과정을 통해 데이터를 정제함
- 프롬프트 설계는 시스템 역할 정의, 사용자 지시 사항, 데이터 반복 제공, 생성 매개변수 조정을 포함하여 출력 품질을 높임
- 자동 생성된 보고서는 트렌드 요약, 스타일 경향, 색상 분석 등을 포함하며, 초기 분석 초안 또는 보고서 작성의 기반 자료로 활용될 수 있음

