Home [클라우드 컴퓨팅] 13강 - 클라우드 기반 데이터 분석
Post
Cancel

[클라우드 컴퓨팅] 13강 - 클라우드 기반 데이터 분석

💡해당 게시글은 방송통신대학교 정재화 교수님의 '클라우드 컴퓨팅' 강의를 개인 공부 목적으로 메모하였습니다.



학습 개요


  • 클라우드 서비스는 물리적인 IT 리소스와 소프트웨어를 대체하는 영역에서 벗어나 최근 머신러닝(ML), 딥러닝, 데이터 분석 등 다양한 응용 분야로 서비스 영역을 넓히고 있음
  • 데이터 수집, 데이터 전처리, 모델 학습, 모델 성능 평가, 그리고 모델 기반 예측까지 대량의 리소스와 복잡한 절차가 요구되는 AI 및 ML을 효율적으로 도입 활용할 수 있는 총체적인 툴을 서비스화하여 MLaaS라는 최적화된 서비스를 개발 · 제공하고 있음
  • Azure의 머신러닝 서비스인 Azure Machine Learning(Azure ML)을 기반으로 타이타닉 데이터를 사용한 데이터 분석하는 방법에 대해 학습함



학습 목표


  • 데이터 분석 과정을 나열할 수 있음
  • Azure ML Studio에서 적절한 컴포넌트는 선택하여 배치할 수 있음
  • Azure ML Studio를 활용하여 데이터 분석 결과를 도출할 수 있음



연습 문제


  1. ML(Machine Learning)의 과정이 올바른 순서로 나열된 것은?

    a. 데이터 수집 → 데이터 전처리 → 데이터 학습 → 모델 평가

    • 학습에 필요한 데이터 수집 후, 필요한 데이터 추출 및 형식화를 위해 데이터 전처리 과정이 수행됨
    • 이후 데이터 학습 후 모델이 특정 수준 이상의 성능을 나타내는지 평가함
  2. Azure ML에서 데이터 자산(data asset)를 확보할 수 있는 방법이 아닌 것은?

    a. 데이터베이스에서

    • Azure ML은 Azure Storage, 로컬 파일, 웹 파일을 데이터 자산으로 사용할 수 있는 방법을 제공하나 데이터베이스에서 직접 데이터 자산을 확보할 수는 없음
  3. 지문은 무엇에 대한 설명인가?

    class="highlight">
    1
    
     ML 모델을 학습하고 검증하는 과정에서 일반적으로 학습 데이터셋을 더 작은 크기의 여러 개의 서브셋으로 나누어 모델을 학습하고 검증하는 과정
    

    a. 교차 검증

    • 편향된 학습이 발생하지 않고 모델의 일반화를 위해 학습 데이터 셋을 더 작은 크기의 여러 개의 서브 셋으로 나누어 모델을 학습하는 방법을 교차 검증 또는 폴드라고 함



    정리 하기


    • Azure ML Studio에서는 데이터 전처리, ML 알고리즘 기반 학습, 학습 모델 평가, 학습 모델 기반 예측 등의 데이터 분석을 위한 다양한 기능을 제공함
    • Azure ML Studio에서는 notebook, 자동화된 ML, 디자이너 등의 ML 작업 환경을 제공함
    • ML 작업은 데이터 수집, 데이터 전처리, 데이터 학습, 모델 평가의 4단계로 구성 됨
    • Azure ML에서는 컴퓨팅 인스턴스, 컴퓨팅 클러스터, Kubernetes 컴퓨팅, 연결 컴퓨팅의 4가지 유형의 컴퓨팅 머신을 제공함
    • 데이터 분석 수행 시 데이터 속성 간 상관 관계를 분석하여 최종 목표에 영향을 미치는 관련 속성을 선정해야 함
    • 데이터 전처리는 ML 모델을 학습 시키기 전에 데이터를 준비하는 과정이며, Select Columns in Dataset, Edit Metadata 등의 블럭을 배치하고 설정을 통해 데이터를 정제하고 변환하는 작업이 진행됨
    • ML 모델 선택은 문제의 유형, 데이터의 특성과 양, 모델의 복잡도와 성능의 균형, 확장성과 유지 보수성 등을 고려하여 적절한 모델을 선택해야 하며 치트 시트 등을 사용할 수 있음
    • 교차 검증(cross-validation)은 ML에서 모델의 일반화 성능을 평가하고 최적의 하이퍼파라미터를 선택하기 위해 사용되는 방법임

    [멀티미디어 시스템] 2강 - 멀티미디어 시스템 환경

    [오픈 소스 기반 데이터 분석] 14강 - 비정형 데이터 분석