화이트 모드로 보시길 권장합니다

[AI Friends School] 시리즈는 MicroShcool에서 진행하는 온라인 인공지능 학습 학교이다.

 

AI Friends School 강의 내용을 말하기 전, AI Friends School에선 어떠한 것을 배우는지 알아보자

 

AI Friends School이란?

AI Friends School은 인공지능 기술을 적용해 세상의 문제를 해결할 수 있는 시티즌 디벨로퍼로 성장하는 것을 목표로 한다.

-AI Friends School 온라인 과정 ( 36차시, 3개월 )-1. 인공지능 들어가기(1차시 ~ 10차시) 2. 인공지능·영상처리 이론(11차시 ~ 15차시) 3. 인공지능·영상처리 실습(16차시 ~ 23차시) 4. 인공지능·음성 / 자연어 처리 이론(24차시 ~ 28차시) 5. 인공지능·음성 / 자연어 처리 실습(29차시 ~ 36차시)


 

머신러닝

머신러닝

입력받은 데이터를 분석하여 일정한 패턴 & 규칙을 찾아내어 의사결정 및 예측 등을 수행하는 것이다.

대량의 데이터에서 컴퓨터가 스스로 규칙을 찾아내도록 학습시키는 것이다.

 

알고리즘 :

훈련 데이터(Training Data)를 input,  학습한 지식을 바탕으로 output 출력한다.

 

종류 :

학습시킬 데이터에 정답(라벨) 포함되어 있을 경우 지도학습, 포함되어 있지 않을 경우 비지도학습이다.


 

지도학습, 비지도학습, 강화학습

지도학습( Supervised Learning )

정답이 포함된 데이터(Labeled Data)를 이용해 학습하고, 학습된 내용으로 유사한 다른 문제의 정답을 맞히는 방식이다.

반드시 정답이 포함된 데이터를 이용해 학습시켜 사람이 의도하는 정답을 출력하도록 하는 것이다

( ex. 학교에서 수업을 듣는 것 )

지도학습 예시 사진

 

분류( classification )  :

주어진 입력이 어떤 종류의 값인지 표시하는 것이다.

출력하는 정답 라벨 개수에 따라 2개일 땐 ' 이진 분류 ', 3개 이상일 땐 ' 다중 분류 '로 나뉜다.

( ex.

각 과일의 이름이 라벨링 된 데이터를 이용해 학습시키고, 과일 사진을 넣었을 때 그 사진이 어떠한 과일인지 판단하는 것 )

 

회귀 분석( Regression analysis ) :

둘 이상의 변수 관계를 나타내는 것이다.

두 변수 간의 수치적 상관관계를 선을 통해 찾는 것을 ' 회귀(Regression) '라 한다

( ex. 아래와 같이 나이대별 키의 성장 정도를 예측하는 것 )


비지도학습( Unsupervised Learning )

정답이 포함되어 있지 않은 데이터를 군집화 하여 새로운 데이터에 대한 결과를 예측하도록 공부시키는 방법이다.

사람의 개입 없이 컴퓨터가 스스로 데이터의 속성, 패턴 등을 학습하여 데이터를 군집화(Clustering)한다.

적절한 특징을 찾아 데이터에 라벨링 할 수 있기에 지도학습의 훈련 데이터 전처리 방법으로 사용되기도 한다.

( ex. 일상에서의 경험을 통해 얻는 지식 )

 

군집화( Clustering ) :

데이터들의 특성을 고려하여 비슷한 특성을 가진 데이터들의 집단인 군집을 정의하는 것이다.

( 특성은 색상, 크기 모양 등 다양한 것들이 판단하는 기준이 된다. )

 

유사도 함수( Similarity Metrics ) :

동일한 군집인지를 구분하기 위해 유사한 속성 값을 찾는 기준이다.

유사도 함수의 종류에 따라 군집화 되기에 모델 학습에 있어 매우 중요한 역할이다.


강화학습( Reinforcement Learning )

행동심리학에서 영향을 받았다.

학습의 시행착오를 통해 자신이 한 행동에 보상을 받으며 강화를 하는 학습 방법이다.

분류할 수 있는 데이터가 존재하지 않으며, 데이터가 있더라도 정답이 정해져 있지 않다.

 

강화학습 학습 방법 :

환경( Environment )이 주어진다.

환경 안에 정의된 사용자(Agent)가 현재 상태(State)를 인식하여 선택 가능한 행동(Action)중 보상(Reward)을 최대화하는 행동 혹은 행동 순서를 선택하도록 하는 방법이다.

행동으로 유발하는 실수&보상을 통해 시행착오를 겪으며 목표를 찾게 만드는 알고리즘이다.

풍부한 경험이 있어야 더 좋은 보상을 얻지만, 경험을 풍부하게 만들기 위해서는 새로운 시도를 하는 비용이 발생한다.

강화학습에서 이용과 탐험 사이의 균형을 맞추는 것이 중요하다.

 

이용( Exploitation )과 탐험( Exploration ):

이용(Exploitation)이란 경험한 것 중 당시에 최대의 보상을 얻을 수 있는 행동을 수행하는 것을 말한다.

경험을 다양하게 쌓기까지 시도하는 과정 탐험(Exploration)이라 한다.

 

ex. 구글 딥마인드의 벽돌깨기

벽돌깨기 게임 화면

점수를 올리는 것이 목표로 벽돌을 깨는 행동을 했을 대 주는 점수가 곧 보상(Reward)이다.

보상을 통해 강화학습 모델은 점수를 높이는 목표를 향해 계속해서 학습한다. 

시간이 지나게 되면 효과적으로 보상을 얻을 수 있는 행동(Action)을 학습하게 된다.

구글의 딥마인드 벽돌깨기는 사용자(Agent)에게 행동 목록만을 제공하여 높은 점수를 받는 방법을 학습할 수 있게 하는 

강화 학습의 대표적인 예시이다.

 

ex. 알파고

알파고 로고

알파고 학습에 강화학습이 사용되었다.

이세돌과 바둑 경합을 펼칠 때 이세돌이 실수를 하지 않아 알파고가 더 이상 강화가 안 되는 상태였다.

이세돌의 마지막 한 수가 알파고가 예상치 못한 경우의 수였기에 알파고는 자신의 실패에 대한 보상으로써 강화되었다.


 

다음 차시에는 인공지능의 성능 평가&개선 방법에 대해 배운다

 

+ Recent posts