화이트 모드로 보시길 권장합니다

[AI Friends School] 시리즈는 MicroShcool에서 진행하는 온라인 인공지능 학습 학교이다.

 

AI Friends School 강의 내용을 말하기 전, AI Friends School에선 어떠한 것을 배우는지 알아보자

 

AI Friends School이란?

AI Friends School은 인공지능 기술을 적용해 세상의 문제를 해결할 수 있는 시티즌 디벨로퍼로 성장하는 것을 목표로 한다.

-AI Friends School 온라인 과정 ( 36차시, 3개월 )-1. 인공지능 들어가기(1차시 ~ 10차시) 2. 인공지능·영상처리 이론(11차시 ~ 15차시) 3. 인공지능·영상처리 실습(16차시 ~ 23차시) 4. 인공지능·음성 / 자연어 처리 이론(24차시 ~ 28차시) 5. 인공지능·음성 / 자연어 처리 실습(29차시 ~ 36차시)


 

시각정보

사람이 세상을 보는 법

1. 빛이 물체에 반사되어 망막에 닿게 된다.

2. 이때 광수용체라는 세포가 빛을 전기신호로 바꾼다.

3. 전기신호는 시신경을 통해 뇌로 전달된다.

4. 뇌에서 전기신호를 이미지로 바꿔준다.

 

영상처리( Image Processing ) : 정보를 해석, 판단하는 것이다.

 

영상

대부분의 사람들이 ' 영상 '을 움직이는 사진, 즉 동영상을 생각한다.

영상은 한자어로 '비칠 영', '형태 자'의 조합으로, 사진(= 이미지)을 의미한다.

 

동영상

유튜브 등의 동적인 영상을 ' 동영상 '이라 한다.

동영상이란 여러 사진이 일정 시간 변화량(= △t; delta t)을 간격으로 나열되어 있는 것이다.

 

FPS( Frame Per Second ) :

1초에 발생하는 이미지의 개수를 의미한다.

△t의 크기에 따라 1초에 발생하는 이미지의 수도 달라진다.

△t가 클 경우 1초에 발생하는 이미지의 수  가 줄어들어 FPS가 낮을 것이다.

△t가 작을 경우 1초에 발생하는 이미지의 수가 증가하여 FPS가 높을 것이다.

△t가 0에 가까울수록 현실과 비슷한 동영상이 된다.

5 FPS 일 경우 1초에 5장의 이미지가 들었다는 뜻이며 △t = 1/5s = 0.2s 가 된다.

△t와 FPS의 관계

△t와 FPS는 반비례 관계로, △t가 높아지면 FPS는 낮아진다.

 

60 FPS와 120 FPS의 동영상을 비교할 경우 120FPS의 동영상이 부드럽게 보인다.

하지만 1초에 담긴 이미지의 수도 2배이기 때문에 컴퓨터가 처리해야 할 이미지의 수도 2배가 된다.


 

컴퓨터의 시각

컴퓨터가 세상을 보는 방법

컴퓨터는 카메라를 통해 이미지 데이터를 얻는다.

카메라가 이미지 데이터를 얻는 방법은 사람이 세상을 보는 방법과 흡사하다.

1. 카메라는 렌즈로 빛을 모아 카메라 내부, 이미지 센서로 빛을 전달한다.

2. 이미지 센서는 빛 에너지를 전기 신호로 전환, 메모리에 저장한다.

( 이미지 센서는 수백만 개의 작은 Photo Cell로 구성 )

( 각각의 포토 셀은 이미지의 각  픽셀에 대해 빛 에너지를 전기 신호로 처리한다. )

세상은 3차원이지만, 컴퓨터가 카메라를 통해 얻은 데이터는 2차원의 이미지 데이터이다.


 

이미지

디지털 이미지

디지털 이미지는 화소(= 픽셀; Pixel)로 이루어져 있다.

디지털 이미지를 확대할 경우 이미지를 구성하는 픽셀들이 보이는 픽셀화 현상이 일어난다.

픽셀의 수가 늘어날수록 이미지를 더욱 자세하게 표현할 수 있으며, 현실에 가깝다.

 

해상도( Resolution ) :

한 이미지를 표현하기 위해 필요한 픽셀들의 수를 뜻한다.  

Full HD 동영상의 경우 가로 1920px, 세로 1080px이다.

이때 해상도는 가로 x세로 = 2073600 px, 약 2백만 화소로, 2메가 픽셀이라 표현한다.

 

좌표계( Coordinate System ) : 

화면 좌측 상단을 기준으로 오른쪽으로 갈수록 x값이 증가하며, 아래로 갈수록 y값이 증가한다.

좌표계 시스템을 활용하여 좌표로 특정된 픽셀에 색상 정보를 보내 화면을 다양한 색상으로 구현할 수 있다.


 

색상

RGB( Red Green Blue )

삼원색인 빨강, 초록, 파랑을 조합하여 여러 색을 나타내는 방법이다.

Red, Green, Blue의 양을 각각 0~255까지의 값으로 표현한다.

빨강(= 255, 0, 0), 초록(= 0, 255, 0), 파랑(= 0, 0, 255)

색상을 표현할 때 R, G, B 3개의 정보값을 필요로 하는데, 영상처리에서 이를 3 채널이라 한다.

3채널 원리는 핸드폰, 모니터 등에서 사용된다.

디스플에이에 3채널 원리를 적용할 경우 각 채널을 겹쳐 표현할 수 없기 때문에 발광 다이오드를 통해 3 채널을 표현한다.

RGB

 

회색조( Gray Scale )

흑백을 나타낼 때 검은색과 흰색만을 이용해 나타내므로 흰색이 얼마나 존재하는가를 결정하는 방법이다.

RGB와는 다르게 하나의 채널만 있다. 흰색의 량에 따라 0~255 사이의 값만 필요하기 때문이다.

각 픽셀에 1 채널 회색조 값을 지정하여 이미지를 표현할 수 있다.

 

HSV( Hue Saturation Value )

Hue(= 색상), Saturation(= 채도), Value(= 명도)의 약자이며, 사람이 색상을 인식하는 방식으로 정의된 모델이다.

Hue(색상)을 지정하고, Saturation(채도)와 Value(명도)의 조합으로 색을 표현한다. 

특정 색을 정의 내릴 때 훨씬 직감적이고, 실제에 가깝다.

RGB를 사용할 때에는 R, G, B 세 가지 속성을 모두 참고해야 하지만, 

HSV의 경우 Hue만 알아도 색상을 찾을 수 있기에 쉽게 색을 분류할 수 있다. 때문에 컴퓨터 비전 분야에서 HSV 방법이 

흔하게 사용된다.


 

컴퓨터가 보는 이미지 데이터

컴퓨터는 이미지의 모든 픽셀을 좌표계를 통해 접근 하며, RGB, HSV, Gray Scale의 수치 값을 통해 이미지를 표현한다.

컴퓨터는 이미지 데이터를 숫자 데이터의 배열로 보며, 이미지 데이터에 수학적 기법을 통해 다양한 조작을 할 수 있다.

 

ex.

주변 픽셀들의 값이 급격하게 변하는 구간을 찾아 이미지 물체에서 형체, 테두리를 찾을 수 있다.

급격한 값들을 완화하여 블러링(Blurring)처리를 할 수도 있다


 

다음 차시에는 CNN에 대해 배운다

 

+ Recent posts