대학원생 및 연구자를 위한 딥러닝 기반 멀티미디어 기술 워크숍

4월 21, 2020

딥러닝 및 심층신경망 기초 및 실습

고려대 김중헌 교수님

- 학습 방법, 사용처 등 딥러닝의 개요에 관한 내용 설명
- GAN의 아주 간단한 설명 모델 구성 정도
- 텐서플로우 실습 - node 생성 및 placeholder 등

Linear regression theory
- y = Wx+b 부터의 내용
- Cost function과 Gradient decent 관련 내용
- Cost function은 선형 방정식에 기초함

Binary classification theory
- Binary classification은 sigmoid activation function으로 분류기를 설정할 수 있음
- 0.5를 기준으로 함
- Cost function은 선형 방정식에 기초할 수 없으므로 log를 사용한 cost function을 이용하여 cost를 0과 inf로 나눔
- csv파일 읽는 것 tensorflow 예제

Softmax classification theory
- multi-category classification 문제일 경우 사용되는 방법

ANN theory
- input layer는 사실 layer라고 부르지 않음 실제 데이터를 입력하는 것이기 때문. 따라서 layer의 개수를 셀 때 input은 제외
- hidden layer는 output layer를 제외한 나머지 layer
- 딥러닝의 연산과정은 interpolation 과정과 비슷함

CNN 기반 영상 인식 기술 및 PyTorch 실습

아주대 황원준교수님

- 영상 관련 기술들 소개 (e.g. face recog, pose estimation, etc...)

Why Deep Learning?
- Hand-craft 기법들은 deep learning기법에 비해 성능이 떨어지기 때문
- deep learning 기술은 방대한 데이터를 기반으로 함

Model Architect
- ImageNet으로 성능 경쟁 대회가 이루어 졌으며, error rate가 낮을 수록 layer의 깊이가 깊어져 갔음
- 기본적으로 첫 레이어 부분에서 edge를 추출해내고 이후 부분적 즉, 눈, 코, 입 등의 특징을 추출하는 것으로 알려져 왔으나 실험적으로 그렇지 않다는 것이 나타남
- CNN의 장점은 complexity가 기존 방법들보다 낮다는 점인데, 이는 local receptive field의 효과임
- Activation function의 경우 여러 종류가 있으며 sigmoid의 vanishing gradient problem(VGP)을 해결하기 위하여 relu가 나옴
- relu의 경우 GVP를 해결하는 것에 좋은 성능을 보이나 모델의 가장 하단부분에 존재할 경우 성능을 저하시키는 것이 실험적으로 증명됨
- Max pooling과 같은 경우도 위치가 상당히 중요하기 때문에 여러 문서들을 볼 필요가 있음
- Batch normalization을 적용할 경우 성능이 높아짐 그러나 고려해야할 점은 conv - pooling - bn ? c - b - p? 문서들 봐야함
- 이후 여러 모델들에 관해 설명, 초기 모델들의 파라미터들은 증명조차 되지 않은 파라미터들임

VGG net
- 2개의 3x3 convs -> 1개의 5x5 conv
- 3개의 3x3 convs -> 1개의 7x7 conv

Googlenet
- FC layer를 사용하지 않은 모델
- inception module을 적용 - 1x1 conv로 채널수를 조정하여 모델의 크기를 줄이고, 여러 크기의 kernel을 이용하여 receptive field의 효율성을 높임 max pooling은 residual concept이라하는데 이 부분은 좀 더 봐야할듯
- 초기 엣지를 추출하는 conv 영역은 inception module의 효율이 좋지 못해 사용 안함

ResNet
- skip connection 기법을 이용하여 VGP를 해결하려함 그러나, 스킵 커넥션으로 인해 shallow한 네트워크로 조합이 되어 VGP가 해결된 것 처럼 보임
- 성능이 높은 이유는 conv의 여러 조합들로 이루어진 앙상블 모델이기 때문으로 생각됨

DenseNet
- Skip connection을 더욱 많이 사용한 것으로 각 노드마다 연결이 되어 복잡도가 상승하였음
- 따라서, 블록을 나누어 사용

딥러닝 기반의 이미지/비디오 압축 기술(end-to-end 뉴럴넷 기술을 중심으로)

ETRI 이주영

<b>기술 개요</b>
- 차원 축소 기반, 엔트로피 최소화 기반 이미지 압축 기술 중 후자의 성능이 더 높은 상태
- 압축쪽은 뉴럴넷 기반의 기술은 아직 기존 코덱보다 성능이 높지 못함
- 이유로는 엄청난 과거부터 연구되어온 것이기 때문에, 엄청난 최적화가 되어있다고함
- 압축률은 상당히 좋음
- 그럴싸해보이는 이미지가 나오지만, 원본 영상과 비교할 경우 차이가 심함 즉, 손실도가 상당히 높음
- 복원을 잘한다의 기준은 MS-SSIM, PSNR
- PSNR은 에러가 많은 품질 Metric이지만 기존 연구들은 PSNR을 높이기 위한 방법으로 연구가 되어 있음
- <b>뉴럴 넷은 PSNR, MS-SSIM 등 여러 평가 기준으로 학습될 수 있으나, 객관적인 평가 잣대를 위하여 PSNR로 기존 코덱을 이기는 것이 중요</b>
- auto encoder 차원 축소 방식은 Code의 크기에 따라 압축률이 결정됨 Loss로 Distortion만 관련되기 때문에 성능이 좋지 못함
- auto encoder에서 엔트로피 최소화 방식
- code 벡터는 인풋보다 크게 둘 때도 있음
- Code를 엔트로피 코딩을 통해 비트스트림을 생성

엔트로피 최소화란?

- 많이 나올 수 있는 경우를 묶어서 생각하는 것 즉, 불확실성이 커질 수록 필요한 비트량도 증가
- 확률이 1에 가까울 수록 정보량이 낮아짐
- 한 값으로 치우쳐있을 수록 평균정보량이 낮아짐 0.5라면 가장 높음
- 실제 평균 정보량을 코드로 변환할때 코드로 변환한 평균 정보량은 실제 평균 정보량보다 낮을 수 없음 - Shannon entropy
- Entropy coder가 실제 일어날 확률을 알고 있다면 높은 압축률을 보일 수 있음
- 그러나 현실적으로 entropy coder는 실제 확률을 모름
- 딥러닝의 샘플링 기반 산술 평균 연산을 이용하여 확률을 추론할 수 있음
- 앞서 말한 것은 특정한 모델에서 나온 분포에 관한 entropy coder에 관한 학습의 이야기였지만, 그 특정한 모델도 같이 학습하게 된다면 cross-entropy(p.146) 에서 둘 다 낮아지기 때문에 특정한 모델은 항상 같은 값만 출력함
- 항상 같은 값만 출력한다면 `entropy = 0`이 됨
- 즉, 특정한 모델의 출력을 "뻔하게" 만들고 싶다는 뜻

Balle`17 paper
- GDN: Generalized Divce Normalization(p.152) - 최근 연구들에도 계속 사용되고 있음

End-to-End

- 뉴럴넷은 모션벡터 대신 옵티컬플로우데이터를 이용

Wu et al.
- UNet을 이용하여 여러 사이즈의 feature를 추출하여 Warping을 함
- decoder에 인코딩 대상 프레임은 webp 기술로 압축하여 전송

Rippel et al.
- 딥러닝 연구자가 코덱 연구를 할때 바라봐야할 시선? 에 관한 내용이 적혀있다고함
- 이전 옵티컬플로우만 사용하지 말고 그전까지 쓰였던 모든 옵티컬플로우데이터를 저장한 state vector를 이용
- loss function의 문제로 성능이 높지 못함
-
Lu et al.
- 원본 영상과 옵티클플로우 영상으로 와핑한 후 와핑영상, 원본, 옵티컬 3가지를 conv에 입력

요약
- Temporal redundancy를 줄이는 것이 관건
- 방향성 측면에서 다양한 시도가 이루어지고 있는 단계
- 베이스 기술의 성능 편차 때문에 오히려 Temporal redundancy제거 측면에서는 우열을 가리기가 어려움
- 베이스 기술편차에 따른 bias를 배제하고 Temporal redundancy제거 성능을 어떻게 비교할지가 관전 포인트
- 당분간은 이미지 압축 기술의 성능에 상당한 영향을 받을 것으로 보임

이 블로그 검색

지식 기록