Auspice by Goorm, Manage by DAVIAN @ KAIST

Lecture: Attention Models

2022-02-21

이번 시간에는 Attention model에 대해서 공부를 진행하였다.

어텐션(attention)의 기본 아이디어는 디코더에서 출력 단어를 예측하는 매 시점마다,
인코더에서의 전체 입력 문장을 다시 한 번 참고한다는 것이다.

단, 전체 입력 문장을 전부 다 동일한 비율로 참고하는 것이 아니라,
해당 시점에서 예측 해야할 단어와 연관이 있는 입력 단어 부분을 좀 더 집중해서 보는 방식이다.


Image Captioning

스크린샷 2022-02-24 오전 10 37 40

스크린샷 2022-02-24 오전 10 39 42

  • 어떤 이미지를 설명하는 문장을 만들어내는 것.
  • Multi modal learning.
  • CNN을 통해 이미지를 처리하고 RNN으로 문장을 만들어냄.

==> RNN의 한계로 좋은 성능을 이끌어내지 못함.

Image Captioning with Attention

스크린샷 2022-02-24 오전 10 42 38

스크린샷 2022-02-24 오전 10 43 44

스크린샷 2022-02-24 오전 10 46 06

  • Attention 메커니즘을 사용하여 RNN의 한계점 보안함.
    • 주어진 이미지 안에서 어느 영역을 보고 지금 단어를 생성할지 결정.
    • 이미지는 여러 component를 번갈아가면서 captioning.
    • 이미지 안에서 특정 단어를 말할때 마다 다른 영역을 봐야함.

Visual Question Answering

스크린샷 2022-02-24 오전 10 49 17

  • 어떤 이미지에 대한 질문의 답은 해당 이미지를 설명하는 속성으로 볼 수 있음.

Sequence to Sequence Model with Attention

스크린샷 2022-02-24 오전 10 56 33

스크린샷 2022-02-24 오전 10 55 48

  • 시퀀스를 입력으로 받아서, 시퀀스를 출력으로 생성.
  • 많은 NLP task 들에서 기본 모델로 활용됨: 챗봇, 기계 번역 등
  • 입력 seq의 마지막 시점의 벡터에 모든 정보를 다 담는것이 버거우므로, 모든 입력 seq의 정보를 조합하여 각 출력 단어를 생성함.

HW5 링크

댓글남기기