DALL·E 2, 완벽한 화가로 변신한 인공지능(AI)
본문 바로가기
인공지능(AI)

DALL·E 2, 완벽한 화가로 변신한 인공지능(AI)

by 동도리동동 2023. 2. 6.
반응형

글만 쓸 줄 알면, 나도 화가?

누군가 "간단한 문구만 입력하면, 그림을 만들어준다."라고 말하면, 믿을 수 있나요? 

"아보카도 모양의 의자", "체스를 두는 로봇, 유화"라고 텍스트를 입력하면, 아래와 같은 그림들이 뚝딱 만들어집니다. 

 

이미지만 만들 수 있는 것이 아닙니다. 기존 그림 위에 새로운 사물을 포함하여, 다시 그려주는 기능도 있습니다. 예를 들어, 모나리자 그림을 주고, 헤어스타일을 바꿔 달라고 하면, 여러 가지 헤어스타일을 하고 있는 모나리자 그림을 얻을 수도 있습니다. 그리고, 강아지 사진을 같이 두면, 모나리자 옆에 강아지가 모나리자와 동일한 화풍으로 그려지도록 만들 수도 있습니다. 

 

이러한 일들을 가능하게 하는 것은 바로 "DALL·E 2"라는 AI입니다. 이토록 사물, 화풍, 빛, 재질 등을 모두 파악하여 그림을 그려주는 신비한 AI, DALL·E 2의 동작 방식과 사용 방법에 대해서 알아보겠습니다. 

 

출처 : DALL·E 2

 

 

 

이미지 생성 서비스, DALL·E 2란?

DALL·E 2는 텍스트 설명에서 이미지를 생성하는 기능을 갖춘 OpenAI에서 개발한 뛰어난 인공 지능 서비스입니다. 이 모델은 기존의 이미지 분류 모델을 사용하여 설명하는 것이 종종 불가능한 개체, 장면 및 추상 개념의 고해상도 이미지를 생성할 수 있는 생성 AI 시스템입니다. 

 

DALL·E 2는 간단하게 말하면, 텍스트를 해석하는 과정을 거친 뒤, 이미지를 해석하는 과정을 거치고, 이 두 가지를 "CLIP"이라고 불리는 대치 과정을 거치도록 하여 만들어집니다. 텍스트를 해석하는 과정을 프라이어라고 하고, Diffusion 모델을 사용합니다. 디코더 과정에서 이미지를 만들어내는데, 이미지를 분석하여 텍스트로 만들 때, 글라이드라는 모델을 사용합니다. 

 

여기에서 Transformer 기반 아키텍처라는 딥러닝(Deep Learning) 기술을 사용하여 작동합니다. Transformer 모델은 언어 번역 또는 이미지 캡션과 같은 시퀀스 간 작업을 위해 특별히 설계된 신경망(Neural network) 유형입니다. DALL·E 2의 경우 Transformer 모델은 텍스트 입력에서 이미지를 생성하는 방법을 배우기 위해, 이미지 및 텍스트 설명의 대규모 데이터 세트에 대해 학습됩니다. 모델은 이 정보를 사용하여, 사용자가 제공한 설명과 일치하는 이미지를 생성합니다. 

DALL·E 2의 핵심 강점 중 하나는 고해상도 이미지를 생성하는 능력입니다. 이는 모델이 실제 이미지와 구별할 수 없는 수준의 고품질 이미지를 생성할 수 있는 GAN(Generative Adversarial Network) 아키텍처를 사용하기 때문입니다. GAN 아키텍처는 이미지를 생성하는 Generator와 생성된 이미지의 품질을 평가하는 Discriminator의 두 가지 구성 요소로 구성됩니다. Generator와 Discriminator는 서로 반대 방향으로 작동합니다. Generator는 Discriminator가 실제라고 생각하도록 속이는 이미지를 생성하려고 하고, Discriminator는 이미지가 실제인지 생성되었는지를 올바르게 식별하려고 합니다. 

DALL·E 2의 또 다른 강점은 다양하고 창의적인 이미지를 생성하는 능력입니다. 이 모델은 다양한 이미지 및 텍스트 설명 세트에 대해 학습받았습니다. 즉, 다양한 개체, 장면 및 개념에 대한 광범위한 지식을 가지고 있습니다. 이를 통해, DALL·E 2는 기존의 이미지 분류 모델을 사용하여 설명하기 어려운 다양한 이미지를 생성할 수 있습니다. 따라서 DALL·E 2는 독특하고 창의적인 이미지를 생성하는 기능이 필수적인 제품 디자인, 광고 및 비디오 게임 콘텐츠 제작을 위한 귀중한 도구입니다. 

 

 

 

DALL·E 2 사용법

1. 사이트 접속 및 가입

https://openai.com/dall-e-2/

 

DALL·E 2

DALL·E 2 is a new AI system that can create realistic images and art from a description in natural language.

openai.com

 

DALL·E 2를 사용하기 위해서는 우선 Open AI 사이트에 접속해서 회원 가입을 해야 합니다. 

이메일로 가입할 수 있으며, 과정이 간단해서 금방 가입할 수 있습니다. 

 

 

2. 사용 방법

Open AI 사이트에 가입한 뒤, "Log In" 버튼을 눌러서 DALL·E 2를 시작할 수 있습니다. 

여러 개 샘플 그림들이 화면에 보이고, 그 위에는 텍스트를 입력할 수 있는 칸이 보입니다. 

 

텍스트를 입력하는 방법은 간단합니다. 이미지로 나오길 원하는 텍스트를 입력하기만 하면 됩니다. 

"노란 지붕과 파란 문이 있는 분홍색 3층짜리 성" 또는 "유니콘을 타고 있는 카우보이 모자를 쓴 판다"와 같이 생성하려는 이미지에 대한 텍스트 설명을 제공하면 됩니다. 그러면 DALL·E 2는 설명과 일치하는 이미지를 생성합니다. 추가로, 생성된 이미지의 크기와 해상도는 물론 세부 detail과 complexity를 조정하면, 최종적으로 완성됩니다.

 

 

 

마무리하며,

DALL·E 2는 이미지 생성의 판도를 바꾸고 있는 최첨단 AI 서비스입니다. 텍스트 설명에서 고해상도 이미지를 생성하는 기능, 다양하고 창의적인 이미지 생성 기능 및 최신 딥 러닝 기술을 사용하는 DALL·E 2는 광범위한 산업에 큰 영향을 미칠 것으로 예상되는데요. 제품 디자이너, 광고주 또는 비디오 게임 콘텐츠 제작자에게 DALL·E 2는 많은 영감을 제공할 수 있을 것으로 생각됩니다. 

 

물론, DALL·E 2는 완벽한 AI 시스템이 아니고, 개선되어야 할 부분들이 있습니다. 폭력적, 혐오, 선정적인 것들에 대해서는 학습시키지 않았고, 무기와 같은 것들도 학습에서 배제되어서, 그리지 않도록 만든 부분이 있습니다. 또한, 승무원을 그리라고 텍스트를 입력하면, 여성으로 그림을 그리는 편향적인 모습도 볼 수 있습니다. 이런 부분들은 기술적으로 풀어나가야 할 부분들이라고 볼 수 있습니다. 반면, 사람이 직접 풀어나가야 할 부분은 "AI가 만든 그림을 예술이라고 볼 수 있을까?"와 같은 철학적인 질문입니다. 앞으로 기술이 보편화되고, 발전되면, 우리 사회에서 충분히 논의되면서 방향이 정해지지 않을까 생각되는데요. 어떻게 결정될지 무척 궁금해지는 부분입니다. 

 

 

 

 

 

반응형

댓글