유튜브 쇼츠 공장을 차렸습니다

처음에는 말 그대로 공장이었습니다. 기획도 없고, 피드백도 없고, 그냥 찍어내는 방식이었으니까요.

왜 해외였냐면

한국 쇼츠 시장을 살펴보면서 이미 포화 상태에 접어들었다는 판단이 들었는데, 콘텐츠 퀄리티 자체가 높은 데다 비슷한 포맷이 너무 많아서 여기에 자동화 파이프라인을 돌리는 건 비효율이라고 봤습니다.

그래서 기준을 세우고 다른 시장을 골랐습니다. 인구가 많을 것, 모바일과 인터넷 보급이 잘 돼 있을 것, 트렌드를 따라가는 시장이지만 쇼츠 콘텐츠 수준은 한국만큼 높지 않을 것이라는 조건을 두었고, 그 기준에 맞는 특정 시장을 선택했습니다. 어디인지는 노코멘트입니다.

파이프라인은 이렇게 생겼습니다

파이프라인의 흐름 자체는 단순한 편인데, 틱톡에서 지금 흥하는 주제를 확인하고 그걸 유튜브 쇼츠로 만드는 방식입니다.

구체적으로는 세 가지 요소를 씁니다. Pixabay API로 주제에 맞는 이미지를 가져와 이어붙이고, AI TTS로 해당 시장 언어의 목소리를 입힌 뒤, 그 언어로 자막을 추가하면 영상 한 편이 완성됩니다. 처음에는 이 파이프라인을 피드백 루프 없이 그냥 돌리면서 나오는 대로 업로드하면 된다고 생각했는데, 일주일을 그렇게 운영한 결과는 미미했습니다.

직접 틀어보니 보이더라고요

어느 날 실제로 만들어진 영상을 틀어봤는데, 해당 언어를 몰라도 문제가 바로 보였습니다.

같은 니치의 영상에 같은 사진이 반복해서 나오고 있었는데, Pixabay에서 같은 키워드로 긁어오다 보니 이미지 풀이 너무 좁았기 때문입니다. 채널을 확인해 보니 아이콘도 없고 설명란도 비어 있었으며, 주제도 비슷비슷한 영상이 계속 올라가고 있어서 말을 몰라도 “이 채널 운영자가 관심 없다”는 게 느껴질 정도였고, 알고리즘도 사람도 그런 채널은 그냥 넘기게 됩니다.

개선한 것들

문제가 보이니 고칠 것도 보였고, 세 가지를 손봤습니다.

첫째로 니치별로 목소리를 따로 지정했는데, 비인기 언어는 TTS 자체의 완성도가 낮기 때문에 주파수와 음높이를 직접 조정하면서 자연스러운 소리가 나올 때까지 반복했습니다.

둘째로 이미지 생성 방식을 바꿨는데, Pixabay 의존도를 줄이고 SDXL을 직접 설치해서 이미지를 하나하나 생성하는 방식으로 전환했고, 그 결과 같은 이미지 반복 문제는 해결할 수 있었습니다.

셋째로 채널 관리를 세밀하게 조정했습니다. 아이콘, 설명, 주제 분산 모두 손을 댔는데, 공장처럼 돌아가더라도 채널처럼 보여야 한다는 것을 그때 확실히 깨달았습니다.

지금도 돌아가고 있습니다

구글이 AI 생성 콘텐츠의 수익화를 막고 있기 때문에 이 파이프라인으로 직접적인 수익을 내는 건 현실적으로 어렵지만, 수익을 기대하지 않으니 오히려 편하게 개선 사항을 적용할 수 있었고, 영상이 나오는 걸 확인하면서 어디서 막히는지 파악하는 과정 자체가 지금 이 파이프라인을 계속 돌리는 이유입니다.

결국 남은 건 이겁니다

찍어내는 것 자체는 이제 누구나 할 수 있고 파이프라인 하나를 구성하는 것도 어렵지 않은데, 진짜 문제는 찍어낸 것이 누구한테 가닿는가입니다.

니치를 정확히 파악하고 그 타겟이 뭘 원하는지 아는 것이 훨씬 어렵고 중요한데, 이전 글에서 AI 페르소나 얘기를 했을 때와 결국 같은 결론에 닿습니다. 도구를 쓰는 것과 도구를 잘 쓰는 것 사이의 거리는 구현 능력이 아니라 이해의 깊이에서 나기 때문입니다.

공장은 지금도 돌아가고 있는데, 달라진 건 제가 뭘 찍어내는지 생각하기 시작했다는 겁니다.