20220930
데일리 스크럼
어제 무엇을 했고 오늘 무엇을 할 것인지에 대한 간략한 이야기. 강의 관련 질문거리나 논의 주제를 생각해오면 좋겠다 생각했지만, 각자 나가고 있는 진도가 달라서 이게 잘 될지 모르겠다 싶어서 이야기는 하지 않았다. 결과적으로는 팀 회고록을 작성한 후에는 이코테 알고리즘 문제를 하나 푸는 시간을 가지게 될 것 같다.
멘토 1:1 미팅
이하경 멘토님과의 1:1 미팅. 팀 미팅을 할 때는 내가 모르는 게 너무 많은 상태로 물어보면 오히려 다른 사람들에게 방해가 될 수도 있겠다는 생각에 하지 못했던 아주 기본적인 영역의 질문들을 했다. 멘토님이 성실하게 답변해주셔서 내 궁금증이 많이 해소된 것 같다.
- AI 관련 직군의 세부 직종을 알고 싶다. 말은 많이 들어봤지만, 어떻게 구분되는 것인지, 어떤 일을 하는 것인지 이런 것은 찾아보기가 은근히 힘들었다. 또 어느 직종이 높은 학력을 요구하지 않으면서 도전해볼 만한지도 궁금하다.
데이터 분석가, 데이터 사이언티스트는 주로 모델링을 하며 AI 모델의 구조를 설계하는 사람이라고 할 수 있다. 그리고 그 모델을 통해 도출되는 유의미한 데이터를 추출하고 그것을 분석하는 사람. 업무 중 80퍼센트는 EDA에 투자된다(내가 제대로 들었는지 모르겠다).
ML 엔지니어는 위의 직종이 업무를 할 수 있도록, 인프라를 만들어주는 사람이다. 어디에서 일을 하든, 데이터는 언제나 지속적으로 생긴다. 그러한 데이터를 저장하고 모델이 받을 수 있도록 적당하게 가공하거나 피딩하는 일을 한다. 또 모델 클리닝(이게 정확하게 뭘 뜻하는 걸까?)을 하는 직업이 이쪽이라고 할 수 있다.
AI 리서쳐도 있다. 이쪽은 정말 새로운 모델을 연구하고, 실험하는 연구직이다.
리서쳐의 경우는 확실하게 높은 학력을 요구한다. 그리고 데이터 사이언티스트 또한 업무 현장을 보면 석사 학위를 가지고 있는 사람들이 많다. 그래도 이쪽은 데이터를 다루는 경험이 많다면 충분히 도전해볼 수 있는 영역이다. ML 엔지니어는 학위보다는 ML 구조 관련한 기본 지식을 가지고 있어야 하고 또 backend 경험이 중요하게 작용한다고 한다. 그렇지만 백엔드는 ai 관련 지식과 비교해서는 금방 쌓을 수 있는 지식이기에 따지자면 중요도는 상대적으로 낮다고 볼 수 있다.
- 최근 data-centric AI 강의를 듣기도 했고, AI라는 것을 생각해봤을 때, 데이터를 주로 다루는 게 주된 실무가 아닐까 생각이 많이 들었다. 모델링은 한번 완성하고 나면 보수의 작업만이 있을 것 같은데, 데이터의 경우는 지속적으로 업무 소요가 발생할 것 같다. 그래서 아직은 막연해서 무슨 일을 하게 될지 모르지만, 한다면 데이터를 다루는 류의 일을 하는 게 좋겠다는 생각을 하고 있는데, 정확한 직종이 있는 것인지? 있다면 난이도는 어떤 편이고 내 입장에서 도전할만한지. 무엇을 준비해야 하는지, 전망은 어떠한지.
데이터 엔지니어라고 분류할 만한 직종이 또 있다. 데이터에 대해서 전문적으로 가공하고 추출하는 일을 한다. 최근에 이러한 직종을 뽑는 경우가 많다. 수요가 많지만, 또 요구하는 스펙이 높기도 한 듯. 하지만 사실 업무의 질적 난이도는 모델링보다 낮을 수도 있다(물론 양은 많을지도 모른다.. 는 건 내 생각). 이쪽은 데이터를 대용량으로 처리할 수 있는 능력이 필요한데, 시스템 디자인과도 연관되는 부분이다. (ML 엔지니어와 하는 일이 겹치는 편인 것 같다) 이것도 인프라를 만드는 영역의 일이라고 할 수 있겠다.(데이터 중심의 설계라는 책이 도움이 된다는 것도 말씀해주셨다.)
- 그렇다면 부캠에서 그러한 분야의 지식을 얻을 수 있는가?
직접적으로 배우지는 않을 것이다. 그러나 프로젝트를 들어가게 되면 결국 수요가 발생해서 알아서 공부하게 되는 순간들이 있을 것이라 본다. 이런 영역은 직접 공부해나가는 게 더 좋을 것이다.
어차피 부캠에 있는 것을 공부한다고 취업을 할 수 있는 것은 절대 아니다. 부캠만으로 취업한다는 것은 조금 운에 가깝다. 중요한 것은 부캠에서 가르치는 것들을 흡수하고 내 것으로 만든 후에 그것을 다른 곳에 적용해보는 것이다. 부캠 이외에도 지속적으로 경험을 쌓아나가야만 한다.
- 혹시 게임 관련 진로에서의 AI는 전망이 어떠할지. 최근에 찾아본 바로, 메이플스토리에서 따로 데이터 분석가 채용 공고를 내기도 하고, 아예 넥슨에는인텔리전스 랩이라 하여 게임 관련 데이터를 활용하는 부처가 있는 것을 보았다.
게임은 100퍼센트 인공적으로 만들어지는 산업이라 AI 수요가 없을 수가 없을 것이다. (원래 하려던 질문은 내가 무엇을 준비하는 게 좋을지에 대해서였으나, 게임 산업에 관한 질문이라 멘토님이 도움을 주기 어려운 영역일 것이라는 생각이 들었다.)
- 논문을 리뷰하는 것은 얼마나 도움이 되는가? 이것은 취업을 위한 스펙이 되어줄 수 있는가?
논문을 읽는 것은 사실 논문과 친해지고, 익숙해지는 것에 있다고 볼 수 있다. 사실 논문 그 자체를 읽는 것은 그렇게 중요하지 않을 수 있다. 취업과 직관되는 것은 절대 아니다. 오히려 논문을 정리해둔 글을 보는 게 훨씬 도움이 될 수도 있을 것이다. 그렇지만 아키텍쳐를 다루는, 유명한 논문들은 직접 읽어볼 만한 가치가 있기는 할 것 같다. CNN이라던가 Transformer 등등의 비록 다른 도메인이기는 하나 그런 논문들은 충분히 도움이 될 것이라고 본다.
내가 아는 게 적어서 바로 캐치를 못해 놓친 것도 조금 있는데, 그래도 내가 궁금한 것들을 알아갈 수 있는 좋은 시간이었다. 아무래도 데이터 엔지니어에 대해서 조금 더 알아보는 게 좋을 것 같다는 생각이 들었다.
스페셜 피어세션
랜덤하게 다른 팀의 사람들과 이야기를 할 수 있는 시간. 나는 14조에 속해 다른 팀의 4분을 만나게 됐다. 신상에 대해서는 일기에! 그것보다 느낀 점을 위주로 쓰자면..
우리보다 피어세션을 알차게 쓴다고 생각되는 팀이 많았다. 한편으로 비슷한 팀도 있었다. 본받을 만한 점들이 있었는데, 프리토킹 시간을 가지고 매 피어세션마다 중복되지 않는 5개의 질문을 가져와서 답하는 것 정도가 있었다. 아직 우리 피어세션이 할 때마다 뭘 해야할지가 명확하지가 않은 편이다. 질문거리를 가져와서 이야기를 나누면 의견 교류가 더 원활할 것같아서 피어세션 때 말해봐야겠다.
또, 8주 이후에는 이 사람들과 팀이 될 지도 모른다. 지금 미리 친분을 쌓고, 지금 미리 자기 어필을 하는 시간으로서도 이 시간의 의미가 있었다고 생각한다. 그런 면에서 내가 얼마나 잘했는지는 잘 모르겠지만, 내 의지가 잘 전달되었기를 바란다.
다다음주 오프라인 미팅 때 다들 참석할 것이라고 하던데, 그때 만나서 한번 인사 주고받기로 했다.
피어세션
다른 팀원들을 만나고 이어서 다시 우리의 피어세션으로! 각자 다른 팀원들을 만나고 돌아와서 느낀 것을 공유하는 시간을 가졌다. 그리고 우리의 피어세션이 어떻게 나아가면 좋을지에 대해 서로 이야기를 나눴다. 내용이 워낙에 많았던 지라 다 적기는 힘든데, 한 시간으로 조금 부족해서 마스터 클래스 이후에 다시 모여서 이야기를 나눴다. 일단은 논문 읽는 것은 중단. 이 부분은 멘토 상담 때 하고 있던 생각이었는데 다른 사람들도 어느 정도는 그리 느낀 게 있었던 모양이다. 그리고 다들 코테의 필요성을 느껴서 일주일에 세번 정도, 피어세션 시작 30분 전에 모여서 문제를 풀기로 했다. 데일리 스크럼 시간은 사실 10분이 할당돼있지만, 막상 어제 한 것과 오늘 할 것을 공유하는데 그 정도의 시간이 걸리지는 않았다. 그래서 남는 시간을 tmi로 스몰 토크를 나누는 시간으로 하기로 했다. 이것으로 조금이라도 서로 더 정을 붙이는 시간이 될 수 있기를 바란다.
마스터 클래스
최성철 마스터의 Data-Centric AI. 첫 주차 때도 업스테이지에서 진행되는 Data-Centric AI에 대한 강연을 들었는데, 아직 명확히 진로의 생각이 없던 나에게는 조금 신선하게 다가왔다. 평소 생각으로 AI라는 게 결국 모델 개발하고 나면 그냥 회사 짤리는 거 아닌가? 이런 생각을 하고는 했다. 현재 잘 만들어졌다는 모델도 논문이 다 오픈돼있기 때문에 모델을 만드는 것은 어느 정도 숙련이 된 사람들에게는 어려운 영역이 아닐 것 같아서 정말 AI 관련 종사자들이 얼마나 지속적인 전문 인력이 될 수 있는가에 대한 막연한 의구심이 항상 많았다. 그런데 대용량 데이터를 잘 다루는 것에 대한 것은 모델을 개발하는 것보다 훨씬 더 수요가 많은 일일 것이라고 생각했고, 그러한 생각이 업스테이지 강연 때 조금 공고해졌다. 그리고 오늘 들은 강연으로 또 다시금 더 그러한 생각을 굳히게 된 것 같다.
이제는 pretrained 모델로 학습을 하는 게 아주 당연시되는 시대이다. 기존에 있는 대용량 모델을 가져다 쓰면 훨씬 좋으니까, 성능을 올리기 위한 모델 싸움은 이미 끝났다고 보는 게 마스터의 시각. 만드는 것보다는 잘 활용하는 게 중요한 시대에 온 것이다. 이제 중요한 것은 좋은 데이터를 잘 가져와서 적용하는 것이다.
무슨 데이터가 있을까? 유저가 만드는 입력과 클릭 데이터, 시스템이 만드는 로그나 메타 데이터도 있고, 사용자의 참여로 개선되는 선순환 데이터 등등이 있다. 시간이 지나면서 데이터는 축적되고, 또 바뀌기도 한다. 이런 데이터를 자동화하여 모델에 피딩하는 것도 하나의 업무이고, 그러한 파이프라인을 개발하는 것 또한 일이다.
이런 것들은 단순하게 ML 코딩으로만 되는 것이 아니다. 오히려 하드웨어와 데이터 플랫폼에 대한 폭넓은 이해가 필요하다. 앞으로의 취업 시장에서는 대용량 데이터 경험과 데이터 크롤링 경험이 더 중요해질 것이다.
앞으로 무슨 기술을 알면 좋을까? MLOps, 데이터베이스 다루는 법, 클라우드 사용법, 리눅스, 도커, spark, hadoop 등. 생각보다 엄청 어려운 것들은 아니다. 시간을 내서 공부하는 게 좋다.
결론적으로, 모델로서의 ML이 아니라 이제는 시스템으로서의 ML을 개발해야 한다. AI를 잘 알면서 기획도 잘 할 줄 아는 사람, 모델을 위한 데이터를 어떻게 수집할까부터 기획하는 사람. 모델은 점차 기계의 영역으로 넘어갈 수 있지만, 기획은 여전히 인간의 영역이다. 데이터를 잘 이해하는 것은 분명 큰 무기가 되어줄 것이다. 데이터화되어 있지 않은 것을 데이터화 시키는 것. 이제는 연구자보다는 엔지니어가 필요한 시대가 되어간다.
대용량 데이터를 처리하는 경험은 어디에서 쌓는가? AI Hub에 있는 테라단위 데이터를 찾아보라. 그런 것들을 전처리하고 시간 비용을 줄이는 연습을 해보라. 영어는 하루에 20분 쉐도잉해주는 게 좋다. 데이터 경험은 대학원에서 하기 좋다.
대충 이런 내용들을 강의해주셨다. 이 강의를 들으면서 느낀 것은 내 눈이 틀리지 않았다는 것. 내 관점이 내가 생각하는 정도보다는 더 믿을 만하다는 것. 이걸 확인했으니 이제는 내가 생각하는 부분으로 내 기본기를 다지는 과정이 필요할 것 같다.
공부
어제 밤에 9강까지 들었고, 오늘 10강까지 다 들은 후에 심화과제에 도전했다. 심화과제는 생각보다는 어렵지 않았다. 애초에 직접 작성해야 하는 부분이 많지 않아서 그리 느낀 것 같기도 한데, 아직도 stdv를 어떻게 써줘야 하는 건지를 이해를 못하겠어서 해당 과제를 얼추 끝마친 후에 슬랙에 올려서 물어보고자 한다.
주간 회고 및 다짐
무던히 달렸다. 수면 시간을 침해받지 않는 한에서 많은 시간을 들여서 공부를 했고, 남들보다 늦게 출발했지만 조금은 더 빨리 습득하고 있는 면이 있는 것 같기도 하다. 아는 게 없으니 기초적인 것들을 빨리 익히고 있는 것인 것 같기도 하다. 그럼에도 아직 배울 게 한참 남았다. 어렸을 때는 그다지 목표가 없었는데 지금은 확실하게 사회에서 필요로 하는 인력이 되고 싶은 마음이 크다. 역시 한번 한량처럼 살아봐서 그런 걸까, 마치 전역하고 학기를 보낼 때나 42 처음 들어갔을 때의 기분이다. 뭐든 하고 싶고, 더 강해지고 싶다.
그래서, 주말엔 뭘 하지? 일단 강의를 마저 정리하고 기술 면접 스터디를 어떻게 진행할 것인지 알아봐야겠다. 그리고 과제들을 다시 한번 더 훑으면서 조금 더 파이토치와 친해지는 시간을 가져야 하고, 판다스를 다루는 연습을 해야 한다. 판다스는 유투브 강의가 있어서 그것을 훑을 것이다. 그리고 데이터 엔지니어가 하는 일과, 필요로 하는 회사들을 한번 알아봐야겠다. 이런 쪽은 아무래도 두려워서 그런 걸까 내가 잘 안 알아보는 경향이 있다. 그래서 지금 이렇게 적어둔다. 한번이라도 알아보자!