20221102수-10th of Pstage
공부
범주 별로 평점의 차이가 있는지 확인해보기. 그럴 것이라 생각은 하고 있었지만, 확실히 종교와 청소년용 작품이 높은 평점을 받고 있다.
범주 별로 읽은 나이층은 어떠한가? 엄청 도드라지는 것은 아니지만, 청소년용은 어린 층이 많이 본다. 나라로 분류된 쪽에서는 오히려 20대가 30대를 넘기고 있는데, 아무래도 이건 내가 잘못 분류해서 그런 게 아닐까 하는 생각이 든다.
요컨대 이게 어마무시한 뻘짓이었다는 것..?😭
범주마다 나이대 별로 어떻게 평점을 내리는지도 확인해볼 수 있을까? 삼중으로 해야하는 것 같은데.. 그러면 엄청 어렵지 않으려나. seaborn으로 뭔가 쉽게 할 방법이 있을 것 같으면서도 그쪽은 아직 강의도 제대로 다 못 들어서 조금 쉽게 할 수 있을 것 같지는 않다.
데일리 스크럼
또 여태 한 것들에 대한 공유. 나는 어제 만들어낸 것을 공유했고, 복기님은 아직까지 모델을 통해 범주 결측치를 메꾸는 작업을 하고 있는 듯하다. 살짝 다들 지금 무얼 해야할지 확실하게 정한 게 없는 상태인 듯. 사실 나도 그러하다. 처음에 하고 싶었던 것들이 분명 있는데, 이것들은 너무 단순한 수준의 것들이었고 지금 단계에서는 이제 그다지 필요없는 것들 같기도 하다.
지역 보완
나온 이야기 중에 지역 결측치를 메꾼 것을 아예 문화권으로 분류해서 제출하는 게 어떻냐는 이야기가 나와서 한번 그리 해봤다. 줄이고 줄인 지역은 60개 정도밖에 되지 않기 때문에 어렵지 않게 해낼 수 있었다. 최종적으로는
이 그림을 토대로 문화권을 엮었다. 사실 문화권 간의 차이는 느낌으로만 알고 있는데 이 정도로 묶으면 괜찮지 않으려나.
이것들은 처음에 종교권으로 묶으려고 생각하면서 찾아봤던 자료. 그러나 곧 폐기할 수밖에 없었던 것이, 유럽권과 남미권을 같은 것으로 묶어버리자니 너무 다른 문화권으로 느껴졌다. 거기에 그렇게만 생각하면 필리핀도 기독교로 들어가게 되는데 이게 맞나 싶었다.
문득 드는 생각에, 데이터를 전처리한다는 것이 무슨 의미를 가지는 것일까. 지금으로서 드는 생각은 사실 잘못된 값을 처리하는 것이 가장 중요한 게 아닐까 한다. 내가 함부로 군집화를 하는 것은 오히려 내가 파악하지 못한 데이터의 패턴을 내가 훼손하는 꼴이 되는 것이 아닐까. 카테고리를 묶은 것도 그렇다. 나라의 이름이 쓰여있다는 것만으로 country라고 묶는 것은 정말 그 나라에 대한 정보가 유의미하게 적용될 수 있는 그 가능성을 훼손한 것 같다. 한편으로는 끽해봐야 라벨 인코딩이 되기에 한 글자라도 틀리면 다른 라벨로서 인식되는 상태를 내가 개선해주는 것은 분명 의미가 있을 것 같다. 가령 america와 ameica는 똑같도록 바꿔주는 게 좋다는 것이다. 이런 맥락에서 잘못된 값을 전처리한다는 것이다.
그렇다면 무엇이 잘못된 값이냐? 단순히 오타만 잘못된 것인가? america와 usa는 묶어주는 게 좋지 않은가? 20th america novel과 america novel은 엮어주는 게 좋지 않은가? 그 속에 내가 발견하지 못한 패턴이 있을 가능성은 없는가? 현재 이런 것들이 어떻게 데이터를 다뤄야 하는가에 대한 내 주요 고민 지점 중 하나인 것 같다. 데이터를 가공한다는 것은 사실 어떻게든 내 의지가 개입한다는 것이고, 그 의지는 어쩌면 데이터를 훼손하는 결과를 낳을지도 모른다. 정말 나이의 결측에는 내가 모르는 이유가 있을지도 모른다. 함부로 내가 그것을 메꿨다간, 그 속의 이유를 감추는 꼴이 되어버릴지도 모른다.
데이터 분석이라는 게 이런 걸까, 꿰뚫는 직관과 확실한 통찰력이 필요할 것 같다.
윽. 생각이 계속 꼬인다. 내가 결국 생각하는 요점은 결측치 자체를 메꾸는 것보다는 오히려 잘못된 것을 바로잡는 것이 핵심이란 것이다. 물론 결측이 되지 않을 수 있는 것이 결측이 되어있다한다면 그것은 바로잡을 만하다. 그래서 다시금 드는 생각으로 출판사와 작가, 제목을 조금 훑어봐야할 것 같다. 같은 출판사인데 다른 이름으로 되어있다면 그것은 수정을 하는 게 좋지 않겠나? 지금까지 너무 나이와 범주의 결측을 메꾸는 데에만 몰두를 한 것 같다.
출판사 보완1
014로 시작하는 isbn들이 출판사를 찍어봤다. 몇 개는 다른 것들도 있지만, 보다시피 대체로 펭귄으로 시작하고 있는 출판사들을 볼 수 있는데, 실질적으로 이 회사들은 같을 확률이 높다고 본다. 출판사가 출판한 나라의 정보가 들어가있기도 하고, 법인이라는 표시가 따로 들어가있는 경우도 있다.
갯수로만 78개, 이거 고쳐주면 조금 좋아지겠지?
위에서는 앞 세자리만 활용해서 출판사 정보를 알아봤는데, 이번에는 0140해서 4자리로 보았다. 이것이 스페셜 미션에서 제시하는 방식인데, 엄밀히 보자면 이것도 조금 다른 것들이 끼어 있어 보인다.
현재 데이터 상에서 가장 많이 찍히는 출판사는 harlequin이었는데, 비슷한 이름의 출판사가 몇 보인다.
스페셜 미션에서 진행한 것을 그대로 가져와서 비교해봤다. pocket이 갑자기 1등으로 치고 올라오는데, 이거 괜찮은 게 맞는 걸까?
피어세션
여태 모델 팀에서 사용하고 있는 데이터에는 출판사와 작가에 대한 전처리가 되어 있지 않으므로, 나는 이것을 계속 파볼 생각.
복기님은 결국 딥러닝 모델로 범주 결측치를 채우는데 성공하셨다. 결측치를 메꾼 이후에 k-modes 클러스터링을 하셨는데, 이걸로 모델팀에서 돌려보니 결과가 조끔은 더 좋았다고... 이대로 k-donggun 클러스터링 무너질 쏘냐,
이전에 내가 계속 마음에 걸렸던 것들을 다시 수정해서 도전해보자! 범주 처리하겠답시고 연구한 내 모든 범주와 키워드들을 한번에 정리해냈다. 사실 더 채울 수도 있는데, 여기에서 추가적인 작업은 하지 않으련다.. 이정도 했으면 충분하지 뭐. 복기님과 순서가 다르게, 나는 먼저 결측을 채우기 이전에 클러스터링을 했는데, 이것으로 혹시 결측치를 채워줄 수 있는지 복기 님한테 부탁을 드렸고 복기 님이 수락해주셨다. 만들어진 파일로 현욱 님이 한번 돌려주시면 될 듯하다. 내가 한 것이 의미가 있었으면 좋겠는데.. 물론 이것을 하면서 판다스에 익숙해졌다지만, 그래도 성과가 없으면 조금은 마음 아프잖냐..
얼결에 또 1등을 먹었다. 이게 정말 야매인 것이, 그냥 최근에 만지고 있는 모델과 내가 대충 만들었던 모델을 앙상블시킨 결과라는 것. 그냥 한번 해볼까 하면서 한 것이 정말 1등을 먹어서 다들 경악을 금치 못했다! 김칫국 한 사발씩 들이키고 이거 발표는 어떻게 해야 하냐 재밌는 상상도 해봤다.
그러나 우리는 아직 할 게 조금은 더 남아있다. 일단 내가 하는 것들도 조금은 마무리지어봐야겠지.
출판사 보완2
위에서 했던 것들에 이어서, 조금 내가 손 볼 만한 것들만 확인해보자. 나는 처음에 isbn의 앞 3자리만 써도 될 것이라 생각했지만 웬걸, 3자리를 써도 서로 다른 출판사들이 있는 것을 확인해버렸다. 그래서 4자리를 기준으로 하는 게 차라리 나을 것 같다. 물론 4자리도 완벽하지는 않다. 조금이지만 다른 출판사들이 섞이는 게 있는 듯했는데, 그 수가 적어서 어느 정도는 무시해도 되지 않을까 생각한다. 그리고 이제 내가 남은 것들을 직접 처리하기. 그 이후에 갯수가 너무 적은 출판사에 대해서는? 일단 5개 미만을 others로 치환하고, 치환하지 않는 두가지 파일을 만들어서 둘다 올려서 돌려달라고 해보자.
이게 현재 있는 출판사들. 더 이상 학습셋의 출판사까지 확인하지는 않으려고 한다. 이번에는 출판사를 지나치게 많이 줄일 생각이 없기 때문이다. 적당히 남길 것들은 남기고, 최대한 같은 것이 다르게 취급되는 것만 없애보려고 한다.
상위 권에 해당하는 놈들만 조금 처리해본 것. 아래 있는 것들도 조금이라도 묶을 수 있는 게 있나 훑어봤는데, 일단 그런 게 많지도 않았을 뿐더러 애매하게 같은 회사인지 헷갈리는 것들도 있었다. 결과적으로는 일단 5개 미만인 출판사를 others로 묶어서 올렸으니, 나중에 확인해봐야겠지.
회고 및 다짐
결국 만들어서 올리고 나니 수정된 것이 조금 더 결과가 좋다는 연락을 받았다. 크게 영향이 있지는 않지만, 미세하게 영향을 받는 모양이다. 조금씩이라도 줄일 수 있으니 얼마나 다행이냐! 이제 작가에 대해서 조금만 손을 대보고, 내 모델을 만지는 작업을 하려고 한다. 내 모델과 다른 모델을 앙상블해서 결과가 좋았다니, 내 모델을 조금 더 좋게 만들어서 더 좋은 결과를 내보고 싶어졌다. 내가 처음부터 손대보고 싶었던 것, 콜드 스타트. 분업이 정해지면서 자연스레 의식 속에서 벗어났던 그 문제. 그럼에도 프로젝트 기간 내내 가장 손대보고 싶었던 파트였다. 아마 남은 시간 내에 다 마치지 못할 것이라고 생각이 들어서 조금은 주저되지만, 이제는 이밖에는 더할 것도 없다. 그러고보니 이미지나 텍스트 데이터를 사용해보는 것도 하나의 선택지가 될 수는 있다. 음. 생각해보니 그것도 괜찮겠는걸. 이미지 데이터를 조금이라도 활용해보고픈 팀원이 있었으니 그쪽을 파보는 것도 괜찮겠다. 내가 저번에 찾아낸 방법을 활용하면 괜찮은 결과를 낼 수 있을지도 모른다. 한번 해보자.
왜 시간이 쪼들리니까 이렇게 생각이 많아지는가..?
그러고보니 조금 고민이다. 오늘은 조금 밤을 새볼까? 어차피 내일 내내 대회에 집중할 것이니까 지금 시간을 쓰나 내일 시간을 쓰나 도긴개긴인 것 같아서.
팀원 한 명이 떠나가는데, 조금 아쉽다. 동료를 조금 더 이끌어주지 못해서. 나는 부캠하기 위해 매일 6시간씩 하던 게임을 끊었다. 폐인이 되고자 게임을 했으니 폐인에서 벗어나기 위해 게임을 끊는 것이 당연했고, 금단 증상은 있었지만 나를 더 몰아붙여서 넘겼다. 사람 습관이란 게 그렇다. 몇 년씩 길들여온 습관도 이 악물고 고치려면 고쳐진다. 머슬 메모리와 같이 어떤 재주에 익숙해지는 것과는 별개로 행동에서의 항상성은 생각보다 크지 않다는 것. 군대에서 당직을 설 때도, 택배 일을 할 때도, 결국 나는 그 생활 패턴에 녹아들었다. 그래서 팀원에게도 나처럼 그러기를 살짝 바랐다.
하지만 나는 이 길밖에 없다고 절박함을 들이밀며 하는 타입이고 팀원은 또 나와 다르게 생각하고 다르게 살아가는 타입이니까, 섣불리 이런 것을 조언해주지 못 했다. 근데 지금 생각해보면 조금이라도 이런 말들을 해줄걸 그랬나 싶기도 하다. 그 사람에게도 자신을 변화시키고자 하는 의지가 조금은 보였는데, 어쩌면 그 의지가 혼자 꽃 피우기에는 너무나도 여렸을 지도 모른다. 그때 내가 뭐 대단한 놈은 아니지만 조금이나마 양분을 보탤 수 있었다면, 우리와 계속 함께 버텨나가고자 더 노력하려고 하지 않았을까. 필요할 때 도움의 손길을 내미는 게 동료 아니겠냐. 그래서 아쉬운 거다.
그것을 못 알아챈 것도 내 한계이겠거니, 하지만 평하겠다. 한번쯤은 꼰대처럼 보일지 몰라도 아쉬운 말 던지고, 진심어린 조언을 건네보는 것이 좋았다. 조금 더 면밀하게 상대의 마음을 들여다보는 편이 좋았다. 지금 내가 아쉬운 마음 가지는 것은 한번도 시도해보지 않았다는 것에서도 기인한다. 시도라도 해봤다면 이런 아쉬움은 없었을 터, 그러니 다음에는 이 마음 가지고 조금 더 나은 내가 되어있기를 바라본다. 이미 퇴소 메일을 보냈다니 그 사람을 회유하는 것은 너무 늦었고, 내 인생에 이런 순간이 이번만은 아닐 것이다.
동료에게는 다른 방향이더라도 앞길을 응원해줄 따름이다. 생각해보니 그 정도 이야기는 건네볼 수 있겠구나. 흠. 프로젝트 끝나고 짧게나마 dm을 보내는 것은 괜찮겠다.