bpr
어버버.. 최대 사후 확률 추정.. [논문 리뷰] BPR: Bayesian Personalized Ranking from Implicit Feedback
암묵적 피드백 하에 개인화된 랭킹 추천을 해주는 것. 암묵적 피드백은 유저가 선호하지 않아서 없는 건지, 몰라서 없는 건지를 모른다.
선호한다는 것, 확률은 저 세가지 속성을 만족한다. A를 거꾸로 한 문자는 오랜만에 보네..
아이템에 속하는 모든 i와 j에 대해 i와 j가 같지 않으면 i보다 j를 선호할 확률과 j보다 i를 j보다 좋아할 확률의 합집합이 1이다.
데일리 스크럼
금요일 계획 세우기. 토요일에 최종 프로젝트를 위해 데이터를 받아오기.
eda를 돌리고, 피쳐 선별하면서 좋은 점수 찾아보기. 유저별 쪼개기 다시.
주피터 파일로 바로 파일 만들어서 그걸로 돌리기.
일단 내 계획은 무산. 짦은 시간 내에 내가 해낼 거라고 생각은 그다지 들지 않기도 하고, 팀에 조금 더 도움되는 방향이 어떤 쪽일까 생각해봤을 때는, 팀에서 공통 과업으로 내건 것을 하는 게 차라리 당장 나을 것이라는 판단이 섰다.
그래도 너무 깊이 박지는 말고, 간단하게 생각해낼 수 있는 것들만 넣어보자.
fe해보기.
시간별 fe, 유저별. 유저 개인에게 종속되는 것. 누적 평균 정답률.
제출은 m붙은 것으로. 낼때는 두줄 주석하라.
cont_emb는 꽤나 영향 있다. num_head는 1이나 2 차이가 은근히 있는 듯하다.
테스트 대분류, 테스트별 정답률 바이닝, 문항 별 정답률 바이닝
19년과 20년. 19년은 수가 24뿐이라 너무 적다.
우리는 많이 시험을 본 사람을 아예 다른 사람으로 분류해버렸다. 그렇다면 분리된 사람의 각각의 시간을 통해 어느 정도 확연한 차별성을 줄 수 있을지도 모른다.
월별 수가 다르다. 근데 정답률도 꽤나 다르다. 12월과 1월 사이에 무슨 일이 일어나나보다. 이건 사실 성연이가 이전에 공유했던 eda에 있던 내용 중 하나였던 것 같다.
일별로는 평이하다.
월별 일별은? 월 내에서는 그래도 평이한 편인데, 가장 마지막 값은 뭔가 이상치 같다.
시간별 풀이 수 차이가 존재한다. 정답률도 적당한 차이가 존재.
당연하지만 요일별 차이 존재. 정답률은 토요일이 저조한 편.
푼 수는 주차별 차이가 꽤 있다. 정답률은 위에서 본 것과 평이하다.
일별로 봤을 때도 풀이 수에 큰 차이가 존재한다. 아까 월별과 관련있는 지표라고 볼 수 있겠다. 이렇게보니 새삼 월과 일별 차이가 크게 느껴진다.
month+ day, week, quarter는 거의 스무딩을 하냐 안하냐의 느낌이다.
컴퍼니데이 - 파인더스에이아이
고객들의 발걸음을 다시 오프라인 상점으로. cv 기반으로 무인매장 솔루션. 롤모델이 잇다.
무인매장에서 발전, 아예 고객이 계산하지 않아도 가지고 가는 것을 체크해서 계산을 하는 것을 목표로 함.
거울이 있으면? 외부에서 물건을 가지고 들어오면?
컴퍼니데이 - 쏘카
쏘카 직원은 현재 인당 1000대의 차량을 관리한다.
모빌리티 산업. 오래된 산업이나 it가 결합되어 새로운 서비스가 나온다.
데이터 비즈니스 본부 속에 분석과 플랫폼, 엔지니어링 팀이 분리되어 있다.
유류비에 많은 금액 소비 중. 이상치가 존재함. 분석을 통해 부정사항을 탐지하여 운영에 도움을 줌.
피어세션
stratified를 할지 말지. 하는 게 큰 의미도 없고 오히려 안 좋은 경우가 생기기도 하는 듯하다.
없는건 split에서 뽑은 것.
2는 train에서 64로 나누기
3은 train에서 32로 나누기
4는 split에서
2를 통해 maxseq 64
3을 통해 maxseq 64
3을 통해 maxseq 32
eda 적극적으로.
유저별 정답률
도움받기
이제 대회는 끝났다고 생각하고, 내가 미흡했던 것들을 보고자 전 기수들의 솔루션을 보겠다. 정확히는 어떤 모델을 썼냐를 보는 게 아니라 어떤 eda와 어떤 fe를 했는지. 이런 거는 마치 점화식을 세우는 류의 문제 같아서 내 직관이 부족하다면 차라리 풀이나 방식을 외워서라도 내 것으로 만드는 게 앞으로 내가 다양한 생각을 하는데에 도움을 줄 것이다.
주피터 파일에 내용이 너무 담기게 되면 발생하는 현상인 듯하다. 저장이 안 돼서 껐다 키려니 이게 계속 뜬다. 전번에 모종의 이유로 주피터 파일이 싹 날아간 전적이 있어서 함부로 건드리기 주저된다.
우리는 생각도 못했던, 테스트 별 대분류. 왜 이걸 더 해볼 생각을 못했을까. 멍청하다. 더 진심을 다해서 생각했어야 했다. 더 빨리 익숙해졌어야 했다. 정말 간단한 아이디어인데. 다른 것들은 못해도 그러려니 하겠다. 그래도 이런 부분은 꼼꼼하게 짚었어야지.
내가 생각만 하고 방법을 몰라 막막해 시도하지 못한 것들이 여기에는 잘 실현이 돼있다.
이정도까지 늘렸다. 내 eda와 피쳐 엔지니어링은 정말 애기 걸음마 수준이었다는 것을 새삼 느낀다.
트러블슈팅 중. 메모리와 gpu관련 문제인 듯한데, 많은 사람들이 겪었던 문제였던 모양이다. 해결책은 대체로 로스에 대한 수정을 하는 것이다. 0~9까지의 답이 나와야 하는데 10이 나오는 경우가 있다는 게 화근이라는 듯한데, 일단 이걸 찾으려면 형의 코드를 전반적으로 내가 다시 보는 일이 필요하다. 이건 정말 공부가 많이 되기는 할 것이다.
왤까, 수치형쪽으로 넣으니까 돌아가기는 한다. 차원 문제라고도 하고 로스 문제라고도 하는데, 결국 뭔가 그런 류의 문제라는 거다. 근데 각 피쳐를 직접 볼 때는 별다른 이상이 없어 보여서 알다가도 모를 노릇이다.
밤샘은 오랜만이다. 커피랑 핫식스, 정신력으로 버텼는데 오랜만의 밤샘이니 생각보다 엄청 힘들지는 않다. 아마 잠깐 선잠 들면 자칫하다간 내일 아침까지 잘 지도 모른다. 당직 서고 외박 나왔을 때 집에 도착하고 15시쯤인가 잠깐 누웠는데 일어나보니 다음날 복귀할 시간이었던 기억이 있다. 조심하자.
bpr
적용할 수 있지 않을까 다시 찾아보는 중
데일리 스크럼
말이 데일리 스크럼이지 실질적으로 모여서 최종 취합하는 과정! 일단 gcn계열을 시도하는 것은 실패했다. 한 명이 혼자 해내기에는 너무 주어진 시간이 짧았다. 대체로 내가 가져온 것들을 분석해서 분업하고 취합하는 방향으로 목표를 짜고 실행했다. 동시에 브랜치 정리도 조금 하고.
마지막 스퍼트는 정리를 못하겠다. 너무 피곤해서 중간중간 정신을 살짝 잃을 뻔했다.
회고 및 다짐
수
저번 대회에서도 큰 계획을 세우지 못하는 나의 모습이 단점으로 부각됐다. 이번에도 그 범주를 크게 벗어나지는 못했다. 국소적인 문제에 매몰되는 경향이 살짝 있었고, 그러면서 하려던 다른 문제들을 만져보지 못하는 사태가 일어났다.
중간 과업으로 튀어나오는 요소들이 제대로 머릿속에 저장되지 않았고, 이를 제대로 정리를 해두지도 않아 결과적으로 까먹거나 얼버무리며 넘어가는 일들도 발생했다.
목
총체적으로 나의 부족함이 낱낱이 드러난 대회였다! 막상 끝나니 후회는 없지만, 아쉬움은 너무나도 많았다. 최선을 다한 것에 어찌 후회가 있으랴. 다만 시행착오로 보낸 삽질의 시간들이 다른 시간으로 환급될 수 있다면 나는 더 다르게 행동했을 것이다. 지로보 센세가 말한 쓰레기가 내가 된 기분이기도 하고..
자조하지만, 무너지지는 않을 것이다. 이게 정말 시행착오라면, 이로부터 성장하는 나를 만들어나가겠다.
되었다. 하고픈 말들은 차분히 정리해서 랩업 리포트에 녹여보자.
다만 지금은 정말 피곤하다.. 철야 훈련이나 당직 설 때도 오전 10시에는 잘 수 있었는데 36시간 동안 깨어있는 건 처음이라 내일 어떻게 일어날지 정말 걱정된다. 그러니 오늘은 이만 쉬어야겠다. 재정비의 시간을 가지고, 더 나아가자.
'일지 > 네부캠 AI 4기(22.09.19~23.02.14)' 카테고리의 다른 글
20221213화-movie2, 오프라인 (0) | 2022.12.13 |
---|---|
20221212월-movie1,1~2강 (0) | 2022.12.13 |
20221206화-dkt17 (0) | 2022.12.07 |
20221205월-dkt16 (0) | 2022.12.06 |
20221204일-lgbm졸업 (2) | 2022.12.04 |