KDD’21와 SIGIR’21에서 엿보는 검색 및 데이터 사이언스의 최신 연구 개발 트렌드

여름은 무더위의 계절이지만 학회의 계절이기도 합니다. 검색 및 데이터 사이언스 분야의 메이저 학회인 KDD’21와 SIGIR’21이 최근 마무리되었습니다. 온라인 학회라는 특성상 새로운 곳을 방문하고 사람들과 교류하는 경험을 할 수는 없지만 새로운 지식과 연구 성과를 접하는 학회의 본질은 여전합니다.

학회를 최대한 잘 참석하는 방법?

DnA 팀원중 많은 분들이 SIGIR과 KDD에 참석하여 많은 배움을 얻었습니다. 특히 KDD의 경우에는 업무 관련 일정이나 미팅을 조정하여 정참석자들이 일주일동안 학회에 집중하실 수 있도록 하였습니다. 학회가 처음이신 팀원들을 위해 다음과 같은 가이드도 드렸습니다.

이를 요약하면 학회 초보는 튜토리얼 / 중급자는 논문 / 상급자는 워크샵에 집중하는 접근법입니다. 튜토리얼에서 해당 분야의 기초 지식을, 논문에서 최근에 보고된 연구 성과를, 워크샵에서 현재 진행중인 연구 성과를 확인할 수 있기 때문입니다.

키노트: 데이터 사이언스의 변화하는 본질

우선 인상적이었던 키노트는 스탠포드 인포랩의 Jeffrey D. Ullman 교수의 데이터 사이언스의 변화하는 본질에 관한 것이었습니다. 그는 학계의 관점에서 데이터 사이언스를 수학과 통계의 방법론을 기본으로 하는 CS와 기타 과학의 접점으로 설명합니다. 데이터 사이언스의 정의는 항상 논란을 가져오는 주제인데요, 좀 더 관심 있으신 분은 관련 아티클을 참고하시면 될 것 같습니다.

논문: 네트워크 상에서의 온라인(AB) 테스트

이번에는 페이스북에서 나온 네트워크 상에서의 온라인(AB) 테스트에 관한 논문을 소개합니다. 온라인 테스트는 실험 단위(보통 사용자) 간의 독립성을 가정하는데, 페이스북과 같은 소셜 네트워크에서 실험을 하다 보면 이런 전제가 깨지게 됩니다.

따라서 이런 환경 실험을 수행하고 올바른 결과를 얻기 위해서는 구성원간의 연결고리를 최소화해야 하는데, 본 논문에서는 이를 위한 방안으로 클러스터링을 제안하고 있습니다. 사용자간의 연관도를 가지고 클러스터링의 수행하고, 이 결과물을 기준으로 실험군을 구분하면 실험군 간의 간섭을 최소화할 수 있습니다. (아래 그림에 자세히 설명)

튜토리얼: Mixed Method Development of Evaluation Metrics

마지막으로 Spotify의 연구자들이 진행한 온라인 지표 개발에 대한 튜토리얼을 소개합니다. 대부분의 온라인 서비스에서는 지표에 대한 고민을 하게 되고, 보통 성숙한 온라인 테스트 환경에서는 의사결정에 수백~수천개의 지표를 사용하게 되는데, 본 튜토리얼에서는 사용자 연구와 데이터 분석을 결합한 지표 개발의 방법론을 소개하고 있습니다.

이렇게 수많은 지표 가운데 무엇이 서비스의 성공과 직결되는지는 실제로 많은 회사에서 고민하는 부분입니다. 본 튜토리얼에서는 방법론의 사례로 아래와 같이 Spotify에서 사용자의 성공과 연결되는 지표를 개발하고 평가한 과정을 소개하고 있습니다. 단순히 CTR 및 Top Position Click을 보던 방법에서 다양한 성공 지표를 정의하고 이를 통해 제품 개선에 좀더 민감하게 반응하는 성공 지표를 정의하였습니다.

결론: 학회는 성장하는 데이터 사이언티스트 / 엔지니어의 친구!

이번 포스팅에서는 최근 있었던 학회에서 DnA 팀의 주 연구 개발 분야에 관련된 컨텐츠를 살펴 보았습니다. 온라인 학회의 특성상 현장의 느낌을 살리기는 힘들지만, 더 많은 사람들이 학회 컨텐츠를 접할 수 있다는 장점이 있습니다.

성장을 원하는 데이터 사이언티스트 / 엔지니어분이라면 학회에 직접 참석하거나 홈페이지에 공개된 발표 내용을 온라인으로 보시는 것을 추천합니다. 그리고 조만간 DnA 팀의 연구 개발 성과를 이런 학회에서 공유하기를 기대해 봅니다!

(네이버 검색 DnA팀의 여정에 함께할 분께서는 DnA 팀블로그의 소개 페이지를 참조 바랍니다.)

스냅(Snap Inc.)에서의 1년

스냅(Snap Inc)으로 회사를 옮겨 스토리 검색 기능을 런치하고 글을 썼던 것이 엇그제같은데, 어제부로 입사 1년을 맞이했다. 개인적으로는 이사 3번에, 첫아이 출산에 정신없는 한해였고, 입사 1년을 돌이켜보면 항상 즐거운 일만 있었던 것은 아니지만 지금 돌이켜보면 후회없는 선택을 했다는 확신이 든다. 오늘은 입사 1년을 통해 배우고 느낀 점을 정리해볼까 한다.

스냅이라는 회사

생긴지 5년도 안되었지만 항상 화제의 중심에 있는 젋은 회사에서 일하는 것은 롤러코스터를 타는 듯한 경험이었다. 입사 직후였지만 IPO의 흥분도 맛보았고, 곧이어 경쟁사의 압박과 회사를 전통적인 SNS의 잣대로 평가하는 언론의 영향으로 회사의 평판이 바닥까지 떨어지는 것도 경험했다. 최근에는 다시 월가의 기대를 뛰어넘은 실적을 발표해서 주가가 한참 올랐다가, 다시 디자인 개편에 대한 비판이 쏟아지면서 여론의 뭇매를 맞고 있다.

IPO 직후 보낸 메일에서 스냅의 창업자이자 CEO 에반 스피겔은 ‘우리의 여행은 이제 시작이다’리고 했는데, 그 말은 농담이 아니었다. 에반으로 말할것같으면 졸업을 3학점 앞두고 스탠포드에서 중퇴를 선택한 인물이다. 이런 창업자의 정신은 스냅의 여러 제품에 잘 나타나 있는데, 텍스트 중심의 기존 SNS와 달리 ‘카메라가 곧 키보드’라며 지워지는 영상과 비디오를 중심으로 하는 스냅챗의 출발, 그리고 타임라인과 반대로 시간순으로 재생되는 스토리 기능 등 스냅의 현재를 만든 제품은 대부분 기존 SNS의 공식을 뒤집은 결과물이다.

이런 스냅의 혁신은 현재진행형이다. 최근에 발표한 스냅챗의 디자인은 초기 화면인 카메라 왼쪽에 친구들의 대화와 스토리를 볼 수 있는 프랜드피드, 그리고 카메라 오른쪽에 각종 매체 및 인플루엔서들의 공유한 스토리 등을 보여주는 디스커버피드가 있다. 친구들의 근황과 각종 링크 및 뉴스를 한곳에 보여주는 기존의 SNS에 또다시 반기를 든 것이다. 시도 때도 없이 갖가지 알람을 보내서 사용자를 유혹하고, 클릭을 유도하는 가짜 뉴스가 범람하는 SNS 공해의 시대에, 스냅은 개인적인 소통과 뉴스 및 매체 소비를 분리하는 것이 바람직하다는 방향을 세운 것이다.

스냅에서의 데이터 과학

필자가 회사를 옮길때 가장 중요한 고려사항중 하나는 ‘흥미로운 데이터를 가진 회사인가?’였다. 그만큼 데이터 과학자에게 좋은 데이터는 중요한 고려사항이다. 그런 의미에서 하루에 평균 30개 이상의 스냅(사진 및 비디오)을 보내는 2억명의 열성적인 유저들의 삶에 필수적인 스냅챗의 데이터는 분명 매력적인 것이었다. 사용자들의 삶에 가장 소중한 순간들이 스냅으로 가장 친한 친구들과 교환되기 때문이다. 스냅챗 사용자들이 공유하는 일상이 궁금하다면 스냅 맵의 웹버전을 사용해보자.

스냅챗의 사용자들은 자신의 스냅을 선택적으로 공개할 수 있는데, 많은 유명인이나 인플루엔서들은 그렇게 자신의 팬들에게 친밀한 일상을 전하고 있다. 여기에 작년부터 필자가 속한 SF오피스에서 개발하기 시작한 검색 및 추천 기능이 들어가면 스냅챗은 세상 곳곳에서 지금 일어나는 일을 사진과 비디오로 생생하게 알 수 있는 플랫폼이 된다. 유튜브의 실시간 버전이라고나 할까. 여기에 WSJ, Wired 등 유수 언론사에서 스냅챗 전용으로 만들어 매일 공개하는 뉴스까지 더하면 스냅챗은 모바일 시대의 TV가 된다.

구글과 페이스북이 온라인 광고 시장을 장악하고 있지만 아직도 가장 파이가 큰 대형 브랜드 광고는 TV의 영역이다. 하지만 전세계의 젊은이들은 TV 대신 모바일폰에서 대부분의 시간을 보낸다. 스냅챗은 주 사용자층인 10대-20대들의 감성과 라이프스타일에 최적화된 모바일 매체 경험을 제공할 수 있는 위치에 있다. 페이스북이 처음에 타임라인을 도입했을때 여론의 뭇매를 맞았지만 결국 성공했듯이, 최근의 대대적인 디자인 개편은 이런 스냅챗의 비전을 실현하기 위한 초석이 될 것이다.

스냅의 CEO 에반이 제품 디자이너 출신인만큼 스냅은 디자인 중심의 회사였다. 하지만 회사와 팀이 성장하면서 데이터를 활용해서 제품 개선을 이끌어내려는 노력도 활발하게 이루어지고 있다. 특히 엔지니어들이 주축이 되어 만들어진 SF오피스는 실리콘 벨리의 데이터중심 문화를 제품 디자인에 강한 LA 본사의 문화와 접목시키려는 시도를 꾸준히 해왔고, 실제로 지금은 스냅에서 데이터과 디자인이 혁신의 두 축으로 확고히 자리잡았다.

스냅과 같이 젊은 회사의 데이터과학자로 일하는 것은 바쁜 일이다. 업무 영역도 넓고 제품 자체도 끊임없이 진화하기 때문이다. 하지만 필자가 일하는 SF 오피스의 동료들은 스냅챗 사용자들 만큼이나 열정적인 사람들이다. 지난번 글에서도 밝혔지만 열정적인 사람들 곁에서 일하다보면 자연스럽게 열심히 일하게 된다. 하지만 실리콘밸리의 많은 회사들처럼 회사의 문화는 매우 자유로운 편이라 언제 어디서 일을 하던지 별로 신경쓰지 않는 편이다. 출퇴근 거리가 긴 필자의 경우 일주일에 하루 이틀은 집에서 일하고 있다.

스냅의 SF오피스는 만들어진지 2년이 채 안되었고 검색 및 추천 등 스냅의 핵심 데이터 프로덕트를 담당하는 많큼 구글, 페이스북 등 더 크고 안정적인 회사에 있다가 새로운 도전을 찾아 스냅챗에 조인한 엔지니어들이 많다. 검색 및 추천과 관련된 프론트엔드 개발 및 머신러닝도 SF오피스에서 담당하고 있다. 스냅의 SF오피스에서는 올해도 계속 규모를 키울 계획으로 꾸준히 개발자 및 데이터 과학자를 채용하고 있으니 관심있는 분들은 필자에게 연락 바란다! (jink at snap dot com)

맺음말

1년 전 MS에서 입사 5년을 앞둔 필자의 삶은 참으로 편안했다. 익숙한 환경에서 연구자로서 보람있는 일을 하면서 논문도 쓰고, 남는 시간에 시애틀 주변의 아름다운 자연을 즐기며 편안하게 사는 삶도 나쁘지 않았을 것이다. 하지만 필자는 도전을 선택했고, 지금은 그 결과에 만족한다. 같이 MS에서 일하던 필자의 아내도 출산을 마치고 회사를 옮겨 지금은 넷플릭스에 국제화 담당 PM으로 일하고 있다. 게다가 이제 9개월이 된 필자의 딸 애린이도 무럭무럭 자라고 있으니 감사할 일이 많은 한해였다.

회사일만 하기에도 바쁜 일상이지만, 필자는 데이터를 통해 몸담은 회사 뿐만 아니라 세상에 공헌하는 활동을 꾸준히 실천하려고 한다. 이런 이유로 MS에 근무하고 있을 때는 밤마다 글을 써서 헬로 데이터 과학을 출간했지만, 지금은 그런 사치는 허락되지 않는다. 대신 주말마다 동종 업계의 전문가 분들과 데이터 지능 팟캐스트를 녹음하는 것으로 소통의 욕구를 충족시키고 있다. 필자와 여러 데이터 전문가들이 들려주는 데이터 과학과 인공지능 이야기가 궁금한 분들은 데이터 지능 팟캐스트를 꼭 듣기 바란다.

추신: 본 글은 필자 개인의 의견으로 Snap Inc.의 의견을 대변하지는 않습니다.