데이터지능 S2E9 이정윤님 (1) – 캐글 마스터 & KDD컵 우승까지

안녕하세요, 이번에는 캐글(Kaggle) 마스터 및 2015년 KDD컵 우승에 빛나는 데이터 사이언스 컴피티션의 대가 이정윤님을 모셨습니다. 정윤님은 또한 스타트업 & 대기업 (우버/넷플릭스) 에서 데이터 사이언스와 머신러닝을 넘나드는 다양한 업무를 수행하셨고 5남매의 아버지이시기도 한데요, 오늘은 정윤님과 주로 캐글을 중심으로한 DS 컴피티션 이야기를 나누어 보았습니다.

오디오 목차
4:20 DS 컴피티션 참석하계된 계기
12:30 컴피티션에 계속 참석하는 이유
15:00 가장 기억에 남는 컴피티션 (2015년 KDD컵)
22:30 컴피티션 우승의 비법은? (2015년 / 그리고 그 이후)
33:30 컴피티션 경험이 업무에 적용되는 부분? 적용되지 않는 부분?
41:15 컴피티션이 보여주는 DS / ML 트랜드
49:00 캐글 경험이 취업에 주는 도움?
51:00 캐글을 시작하는 방법?
63:00 향후 계획 & 컴피티션의 미래

관련 링크

광고

저는 올해 4월부터 네이버 서치에서 근무를 하고 있고요, 저와 함께 한국/미국에서 네이버 검색 및 추천시스템의 사용자 만족도 및 결과의 공정성 평가 및 개선을 위해 일하실 데이터 사이언티스트 및 엔지니어를 모시고 있습니다. 관심있으신 분께서는 지금 진행 중인 네이버 월간채용에 지원하시거나 (Search CIC밑에 Data / Back-end), 저에게 직접 메일을 주시면 (jin.y.kim at navercorp dot com) 됩니다.

KDD’21와 SIGIR’21에서 엿보는 검색 및 데이터 사이언스의 최신 연구 개발 트렌드

여름은 무더위의 계절이지만 학회의 계절이기도 합니다. 검색 및 데이터 사이언스 분야의 메이저 학회인 KDD’21와 SIGIR’21이 최근 마무리되었습니다. 온라인 학회라는 특성상 새로운 곳을 방문하고 사람들과 교류하는 경험을 할 수는 없지만 새로운 지식과 연구 성과를 접하는 학회의 본질은 여전합니다.

학회를 최대한 잘 참석하는 방법?

DnA 팀원중 많은 분들이 SIGIR과 KDD에 참석하여 많은 배움을 얻었습니다. 특히 KDD의 경우에는 업무 관련 일정이나 미팅을 조정하여 정참석자들이 일주일동안 학회에 집중하실 수 있도록 하였습니다. 학회가 처음이신 팀원들을 위해 다음과 같은 가이드도 드렸습니다.

이를 요약하면 학회 초보는 튜토리얼 / 중급자는 논문 / 상급자는 워크샵에 집중하는 접근법입니다. 튜토리얼에서 해당 분야의 기초 지식을, 논문에서 최근에 보고된 연구 성과를, 워크샵에서 현재 진행중인 연구 성과를 확인할 수 있기 때문입니다.

키노트: 데이터 사이언스의 변화하는 본질

우선 인상적이었던 키노트는 스탠포드 인포랩의 Jeffrey D. Ullman 교수의 데이터 사이언스의 변화하는 본질에 관한 것이었습니다. 그는 학계의 관점에서 데이터 사이언스를 수학과 통계의 방법론을 기본으로 하는 CS와 기타 과학의 접점으로 설명합니다. 데이터 사이언스의 정의는 항상 논란을 가져오는 주제인데요, 좀 더 관심 있으신 분은 관련 아티클을 참고하시면 될 것 같습니다.

논문: 네트워크 상에서의 온라인(AB) 테스트

이번에는 페이스북에서 나온 네트워크 상에서의 온라인(AB) 테스트에 관한 논문을 소개합니다. 온라인 테스트는 실험 단위(보통 사용자) 간의 독립성을 가정하는데, 페이스북과 같은 소셜 네트워크에서 실험을 하다 보면 이런 전제가 깨지게 됩니다.

따라서 이런 환경 실험을 수행하고 올바른 결과를 얻기 위해서는 구성원간의 연결고리를 최소화해야 하는데, 본 논문에서는 이를 위한 방안으로 클러스터링을 제안하고 있습니다. 사용자간의 연관도를 가지고 클러스터링의 수행하고, 이 결과물을 기준으로 실험군을 구분하면 실험군 간의 간섭을 최소화할 수 있습니다. (아래 그림에 자세히 설명)

튜토리얼: Mixed Method Development of Evaluation Metrics

마지막으로 Spotify의 연구자들이 진행한 온라인 지표 개발에 대한 튜토리얼을 소개합니다. 대부분의 온라인 서비스에서는 지표에 대한 고민을 하게 되고, 보통 성숙한 온라인 테스트 환경에서는 의사결정에 수백~수천개의 지표를 사용하게 되는데, 본 튜토리얼에서는 사용자 연구와 데이터 분석을 결합한 지표 개발의 방법론을 소개하고 있습니다.

이렇게 수많은 지표 가운데 무엇이 서비스의 성공과 직결되는지는 실제로 많은 회사에서 고민하는 부분입니다. 본 튜토리얼에서는 방법론의 사례로 아래와 같이 Spotify에서 사용자의 성공과 연결되는 지표를 개발하고 평가한 과정을 소개하고 있습니다. 단순히 CTR 및 Top Position Click을 보던 방법에서 다양한 성공 지표를 정의하고 이를 통해 제품 개선에 좀더 민감하게 반응하는 성공 지표를 정의하였습니다.

결론: 학회는 성장하는 데이터 사이언티스트 / 엔지니어의 친구!

이번 포스팅에서는 최근 있었던 학회에서 DnA 팀의 주 연구 개발 분야에 관련된 컨텐츠를 살펴 보았습니다. 온라인 학회의 특성상 현장의 느낌을 살리기는 힘들지만, 더 많은 사람들이 학회 컨텐츠를 접할 수 있다는 장점이 있습니다.

성장을 원하는 데이터 사이언티스트 / 엔지니어분이라면 학회에 직접 참석하거나 홈페이지에 공개된 발표 내용을 온라인으로 보시는 것을 추천합니다. 그리고 조만간 DnA 팀의 연구 개발 성과를 이런 학회에서 공유하기를 기대해 봅니다!

(네이버 검색 DnA팀의 여정에 함께할 분께서는 DnA 팀블로그의 소개 페이지를 참조 바랍니다.)

네이버 검색의 Data & Analytics (DnA) Team에 함께하실 분들을 찾습니다.

제가 최근 네이버 검색 부문의 Data Science 담당 책임리더로 조인하게 되었습니다. (저희 팀은 한국/미국 양쪽에서 채용 중이며, 저는 주로 미국에서 일합니다.) 네이버의 다양한 검색 및 추천 서비스가 우리 사회의 지식 정보 생태계를 발전시키는데 일익을 담당하고자 합니다. 한국 혹은 미국에서 저와 함께 일하실 분들은 아래 세부 사항을 보시고 jin dot y dot kim at navercorp dot com으로 연락주시기 바랍니다! 한국의 경력직 월간 채용 공고 [1] [2], 혹은 영문 채용 홈페이지에 현재 채용중인 포지션에 대한 좀더 자세한 정보 및 지원 방법을 확인하실 수 있습니다.

DnA Mission 

네이버 서치의 Data & Analytics (DnA) 팀에서는 네이버 및 관련 서비스의 검색 및 추천 시스템 개발 과정에서 요구되는 다양한 분석 및 의사결정을 지원하기 위한 데이터 및 도구를 개발하고, 조직 전체가 따를 수 있는 품질 평가 프로세스 및 가이드라인을 제공하며, 전략적으로 중요한 지표 설정이나 분석 업무를 직접 수행하는 역할을 합니다. 또한 사용자 로그 데이터에서 최대한의 가치를 뽑아낼 수 있는 모델링 기법을 연구하고 이를 검색 랭킹 및 평가 업무에 적용합니다  

검색 및 추천시스템을 포함하는 데이터 사이언스 각 분야의 기술은 끊임없이 진화하고 있으며, 이런 변화의 흐름을 이해하고 선도하는 것이 테크 기업 및 종사자의 경쟁력 및 장기적인 성패에 결정적입니다. 이를 위하여 DnA팀에서는 조직 구성원들의 배움과 성장을 지원하고기술적인 배움과 성과를 사/내외에 다양한 형태로 공유하고, 이를 통해 관련 조직 및 커뮤니티의 성장에 기여함과 동시에 데이터 사이언스 분야에서의 기술적인 리더십을 공고히 하려고 합니다. 

DnA Culture 

팀의 미션을 실현하는 것은 결국 구성원들의 노력이고이를 뒷받침하는 것이 조직 문화입니다. 이번에 DnA팀을 만들면서 저희는 구성원들이 즐겁게 일하면서 지속적으로 성과를 내는데 필요한 요소만을 남기고, 불필요한 요소는 최대한 배제함으로써 업계를 선도하는 새로운 조직 문화를 만들어 가고자 합니다. 

도구와 프로세스에 투자 

조직이 전문성을 쌓고 이를 통한 성과를 극대화하기 위해서는 반복되는 업무를 자동화할 수 있는 최적의 도구를 도입하거나 개발하고사람이 관여하는 부분에 있어서는 최적의 프로세스를 정의하는 것이 필요합니다. DnA팀은 내부적으로 좋은 도구와 프로세스에 투자하고이에 공헌하는 구성원을 적절히 보상하고, 이런 노력의 결과물이 팀 내외에 모두 도움을 줄 수 있도록 적극적으로 공유합니다. 

구성원과 함께 성장하는 조직 

테크 기업이 처한 비즈니스 환경 및 기술 생태계는 끊임없이 진화하고 있으며, 이런 의미에서 저희는 끊임없이 구성원이 배우고 성장할 수 있는 문화를 만들고자 합니다. 구체적인 방안으로 각 구성원이 각자의 전문 분야에 부합하는 프로젝트를 수행하여 조직의 성과에 기여할 수 있도록 지원하고, 그 결과를 필요에 따라 사내 혹은 기술 커뮤니티에 공유하며 같이 성장하려고 합니다. 

유연한 근무 형태 

이번 코로나 사태를 지나면서 기업들은 구성원의 업무와 개인적인 생활이 최대한 조화를 이룰 수 있는 근무 형태가 회사에도 도움이 된다는 점을 배웠습니다. 따라서 저희는 지역 및 근무 형태를 가리지 않고 좋은 인재를 채용하려고 합니다. 모든 구성원들은 적응 기간을 거친 이후에는 부분 혹은 완전 원격 근무를 선택할 수 있게 하려고 합니다. (현재 사내 협의 중) 

공유 기반의 투명한 문화 

이런 장점에도 불구하고 원격 근무는 자칫 개인과 조직간에 보이지 않는 장벽을 만들고 효율적인 의사소통 및 협업을 어렵게 할 수도 있습니다. 이런 부작용을 최소화하기 위해 DnA팀에서는 프로젝트 진행 상황 등 조직 내 대부분의 활동을 투명하게 공유하고, 다양한 협업 툴을 적극 활용하여 구성원들이 서로 배운 것을 공유하고 신뢰하며 성과를 낼 수 있는 문화를 만들고자 합니다.  

데이터지능 S2E8: 네이버 Clova AI 하정우 / 성낙호님

안녕하세요, 데이터지능 청취자 여러분. 오늘은 대한민국 AI의 세계화를 위해 불철주야 노력하고 계시는 네이버 클로바 AI의 하정우 / 성낙호님을 모셨습니다.

3년전에 비해 AI에 대한 관심도 더 커졌고, 그에따라 그 부작용에 대한 우려도 생겨나고 있는 상황인데요, 이를 포함한 AI 전반의 다양한 주제에 대해 말씀을 나누었습니다.

클로바 AI에 관심을 가지시는 분께서는 채용 홈페이지를 참조하시거나 메일 clova-jobs@navercorp.com / naverai@navercorp.com로 연락을 주시면 된다고 합니다.

00:30 소개 및 지난 3년간의 소회
13:00 그동안 다양한 AI 디바이스 개발을 통해 배운 점
20:45 클로바가 생각하는 AI 디바이스의 미래는? (힌트: pre-training & GPT3)
26:00 클로바의 비즈니스 AI 접근 방법은?
29:40 코로나 극복에 일조한 클로바 케어콜 구축경험
34:30 최근에 급속도로 발전한 AI가 인간을 대체할 수 있을까?
40:15 윤리적인 AI를 만들기 위한 클로바의 노력은?
49:20 클로바 AI 리서치의 중점 및 인재상?
58:00 클로징: 클로바 지원자를 위한 꿀팁

(오늘부터 데이터지능 방송의 새 에피소드 및 홈페이지의 기타 포스팅을 글을 메일로도 서비스합니다. 혹시 메일을 원하시지 않는 분께서는 글미에 unsubscribe 링크를 찾으실 수 있습니다.)

#DILIVE 3/21: 물류 데이터 & AI의 미래

코로나로 인해 물류의 중요성이 어느때보다도 중요한데요, #DILIVE 이번주는 메쉬 코리아의 CTO로 재직하고 계시는 김명환님 모시고 물류 데이터 및 AI 이야기를 나누었습니다. 아래 메쉬코리아 채용 관련 링크를 참조하시기 바랍니다.

이벤트 링크:
https://clublink.to/event/myYYoZdV?ref=n_cp

김명환님 최근 발표자료:

매쉬코리아 채용 링크:
https://bit.ly/31EmeNN

p.s. 데이터지능 클럽하우스는 (#DILIVE) 클럽하우스 생방송으로 데이터 분야 전문가와 청중을 연결하는 새로운 포멧으로, 한국시간 일요일 오후 2시에 시작합니다. (소개 블로그 포스트) 클럽하우스에서 ‘데이터 지능’을 검색하셔서 공식계정 @di-live을 팔로우하시면 새 이벤트 소식을 받으실 수 있습니다. 기타 토픽 혹은 스피커 추천은 lifidea@gmail.com으로 항상 연락주시면 됩니다.

#DILIVE 3/7: 코딩없이 AI를 공부할 수 있다고?

며칠전 포스팅했던 데이터지능 LIVE (#DILIVE) 첫 순서로, 이번주 일요일 (3/7) 한국시간 오후 2시반에, 저와 김병학님이 AI 스타트업의 프로덕트 매니저로 일하시면서 노코드 AI 커뮤니티를 운영하고 계신 김대성님과 ‘날로 자동화되는 AI 세상, 지금 무엇을 어떻게 만들고 공부해야 할까’라는 주제로 이야기나누었습니다.
클럽하우스 이벤트 링크:

https://clublink.to/event/m25b92dA

김대성님의 발표: 인간을 위한 AI 교육
https://knock-ai.circle.so/c/introduction/ai-edu-for-human

방송 내용 서머리 블로그 포스트

AI 윤리에 대한 제 최근 발표:

인공지능 시대의 빛과 그늘, 그리고 데이터 리터러시

데이터지능 클럽하우스 생방송을 시작합니다 #DILIVE

‘데이터 지능’이라는 이름으로 팟캐스트를 운영한지 만 3년이 되었다. 그동안 주로 본인의 개인 사정으로 중단되기도 했지만, 현직 전문가와 대중을 연결한다는 취지를 구현하기 위해 최선을 다 했다고 자부한다. 개인적으로는 다양한 분야의 전문가들을 만나 이야기를 나누면서 배우고, 이를 더 많은 분들과 공유하는 일은 보람된 일이었다.

하지만, 팟캐스트라는 포맷의 가능성 만큼이나 다양한 한계를 느꼈다. 우선 패널과 청자를 연결한다는 관점에서 팟캐스트는 사전에 녹음된 대화를 제공하는 만큼 청자들의 궁금증이나 피드백을 패널에 실시간으로 전달하는데 한계가 있었다. 또한 해당 분야의 전문가가 자유롭게 호스팅을 수 있는 플랫폼을 생각했으나 아직은 실현되지 않았다.

최근에 등장한 클럽하우스는 팟캐스트의 한계를 많은 부분 해결해준다. 누구나 손쉽게 주제별 방을 개설하고, 대화 도중에 자유롭게 스피커와 청중 사이를 오갈 수 있으며, 무엇보다 이미 많은 사람들이 관심을 갖고 활동하고 있다. 아직 속단하기는 이루지만, 코로나 시국과 맞물려 클럽하우스와 같은 비대면 소통 앱은 계속 성장할 것으로 보인다.

물론 아직 1년도 되지 않은 플랫폼의 특성상 한계는 많다. 우선 iOS밖에 지원하지 않아 청중이 제한적이고, 음성 이외에 다른 컨텐츠를 (화면, 링크 등) 공유할 방법이 없다. 컨텐츠 제작 관점에서는 녹화 및 사후 배포가 어렵다는 문제도 있다. 몇 주간 사용해본 바로는 온라인 음성 대화라는 새로운 포맷에 아직 스피커나 청중이나 적응하고 있는 단계다.

하지만 그 모든 한계에도 불구하고 필자는 클럽하우스에서 많은 사람들이 온라인으로 자유롭게 소통하는 오디오 미디어의 미래를 엿본 느낌이다. 그리고 클럽하우스 플랫폼의 성장에 따라 위의 한계는 해결될 것으로 본다. 그래서 매주 주말에 클럽하우스에서 데이터 각 분야 전문가들과 대중이 소통할 수 있는 ‘데이터지능 LIVE’를 시작해볼까 한다.

데이터지능 LIVE는 한국시간으로 매주 일요일 오후 2시반~4시에 클럽하우스에서 이루어지며 스피커 및 주제는 사전에 공지할 생각이다. 클럽하우스에서 별도의 채팅방을 제공하지 않기 때문에 필자의 트위터 계정을 통해 실시간으로 링크 등을 공유하고 질문을 받을 생각이다. (#DILIVE) 실시간 참여가 어려운 분들을 위해 향후에 편집을 거친 대화 내용을 팟캐스트나 뉴스레터 등을 통해서 제공하는 것도 가능할 것이라 생각한다.

각 쇼의 구성은 (아직 구상중이지만) 우선 한 주에 있었던 주목할만한 소식으로 시작하고, 기존의 팟캐스트와 유사한 본 프로그램으로 패널 디스커션을 진행하고, 마지막에 Q&A 및 자유 토론으로 마무리할 생각이다. 본 프로그램으로 컨텐츠의 깊이를 살리되, 클럽하우스의 특성을 살려 최대한 청중이 자유롭게 참여할 수 있는 형태로 진행해볼 생각이다.

인공지능 시대의 빛과 그늘, 그리고 데이터 리터러시

요새 ‘이루다’ 등을 비롯한 인공지능의 윤리 문제가 많은 관심을 받고 있는데요, 최근에 숙명여대를 비롯한 대학생들의 연합 데이터 컨퍼런스인 SM-Pair에서 ‘인공지능 시대의 빛과 그늘, 그리고 데이터 리터러시’를 주제로 강의를 할 기회가 있었습니다. 팟캐스트에서 발표 내용을, 그리고 아래 유튜브에서 발표 영상을 보실 수 있습니다.

1:45 인공지능에 대한 뜨거운 관심 (특히 한국에서)
3:30 최근 불거지는 인공지능의 일탈 (정치적 극단화 / 이루다 / AI 면접)
8:00 인공지능의 본질에서 찾는 원인과 해법
12:30 왜 인공지능의 윤리가 중요한 문제인가?
16:30 인공지능의 공정성을 어떻게 정의할 것인가?
27:30 인공지능의 공정성을 높이는 기술적인 해법 (입력 데이터 / 학습 모델 / 결과물 평가)
39:30 인공지능의 공정성을 높이는 비기술적인 해법 (조직 및 개인 관점)
44:15 전공자/비전공자 입장에서 인공지능 시대를 준비하는 방법
48:15 인공지능 공부를 위한 효율적인 방법

데이터지능 S2E7: 애플과 나이키는 어떻게 인공지능으로 미래를 만들어가는가?

데이터 및 인공지능 기술이 오프라인 세상에 영향을 끼치는 대표적인 분야가 전자상거래인데요, 이들 중 나이키는 전통적인 기업가운데 인공지능에 기반한 전자상거래 활용의 선두주자로 잘 알려져 있습니다. 오늘은 애플에서 전자상거래를 담당하는 머신러닝 팀을 만드셨고, 최근까지 나이키에서 AI팀의 디렉터로 일하셨으며, 현재 아마존에서 광고 시스템을 담당하는 머신러닝 팀을 이끌고 계신 정현준님을 모셨습니다. (현재 아마존 실리콘밸리 오피스에서 채용중이시며, 자세한 문의는 링크드인으로 부탁드립니다.)

https://www.linkedin.com/in/hyunvincero/

청취자 여러분들 새해 복 많이 받으시고요! 그리고 새해에는 아래 유튜브 채널에서도 좀더 자주 찾아뵐 생각입니다. (미리 구독해주셔도 좋고요:)

https://www.youtube.com/user/lifidea

3:30 애플에서 머신러닝 초창기에 경험
18:00 애플에서 머신러닝 팀을 만든 경험
25:30 애플에서 나이키로의 이직 & 적응 경험
30:00 나이키가 코로나에 적응하는 과정을 도운 경험
34:00 나이키가 아마존과 파트너십을 끝낸 과정
42:00 검색/추천 시스템에서 고객의 장기적인 가치를 최적화하는 방법
52:00 전자상거래를 위한 검색/추천 시스템을 개발하는데 고려할 사항
56:00 여러가지 목표를 동시에 만족시키는 검색/추천 모델을 개발하기
62:00 본인이 경험한 기술 기업과 비기술 기업의 차이
71:00 꾸준히 기술 트렌드를 따라잡는 개인적인 방법
78:00 머신러닝 / 전자상거래 분야의 커리어에 대한 생각
86:00 아마존 광고팀에서의 포부 & 인재상
88:00 클로징

데이터 지능 S2E6: 의료 인공지능 & 디지털 헬스편 (Harmonize Health 한기용님 / Alpha Health 김병학님)

데이터지능 팟캐스트의 김진영입니다. 2020년 모든 분들의 머리속을 채운 키워드가 있다면 건강일텐데요, 데이터 및 인공지능 기술과 헬스케어의 만나는 ‘디지털 헬스’라는 분야가 있습니다. 오늘은 디지털 헬스 스타트업에서 각각 데이터 / 머신러닝 책임자로 일하고 계시는 한기용 / 김병학님을 모셨습니다.

청취자 분들 건강 유의하시고 즐거운 연말연시 되시길 바라겠습니다!

목차
15:00 디지털 헬스에 관심을 갖게된 계기
26:00 디지털 헬스 개념잡기 & 주요 플레이어와 문제들
48:30 디지털 헬스 관련 데이터 및 인공지능 기술들
53:40 디지털 헬스의 이상과 현실 (과연 인공지능은 의사를 대체할 수 있을까?)
78:00 의료에 적용가능한 인공지능의 조건은?
96:30 디지털 헬스 입문자에게 조언한다면? 현재 두 분의 채용분야 및 인재상은?

관련 링크
한기용님: https://www.linkedin.com/in/keeyonghan/
Harmonize Health Careers: https://www.harmonize.health/careers

김병학님: https://hakkim.tech/
Alpha Health Careers: https://jobs.lever.co/alphahealth.com

p.s. 디지털 헬스에 관심있는 분들께서는 최윤섭 박사님의 홈페이지 및 저서도 꼭 참조하세요http://www.yoonsupchoi.com/