E11-1 데이터 엔지니어링편 – 넷플릭스 배재현님, 쿠팡 글로벌 최현식님

이번 방송은 넷플릭스의 배재현님, 그리고 쿠팡 글로벌의 최현식님을 모시고 데이터 과학을 위한 기초 공사라고 할 수 있는 데이터 엔지니어링을 다뤄볼까 합니다.

  • 데이터 과학자 vs 데이터 엔지니어 – 어떻게 구분되나?
  • 하둡을 중심으로 알아보는 데이터 엔지니어링의 역사는?
  • 데이터 엔지니어링, 그리고 데이터 엔지니어의 미래는?
  • 클라우드 vs 자체 데이터센터 구축의 장단점과 고려사항은?
  • 데이터 엔지니어링을 시작하는 사람들에게 해주고픈 이야기는?

방송 관련 자료

스냅(Snap Inc.)에서의 1년

스냅(Snap Inc)으로 회사를 옮겨 스토리 검색 기능을 런치하고 글을 썼던 것이 엇그제같은데, 어제부로 입사 1년을 맞이했다. 개인적으로는 이사 3번에, 첫아이 출산에 정신없는 한해였고, 입사 1년을 돌이켜보면 항상 즐거운 일만 있었던 것은 아니지만 지금 돌이켜보면 후회없는 선택을 했다는 확신이 든다. 오늘은 입사 1년을 통해 배우고 느낀 점을 정리해볼까 한다.

스냅이라는 회사

생긴지 5년도 안되었지만 항상 화제의 중심에 있는 젋은 회사에서 일하는 것은 롤러코스터를 타는 듯한 경험이었다. 입사 직후였지만 IPO의 흥분도 맛보았고, 곧이어 경쟁사의 압박과 회사를 전통적인 SNS의 잣대로 평가하는 언론의 영향으로 회사의 평판이 바닥까지 떨어지는 것도 경험했다. 최근에는 다시 월가의 기대를 뛰어넘은 실적을 발표해서 주가가 한참 올랐다가, 다시 디자인 개편에 대한 비판이 쏟아지면서 여론의 뭇매를 맞고 있다.

IPO 직후 보낸 메일에서 스냅의 창업자이자 CEO 에반 스피겔은 ‘우리의 여행은 이제 시작이다’리고 했는데, 그 말은 농담이 아니었다. 에반으로 말할것같으면 졸업을 3학점 앞두고 스탠포드에서 중퇴를 선택한 인물이다. 이런 창업자의 정신은 스냅의 여러 제품에 잘 나타나 있는데, 텍스트 중심의 기존 SNS와 달리 ‘카메라가 곧 키보드’라며 지워지는 영상과 비디오를 중심으로 하는 스냅챗의 출발, 그리고 타임라인과 반대로 시간순으로 재생되는 스토리 기능 등 스냅의 현재를 만든 제품은 대부분 기존 SNS의 공식을 뒤집은 결과물이다.

이런 스냅의 혁신은 현재진행형이다. 최근에 발표한 스냅챗의 디자인은 초기 화면인 카메라 왼쪽에 친구들의 대화와 스토리를 볼 수 있는 프랜드피드, 그리고 카메라 오른쪽에 각종 매체 및 인플루엔서들의 공유한 스토리 등을 보여주는 디스커버피드가 있다. 친구들의 근황과 각종 링크 및 뉴스를 한곳에 보여주는 기존의 SNS에 또다시 반기를 든 것이다. 시도 때도 없이 갖가지 알람을 보내서 사용자를 유혹하고, 클릭을 유도하는 가짜 뉴스가 범람하는 SNS 공해의 시대에, 스냅은 개인적인 소통과 뉴스 및 매체 소비를 분리하는 것이 바람직하다는 방향을 세운 것이다.

스냅에서의 데이터 과학

필자가 회사를 옮길때 가장 중요한 고려사항중 하나는 ‘흥미로운 데이터를 가진 회사인가?’였다. 그만큼 데이터 과학자에게 좋은 데이터는 중요한 고려사항이다. 그런 의미에서 하루에 평균 30개 이상의 스냅(사진 및 비디오)을 보내는 2억명의 열성적인 유저들의 삶에 필수적인 스냅챗의 데이터는 분명 매력적인 것이었다. 사용자들의 삶에 가장 소중한 순간들이 스냅으로 가장 친한 친구들과 교환되기 때문이다. 스냅챗 사용자들이 공유하는 일상이 궁금하다면 스냅 맵의 웹버전을 사용해보자.

스냅챗의 사용자들은 자신의 스냅을 선택적으로 공개할 수 있는데, 많은 유명인이나 인플루엔서들은 그렇게 자신의 팬들에게 친밀한 일상을 전하고 있다. 여기에 작년부터 필자가 속한 SF오피스에서 개발하기 시작한 검색 및 추천 기능이 들어가면 스냅챗은 세상 곳곳에서 지금 일어나는 일을 사진과 비디오로 생생하게 알 수 있는 플랫폼이 된다. 유튜브의 실시간 버전이라고나 할까. 여기에 WSJ, Wired 등 유수 언론사에서 스냅챗 전용으로 만들어 매일 공개하는 뉴스까지 더하면 스냅챗은 모바일 시대의 TV가 된다.

구글과 페이스북이 온라인 광고 시장을 장악하고 있지만 아직도 가장 파이가 큰 대형 브랜드 광고는 TV의 영역이다. 하지만 전세계의 젊은이들은 TV 대신 모바일폰에서 대부분의 시간을 보낸다. 스냅챗은 주 사용자층인 10대-20대들의 감성과 라이프스타일에 최적화된 모바일 매체 경험을 제공할 수 있는 위치에 있다. 페이스북이 처음에 타임라인을 도입했을때 여론의 뭇매를 맞았지만 결국 성공했듯이, 최근의 대대적인 디자인 개편은 이런 스냅챗의 비전을 실현하기 위한 초석이 될 것이다.

스냅의 CEO 에반이 제품 디자이너 출신인만큼 스냅은 디자인 중심의 회사였다. 하지만 회사와 팀이 성장하면서 데이터를 활용해서 제품 개선을 이끌어내려는 노력도 활발하게 이루어지고 있다. 특히 엔지니어들이 주축이 되어 만들어진 SF오피스는 실리콘 벨리의 데이터중심 문화를 제품 디자인에 강한 LA 본사의 문화와 접목시키려는 시도를 꾸준히 해왔고, 실제로 지금은 스냅에서 데이터과 디자인이 혁신의 두 축으로 확고히 자리잡았다.

스냅과 같이 젊은 회사의 데이터과학자로 일하는 것은 바쁜 일이다. 업무 영역도 넓고 제품 자체도 끊임없이 진화하기 때문이다. 하지만 필자가 일하는 SF 오피스의 동료들은 스냅챗 사용자들 만큼이나 열정적인 사람들이다. 지난번 글에서도 밝혔지만 열정적인 사람들 곁에서 일하다보면 자연스럽게 열심히 일하게 된다. 하지만 실리콘밸리의 많은 회사들처럼 회사의 문화는 매우 자유로운 편이라 언제 어디서 일을 하던지 별로 신경쓰지 않는 편이다. 출퇴근 거리가 긴 필자의 경우 일주일에 하루 이틀은 집에서 일하고 있다.

스냅의 SF오피스는 만들어진지 2년이 채 안되었고 검색 및 추천 등 스냅의 핵심 데이터 프로덕트를 담당하는 많큼 구글, 페이스북 등 더 크고 안정적인 회사에 있다가 새로운 도전을 찾아 스냅챗에 조인한 엔지니어들이 많다. 검색 및 추천과 관련된 프론트엔드 개발 및 머신러닝도 SF오피스에서 담당하고 있다. 스냅의 SF오피스에서는 올해도 계속 규모를 키울 계획으로 꾸준히 개발자 및 데이터 과학자를 채용하고 있으니 관심있는 분들은 필자에게 연락 바란다! (jink at snap dot com)

맺음말

1년 전 MS에서 입사 5년을 앞둔 필자의 삶은 참으로 편안했다. 익숙한 환경에서 연구자로서 보람있는 일을 하면서 논문도 쓰고, 남는 시간에 시애틀 주변의 아름다운 자연을 즐기며 편안하게 사는 삶도 나쁘지 않았을 것이다. 하지만 필자는 도전을 선택했고, 지금은 그 결과에 만족한다. 같이 MS에서 일하던 필자의 아내도 출산을 마치고 회사를 옮겨 지금은 넷플릭스에 국제화 담당 PM으로 일하고 있다. 게다가 이제 9개월이 된 필자의 딸 애린이도 무럭무럭 자라고 있으니 감사할 일이 많은 한해였다.

회사일만 하기에도 바쁜 일상이지만, 필자는 데이터를 통해 몸담은 회사 뿐만 아니라 세상에 공헌하는 활동을 꾸준히 실천하려고 한다. 이런 이유로 MS에 근무하고 있을 때는 밤마다 글을 써서 헬로 데이터 과학을 출간했지만, 지금은 그런 사치는 허락되지 않는다. 대신 주말마다 동종 업계의 전문가 분들과 데이터 지능 팟캐스트를 녹음하는 것으로 소통의 욕구를 충족시키고 있다. 필자와 여러 데이터 전문가들이 들려주는 데이터 과학과 인공지능 이야기가 궁금한 분들은 데이터 지능 팟캐스트를 꼭 듣기 바란다.

추신: 본 글은 필자 개인의 의견으로 Snap Inc.의 의견을 대변하지는 않습니다.

데이터 지능 팟캐스트, 교훈과 방향

데이터지능 팟캐스트가 10회를 맞이했다. 나는 프로그래머다 시절까지 계산하면 거의 1년을 팟캐스트에 보낸 셈이다. 처음에는 계속할 수 있을까 하는 고민이 있었지만, 이제 어느정도 자리가 잡혀가는 느낌이다. 그동안 방송 진행 및 운영을 도와준 분들, 그리고 옆에서 많은 응원과 피드백을 준 아내에게도 감사의 말을 전하고 싶다. 오늘은 그동안 팟캐스트라는 새로운 매체에 익숙해지면서 배우고 느낀 점을 써볼까 한다.

팟캐스트를 왜 하나?

그동안 일 이외에서는 블로그나 책을 써왔던 필자가 팟캐스트를 시작한 이유는 시간적인 이유가 컸다. 글을 쓰는 일은 상당히 오랜 시간동안 혼자 집중해야 하는데, 이는 첫 아이를 갖고 회사를 옮긴 2017년의 필자에게는 더이상 허용되지 않는 사치였다. 반대로 팟캐스트는 시간을 잡고 게스트와 녹음을 하면 되는 일이다. (적어도 필자는 그렇게 생각을 했다) 물론 시간이 들지만 적어도 소요시간이 정확한 일이니 부담이 적다.

게다가 글을 쓰는 일은 혼자 해야 하는데 비해, 팟캐스트는 다른 사람과 같이 하는 일이니 그만큼 동기부여가 된다. (글을 써보신 분이라면 아시겠지만 동기부여가 가장 큰 문제다.) 게다가 시애틀에서 샌프란시스코로 지역을 옮기면서 새로운 지역의 사람들을 만나보고 싶었던 필자에게는 팟캐스트를 만들어가면서 동종 업계의 전문가들을 만날 수 있겠다는 생각도 있었다.

작년에 회사를 옮기고 딸아이의 아빠가 되면서 시간적 여유는 많이 줄었지만, 그럴 때일수록 꾸준히 지식을 습득하고 다른 사람들과 교류할 수 있는 수단을 만들어야 한다고 생각했다. 데이터 과학, 특히 인공지능 분야의 눈부신 발전을 따라잡기 위해서는 현직에서 일을 하더라도 꾸준히 관련 분야의 지식을 넓혀야 하기 때문이다. 팟캐스트는 이런 배움의 과정을 널리 공유하여 더 의미있게 만드는 수단이었다.

팟캐스트에서 배운 점

그렇게 시작한 데이터지능 팟캐스트가 이제 횟수로 10회를 마쳤다. 그동안 기계학습, 딥러닝, 시각화 등 데이터 과학의 여러 세부 분야, 그리고 금융, 교육 등 데이터 과학의 여러 응용 분야에 관한 이야기를 나누었다. 필자가 관심을 가지고 있는 여러 분야의 전문가들을 모셔다가 팟캐스트를 녹음하는 것은 즐거운 일이었고, 스스로도 지식을 넓힐 수 있는 계기가 되었다. 시간적으로도 녹음 준비 및 편집을 익히는데 처음에는 시간 소요가 많았지만 차츰 익숙해졌다.

그렇다면 데이터지능 팟캐스트는 누가 얼마나 청취할까? 이를 이해하기 위해 다양한 플랫폼에서 제공하는 데이터를 종합해 보았다. 팟캐스트라는 단어는 이제 구독형 오디오 컨텐츠의 대명사처럼 쓰이지만 실제 구독은 애플 팟캐스트 앱, 팟빵, 팟티, 네이버 오디오클립 등 다양한 채널로 이루어진다. 아래 데이터에 따르면 국내에는 아직도 팟빵이 가장 널리 쓰이는 플랫폼인것 같다.

우선 데이터지능 팟캐스트의 청취자 수는 1월 말 기준으로 누적 다운로드 횟수 35000건, 회당 평균 3000건, 최대 다운로드 횟수는 5500건에 달했다. 네이버 오디오클립 등 일부 플랫폼에서의 청취 횟수가 포함되지 않은 통계이며, 애플의 통계에 따르면 다운로드 횟수에서 구독자의 비율은 약 86%정도니 총 구독자 수는 약 5000명 정도로 추산된다.

청취자들을 좀더 이해하기 위해 ‘딥러닝편’을 앞두고 청취자들의 직업에 대한 설문조사를 진행했다.  ‘딥러닝편’에 편중된 결과이기는 하지만, 학생, 개발자, 연구직 종사자 들이 주 청취자층을 형성하고 있었다. 페이스북의 관련 그룹에서 설문조사한 내용이라 편향이 있겠지만, 좀더 전문적인 내용을 원하는 청취자층을 갖고 있다.

방송 다운로드 횟수가 양적인 성장을 의미한다면 사용자들이 얼마나 방송을 흥미있게 듣는지를 평가하기 위한 지표로 실제로 얼마나 오래 방송을 듣는지를 측정해볼 수 있을 것이다. 최근까지 이에 대한 통계자료는 전무했으나, 작년 말 애플이 여기에 대한 부분적인 데이터를 제공하기 시작했다. 아래 차트는 애플에서 제공하는 최신 iOS 사용자들을 대상으로 총 방송 길이 대비 청취 시간 데이터이다.

위 그래프에서 눈에 띄는 점은 우선 방송의 총 길이에 관계없이 실제 청취 시간은 약 40분 정도라는 점이다. 방송의 총 길이가 긴 경우 조금 청취 시간이 늘어나지만 별 차이는 없다. 방송 컨텐츠를 최대한 전달하기 위해서는 한시간이 넘어가는 긴 방송을 올리는 것은 피해야함을 알 수 있다. 현재까지 방송간 청취율의 차이는 크게 발견하지 못했다. 설문조사를 통해 주관적인 만족도를 평가하는 것도 시도했으나 아직 의미있는 데이터를 수집하지는 못했다.

팟캐스트의 미래

이제 미국에서는 전 인구의 10%가 매일 팟캐스트를 듣는다는 통계도 있지만 팟캐스트는 아직도 젊은 플랫폼이다. 팟캐스트라는 플랫폼을 사실상 만든 애플은 작년 말 팟캐스트에 대한 분석 자료를 제공하기 시작했고, 아직 팟캐스트에 대한 제대로 된 광고/수익화 플랫폼도 없다. 이런 절름발이(?) 상태로도 팟캐스트가 이만큼 성장한 것을 보면 앞으로 잠재력이 크다고 볼 수도 있겠다.

특히 우리나라의 팟캐스트는 아직도 뉴스 등 가벼운 컨텐츠가 중심으로, 각 분야의 전문가들이 직접 현장에서 일어나는 이야기를 하는 방송은 많지 않다. 하지만 출퇴근 시간 등 자투리 시간을 활용하여 뭔가 배우려는 수요는 항상 있고, 블로그가 그랬듯이 더 많은 사람들이 팟캐스트를 만들고 듣게 되리라고 생각한다.

아직 갈 길이 멀지만, 데이터 전문가들의 이야기를 대중에게 전달할 수 있는 채널을 만들었다는 점에서 필자는 보람을 느낀다.아직 여러가지로 부족함이 많은 데이터지능 팟캐스트를 이렇게 많은 분들이 들어주신다는 점은 고무적이다.

그동안 회사와 육아를 병행하며 격주로 방송을 녹음해 올리기에도 바쁜 일정이었지만 시간이 허락하는 한 더 좋은 방송을 만들기 위해 노력할 생각이다. 오디오 콘텐츠라는 특성상 팟캐스트를 잘 하기 위해서는 다양한 스킬이 필요하다. 우선 방송을 진행하는 순발력과 게스트의 이야기를 최대한 끌어내는 방법인 인터뷰 스킬에 대한 책을 읽고 있는데, 앞으로 방송에 최대한 적용해보고 싶다.

올해 초부터는 이왕 할거만 제대로 해보자는 생각에 운영진도 꾸리고 홈페이지와 로고도 만들었다. 청취자 분들이 소통할 수 있는 공간인 커뮤니티도 만들었다. 필자의 비전에 공감해 편집 및 커뮤니티 운영을 도와주는 최재완, 김영웅님께 다시 한번 감사드린다. 헬로 데이터 과학 때부터 많은 도움을 주신 한빛 미디어에서 올해부터 데이터지능 팟캐스트의 운영 자금을 후원해주고 계시다.

또한 팟캐스트를 바탕으로 다양한 컨텐츠를 만드는 방안도 고민중이다. 팟캐스트 대본/녹취록을 편집하고 보강하여 글로 만드는 방법도 있고, 팟캐스트의 출연진이 좀더 심도있는 비디오 강의와 같은 컨텐츠를 만드는 방법도 있다.

데이터지능 팟캐스트 E10 : 데이터 시각화 특집 – 김묘영님

현직 전문가들이 들려주는 데이터와 인공지능 이야기 데이터지능 팟캐스트 10번째 에피소드 “데이터시각화 특집”

데이터를 공부하거나 분석하는 과정에서 시각화에 대한 고민을 피할 수는 없을 것입니다. 좋은 데이터 시각화와 나쁜 데이터 시각화는 무엇을 말하는 것일까요? 분석만큼 중요한 시각화의 기술.

바이스버사 디자인 스튜디오의 대표이자 좋아 보이는 것들의 비밀: 인포그래픽 저자이신 김묘영님을 모시고, 김영웅님과 함께 데이터시각화와 인포그래픽에 대한 이야기를 나누어 봅니다.

본 방송은 YouTube 생방송으로 진행되었었습니다. 방송에서 소개되는 시각화 자료 등은 아래 링크에서 확인하실 수 있습니다.

Episode 10-1

Episode 10-2

■ 방송 관련 자료 ■

데이터 지능 팟캐스트는 믿고 보는 출판사 한빛미디어에서 후원합니다. 방송에 대한 의견이나 출연 요청 및 기타 궁금증은 저희 홈페이지 data-intelligence.io를 방문해주시면 됩니다.

데이터지능 팟캐스트 E9-2 : 딥러닝 프레임워크 및 활용 – 김성진님, 김진중님

김성진님 (3분 딥러닝 케라스맛) & 김진중님 (3분 딥러닝 텐서플로맛) 그리고 테리님과 함께하는 딥러닝 프레임워크 및 활용편 2부를 공개합니다!

  • 딥러닝 프레임웍의 최근 이슈와 트렌드에는 어떤 것이 있을까요?
  • ‘어떤 상황에는 어떤 프레임웍을 써라’ 이런 레시피가 있을까요?
  • 케라스 vs 텐서플로 vs 파이토치 중 한가지만 배워야 한다면 무엇을?
  • 최근에 했던 딥러닝 프로젝트를 소개한다면? 어떤 보람과 어려움이 있었는지?
  • 딥러닝을 시작하는 사람들에게 해주고픈 이야기가 있다면? (DO & DON”T)
  • 딥러닝 프레임웍의 미래는? 모든 것이 자동화되는 AutoML이 답인가?

Download this episode (right click and save)

방송 관련 자료

데이터 지능 팟캐스트는 믿고 보는 출판사 한빛미디어에서 후원합니다. 방송에 대한 의견이나 출연 요청 및 기타 궁금증은 저희 홈페이지 data-intelligence.io를 방문해주시면 됩니다.

데이터지능 팟캐스트 E9-1 : 딥러닝 프레임워크 및 활용 – 김성진님, 김진중님

김성진님 (3분 딥러닝 케라스맛) & 김진중님 (3분 딥러닝 텐서플로맛) 그리고 테리님과 함께하는 딥러닝 프레임워크 및 활용편 1부를 공개합니다!

  • 딥러닝 프레임웍의 최근 이슈와 트렌드에는 어떤 것이 있을까요?
  • ‘어떤 상황에는 어떤 프레임웍을 써라’ 이런 레시피가 있을까요?
  • 케라스 vs 텐서플로 vs 파이토치 중 한가지만 배워야 한다면 무엇을?
  • 최근에 했던 딥러닝 프로젝트를 소개한다면? 어떤 보람과 어려움이 있었는지?
  • 딥러닝을 시작하는 사람들에게 해주고픈 이야기가 있다면? (DO & DON”T)

방송 관련 자료

데이터 지능 팟캐스트는 믿고 보는 출판사 한빛미디어에서 후원합니다. 방송에 대한 의견이나 출연 요청 및 기타 궁금증은 저희 홈페이지 data-intelligence.io를 방문해주시면 됩니다.

E8-2 음악 데이터로 창업하기: 차트메트릭 대표 조성문님

데이터를 기술로만 접하신 분들께는 데이터를, 그것도 대부분 공개된 데이터를 가지고 비즈니스를 만들 수 있다는 사실이 놀라우실 겁니다. 지난 회에 이어서, 이번 방송은 실리콘벨리의 안정된 커리어를 뒤로 하고 본인이 열정을 가진 뮤직 데이터 비즈니스에 뛰어든 조성문님의 데이터와 비즈니스 이야기 두번째 편을 전합니다.

조성문님 개인 홈페이지: https://sungmooncho.com/
차트메트릭 홈페이지: https://chartmetric.io/


데이터 지능 팟캐스트는 믿고 보는 출판사 한빛미디어에서 후원합니다. 방송에 대한 의견이나 출연 요청 및 기타 궁금증은 저희 홈페이지 data-intelligence.io를 방문해주시면 됩니다.

E8-1 음악 데이터로 창업하기: 차트메트릭 대표 조성문님

데이터를 기술로만 접하신 분들께는 데이터를, 그것도 대부분 공개된 데이터를 가지고 비즈니스를 만들 수 있다는 사실이 놀라우실 겁니다. 데이터지능 이번 방송에서는 실리콘벨리의 안정된 커리어를 뒤로 하고 본인이 열정을 가진 뮤직 데이터 비즈니스에 뛰어든 조성문님의 데이터와 비즈니스 이야기를 전합니다.

조성문님 개인 홈페이지: https://sungmooncho.com/
차트메트릭 홈페이지: https://chartmetric.io/


데이터 지능 팟캐스트는 믿고 보는 출판사 한빛미디어에서 후원합니다. 방송에 대한 의견이나 출연 요청 및 기타 궁금증은 저희 홈페이지 data-intelligence.io를 방문해주시면 됩니다.

데이터지능 팟캐스트의 2018년

데이터지능 팟캐스트가 시작된지 두달이 되었습니다. 그동안 각 분야의 훌륭한 게스트 분들을 모셔서 흥미로운 이야기를 나누는 것만으로 행복한 시간이었습니다. 그동안 방송을 빛내주신 테리님 및 게스트 여러분, 방송에 음양으로 도움을 주신 지인 여러분, Last but not least 청취자 여러분들께 감사의 말씀을 전합니다.

몇가지 방송 관련 업데이트를 드리자면 2018년부터 데이터 지능 팟캐스트는 한빛미디어에서 후원해주시기로 하셨습니다. 앞으로 매회 데이터과학 및 인공지능 관련 신간이 있으면 방송에서 소개하도록 하겠습니다. 또 하나, 저희 방송에서 운영진 두 분을 모시게 되었습니다. 방송 편집 담당에 최재완님, 그리고 방송 커뮤니티 운영을 담당하실 김영웅입니다.

그리고 방송 관련된 자료를 한곳에 모아서 보실 수 있도록 저희가 방송 홈페이지를 만들었으며, 앞으로 청취자 및 출연자를 위한 커뮤니티를 운영하려고 합니다. 커뮤니티는 청취자와 출연자가 소통하는 공간으로 운영하고, 방송 생방송 등 다양한 방송 관련 이벤트 공지가 올라갈 예정입니다.

@ 데이터지능 커뮤니티: https://www.facebook.com/groups/dataintelligence

마지막으로, 저희가 2018년 더 좋은 방송을 만들기 위해 여러분들의 고견을 듣고자 합니다. 많은 응답 바랍니다!

@ 데이터지능 청취자 설문조사: https://goo.gl/Bp7a6w

-데이터 지능 운영진 드림

E7 데이터지능 팟캐스트의 2017년

데이터지능 팟캐스트가 시작된지 두달이 되었습니다. 그동안 각 분야의 훌륭한 게스트 분들을 모셔서 흥미로운 이야기를 나누는 것만으로 행복한 시간이었습니다. 그동안 방송을 빛내주신 테리님 및 게스트 여러분, 방송에 음양으로 도움을 주신 지인 여러분, 마지막으로 청취자 여러분들께 감사의 말씀을 전합니다.  이번 방송/글에서는 2017년 방송의 하이라이트를 돌이켜볼까 합니다.

E2 기계학습의 실무 (구글 리서치 김승연님)

머신러닝을 학문적 주제로 접근하는 경우가 많은데, 현실 세계의 머신러닝에는 데이터도 늘 변하고, 시스템과 코드에도 항상 문제가 생기는 어려움 하에서도 좋은 결과를 내야 하는 어려움이 있습니다. 구글 리서치에서 모바일 환경의 기계학습을 연구&개발하시는 김승연님과 함께 현실 세계의 머신러닝이 갖는 어려움, 그리고 머신러닝을 실무에 적용하기 위한 단계별 유의사항을 알아보았습니다.

일반적으로 머신러닝은 지속적인 유지보수를 필요로 하는데, 전통적인 솔루션보다 비용이 더 소요될 수 있어요. 머신러닝은 결국 더 복잡한 시스템을 만들게 되잖아요. 그러면 그렇게 복잡한 시스템을 유지보수 하기 위한 사람들을 계속 충원 해야 하는데 과연 그 사업이 그만한 가치가 있느냐가 중요하죠. 머신러닝이 모든 것을 마법처럼 해결한다기보다 고급 도구로 생각하고 유용성을 판단해서 도입하는 것이 좋을 것 같습니다.

데이터는 머신러닝을 동작시키는 연료같은 존재이죠. 연료가 좋지 않으면 성능도 좋지 않겠죠. 데이터가 너무 적어도 문제이고 많아도 문제이고 너무 치우쳐도 문제예요. 많으면 성능이 나올 때까지 시간이 오래걸리는 것이 문제죠. 적당히 솎아내야 하는데 적당히 솎는 것도 문제죠.

실무에서는 유지보수가 사실 가장 앞에 나와야 해요. 실제 일을 하면 구현 30/ 유지보수 70 정도로 유지보수가 어려워요. 왜냐하면 구현할 때 사람들이 생각보다 많은 가정을 하거든요. ‘이 상태에서는 이런 형식의 데이터가 들어온다’ 라던지 ‘이 다음은 OS에서 이렇게 scheduling을 하겠지’ 처럼요. 다 이렇게 되면 다 망해요. 왜냐하면 현실은 예외적인 상황이 많기 때문에 처음부터 모든 상황을 다 대비할 수가 없어요.

E3 생활 속 데이터 분석 (우아한 형제 권정민님, 카카오 최규민님)

데이터 일을 하면서 얻는 스트레스를 데이터로 푼다? 자기관리를 위한 데이터를 모은다? 데이터 과학자들은 조금 특별한 사람들일까요? 이번 방송에서는 생활 속에서 데이터를 모으고 분석하는 취미를 갖고 계시는 현업 데이터 과학자 두분을 모시고 말씀을 나누어 보았습니다. 데이터 활용을 이렇게 생활화하는 것이 데이터 전문가로 가는 지름길이 아닐까 생각해 봅니다. 

최규민: 저는 생활데이터 분석이 일단 재미있더라구요. 생활데이터 분석을 할때는 주로 뭔가 느슨해질때 주변의 소소한 것들을 관찰하다가 뭔가 재미있는 것을 발견하면 집에 빨리 가서 뭔가 하게되요. 그런게 제가 생활데이터 분석에서 얻는 의의같아요.

권정민: 저는 자기관리 차원에서 다양한 데이터를 모아요. 요즘은 세상이 좋아져서 다양한 앱이나 도구를 가지고 소위 제 상태를 모니터링 해요. … 예전에 작은 컨퍼런스에서 제 잉여력을 관리하는 법에 대해 발표한 적이 있는데, 그게 말하자면 제가 SNS에서 뭘 하는지, 운동은 어떻게 하는지 그런 것들이죠. … 제가 발견한 것들은 스트레스를 받을때 수면 퀄리티가 떨어진다던가, 독서량이 줄어든다던지 이런 결과가 나타나죠.

E4 데이터 사이언스 커리어 및 에듀텍 (유데미 시니어 디렉터 한기용님)

글로벌 교육 서비스 회사 유데미의 데이터 활용 과정에는 어떤 이슈가 있고, 유데미의 데이터 팀을 이끌고 계신 한기용님이 데이터 과학에 대해 어떤 조언을 주실까요?  개인적으로 서비스를 평가하는 지표 디자인에 관심이 많은데, 온라인 교육 서비스를 평가하는 지표 그 중에서도 유데미에서 사용하는 지표는 또 다르다는 점을 알 수 있었습니다.

Airbnb에서 가장 잘 하는 host가 Airbnb에서 guest를 경험해본 사람이라고 하더라고요. Guest로 여러 Airbnb 숙소를 경험하다보니 자신이 좋은 경험을 줄 수 있는 숙소의 host를 하게되는 것처럼 Udemy에서도 본인이 여러 강좌를 듣다보니 좋은 강의를 만들 수 있게되어 개설하는 분들이 가장 활발하고 열심히 활동하고 그런 분들을 추적하는 지표도 따로 있어요. Site-switching ratio라고 해서 학생으로 시작한 사람들이 강사가 되는 비율, 강사로 시작한 사람들이 학생이 되는 비율 두가지를 모두 다 보죠. Marketplace에서는 이 두가지가 굉장히 중요한 지표에요.

제가 Udemy에 입사하고 지난 3년간의 목표는 데이터 관련 인프라 구축하고 팀빌딩하고 e-commerce 같이 생산자와 소비자를 연결하는 부분이었고요, 향후에는 한 발짝 더 나가서 학생들이 정말로 배웠는지, 측정은 어떻게 할건지, 측정결과를 강사들이 개선하기 쉬운 형태로 전달하는 부분에 집중하고 싶어요. 다른 에듀텍 회사들도 모두 같은 고민을 하고 있는 것 같아요.

만약에 제가 대학생활로 돌아간다면 바꾸고 싶은 것이 한가지 있어요. 뭐냐면 제 멘토가 될 사람을 찾아보고 싶어요. 생각해보면 미국에 와서 최근까지도 멘토 없이 혼자 고민하고 결정을 내렸는데 만약에 대학생활이나 사회초년으로 다시 돌아가면 저한테 조언을 줄 수 있는 사람을 먼저 찾아보고 싶어요. 결정은 내가 내리더라도 마음 편히 물어볼 수 있는 인생선배가 있었더라면 더 잘 살고 있지 않을까 라고 생각하죠.


E5 금융 데이터 분석 & 퀀트의 세계 (권용진님, 《인공지능 투자가 퀀트》 저자)

흔히 생각하는 화려한 퀀트의 세계. 그 이면에는 끊임없이 변하는 시장과 경쟁자에 대응해야 하는 어려움이 상존합니다. 이번에는 현직 퀀트이시자 《인공지능 투자가 퀀트》 저자인 권용진님과 퀀트의 현재와 미래, 그리고 퀀트로 일하는 보람과 어려움에 대해 이야기를 나누어 보았습니다.

하지만 최근에는 데이터가 소셜 미디어 등 자연어 데이터를 많이 쓰므로 대용량 그리드나 클라우드를 많이 도입하게 되었어요. 그래서 인프라 개발자의 역량이 매우 중요해졌습니다. 예전에는 주로 회로 전문가가 득세했지만, 요즘에는 어떻게 하면 머신러닝 기술을 빠르게 돌릴 것인가가 초점입니다.. 일반 데이터 과학을 많이 하는 기술 회사에서 많이 쓰는 인프라를 많이 사용하게 됐습니다.

사실 퀀트 하시는 분들이 여기를 많이 진입하는 이유가, 돈을 자동으로 벌어주는 프로그램을 만들 수 있으면,  이런 프로그램 짜놓고 홍콩에서 매일 아침 잔고만 확인하며 편하게 산다는 이야기를 듣고 시작한다. 저도 사실 프로그램 한번 만들어 놓고 편하게 바닷가나 놀러다니고 싶다는 생각으로 시작했습니다. 그런데 실제로는 신경쓸게 매우 많습니다. 사실 아까 말씀드린대로 시장 상황이 급변하기 때문에, 이를 모니터링하는 사람을 따로 뽑는 경우도 많아요.


E6 딥러닝 in NIPS2017 (네이버 CLAIR 하정우 & 성낙호 & 이활석님 / 정지훈 경희사이버대학교 교수님)

요새 화두인 딥러닝. 하지만 제대로 공부하기 위해서는 고려해야 할 사항이 많습니다. NIPS 컨퍼런스에 참석하신  딥러닝 전문가 네분을 모시고 딥러닝의 트렌드와 이를 따라잡는 학습 방법에 대해 알아보았습니다. 같은 기술이라도 (GAN) 용용 목표에 따라 전혀 다르게 활용될 수 있다는 점, 그리고 딥러닝 커뮤니티의 활용이 학습에 중요한 부분이라는 인사이트를 주셨습니다.

정지훈: GAN관련해서는 저도 좀 이야기할게 있는데, 제가 도메인을 헬스케어와 문화, 즉, 음악이나 만화쪽도 다루어요. 그런데 같은 기술을 가지고도 사용하는 방법이 달라요. 의학 쪽에서는 성능을 높이는데 주안점을 둔다면, 문화 쪽에서는 소위 글로벌 옵티멈을 찾으면 안되거든요. 어느정도 최적해를 찾되 로컬 옵티멈에서 멈추는게 창의적인 결과가 나오거든요. 그러니까 같은 기술을 쓰더라도 의학을 하느냐 문화를 하느냐에 따라 활용 방식이 달라진다는 거죠. 제가 머신러닝 공부하시는 분들께 하고싶은 말씀은 내가 하려고 하는게 무엇이며 고객은 누구이며 어떤 가치를 만들고자 하느냐에 따라서 기술의 활용방법이 달라진다는 겁니다.

하정우: (딥러닝 학습법 관련) 저도 비슷한 의견인데 사실 너무 많은 논문이 나오고 빨리 변하고 있기 때문에 주변의 친구나 커뮤니티를 활용해야 최대한의 효과를 얻을 수 있습니다. 저희는 회사에서 세미나를 열심히 하는데 논문 하나하나를 깊이있게 본다기 보다는 핵심 아이디어가 뭐고 어떤 아이디어를 썼고 기존 연구와 어떻게 다른지만 짚어줘도 굉장히 도움이 되는 것 같아요. 요약하면 집단지성을 활용하시라는 겁니다.