데이터 조직으로의 변화 과정: 시나리오

본격적인 논의에 앞서 우리가 해결하고자하는 문제를 좀더 상세히 정의해 보도록 하자. 우리의 목표는 다양한 유형의 데이터를 모으고 활용하여 온라인 서비스 개발 과정에서의 다양한 문제를 해결하는것이다. 여기에는 서비스 성장 극대화를 위한 개발 방향설정, 신규피쳐 런치 의사결정, 서비스 상태 모니터링 및 이슈 해결등이 포함된다.

좀더 구체적인 논의를 위해 IT 교육용 컨텐츠를 모아 유료로 제공하는 IT4U라는 서비스가 있다고 가정하자. 창립 1년만에 비대면 교육 붐을 타고 월간 1백만명의 사용자를 모은 IT4U는 향후 지속적인 성장을 위해 데이터 및 분석 (Data & Analytics) 팀을 만들기로 했고, 당신은 새롭게 만들어진 팀의 리더를 맡았다. 어디서부터 시작해야 할까?

분석을 위한 기초 만들기

데이터 관련 업무 경험을 바탕으로 당신은 우선 양질의 데이터를 쌓는 것이 우선순위라는 결론을 내리고, 기존 앱 데이터 로깅 및 데이터 파이프라인을 점검해 보았다. 그 결과 앱 사용자의 이동 경로를 추적하는데 필요한 항목이 로깅에서 빠져 있다는 것을 발견했다. 또한 데이터 조인 과정에서 레코드의 중복이 생기는 문제도 발견되었다.

이런 문제를 해결하기 위해 DnA팀에서는 기존에 개별 개발자들이 나름의 방식으로 하고 있던 앱 로그 데이터 형식에 대한 표준 가이드라인을 마련하고, 데이터 파이프라인 개발 및 관리에 Airflow와 같은 일관된 워크플로우 툴을 도입했다. 이를 통하여 파이프라인 장애가 났을때 바로 알람을 받을 수 있고 손쉽게 복구할 수 있는 인프라를 갖추게 되었다.

DnA팀의 노력으로 IT4U는 앱 사용자들이 어떤 경로로 접속하여 어떻게 앱을 사용하고 나가는지에 대한 기본적인 통계를 모을 수 있었다. 이를 바탕으로 개발팀이 앱 네비게이션의 몇가지 문제를 해결한 이후에 서비스 접속 후 컨텐츠 소비까지 이어지는 사용자의 비율을 대폭 올릴 수 있었고, 이 결과는 새로 생긴 DnA팀이 경영진의 신뢰를 얻는 계기가 되었다.

품질 개선을 위한 A/B테스트

이런 초기 성과에 여러 팀에 알려지게 되었고, 그중 컨텐츠 추천을 담당하는 팀에서 당신에게 고민을 털어놓았다. 그 팀에서 여러 추천 모델을 연구해서 실서비스에 적용해 보았지만 장기적인 지표 상승을 경험할 수 없었다는 것이다. 추천 팀에서는 추천 모델 변경 전/후의 총 컨텐츠 소비량 및 매출을 기준으로 서비스 개선 여부를 판단하고 있었다.

당신은 모델 변경 전/후의 비교 결과에는 모델 품질의 차이 이외에도 컨텐츠의 수급이나 요일별 컨텐츠 소비 패턴이 영향을 끼친다고 설명을 하고, 제대로 된 서비스 개선 평가를 위해서는 A/B테스트를 수행할 것을 권고했다. 추천 팀에서는 A/B테스트를 수행하기에 충분한 트래픽이 없다고 생각했지만, 몇몇 지표에 대해 Power Analysis를 해본 결과 어느정도 의미있는 실험이 가능한 것으로 나타났다.

마침 DnA팀 내에서 A/B테스트를 위한 기본적인 프레임워크를 만들어놓았기 떄문에, 여기 추천 팀의 지표를 추가하여 몇 주 뒤에 A/B테스트를 수행할 수 있었다. 이 테스트 결과 최근에 개발한 모델이 실제로 컨텐츠 소비를 유의미하게 증가시킨다는 결과를 얻은 추천팀은 신규 모델을 안심하고 서비스에 적용할 수 있었다. 서비스 적용 과정에서도 A/B테스트 프레임워크를 사용하여 지표를 확인하면서 서서히 대상 사용자의 범위를 늘릴 수 있었다.

하지만 몇주안에 새로 런칭한 추천 모델에 대한 불만이 접수되지 시작했다. IT4U에 컨텐츠를 공급하는 파트너들 가운데 상당 수의 매출이 뚝 떨어진 것이다. 컨텐츠 소비 패턴을 분석한 결과 추천 모델 신규 적용 이후 인기 컨텐츠가 추천 결과에서 노출되는 비율이 예전보다 훨신 증가했는데, 그 결과 상대적으로 덜 인기를 얻는 카테고리의 컨텐츠들이 노출되는 비중이 줄어들게 된 것이다.

이 분석 결과를 바탕으로 DnA팀에서는 컨텐츠 공급 파트너들이 최소한의 사용자 트래픽을 얻을 수 있는 방향으로 추천 모델을 개선하기로 하고, A/B테스트 결과에서도 컨텐츠의 소비량과 함께 파트너간 컨텐츠 노출의 공정성을 측정하는 지표를 추가하여 향후 모든 실험에서 이를 확인하도록 하였다.

신규 개발된 모델은 기존 모델 대비 컨텐츠 소비량을 해치지 않으면서 컨텐츠 노출의 공정성을 확 끌어올리는 결과를 가져왔으며, 이 모델이 적용된 이후에는 컨텐츠 파트너들의 불만도 잦아들었다. 당신은 모델 평가에는 단순 매출을 높이는 것 이외에도 고려할 것이 많다는 점을 배우게 되었다.

분석의 품질과 효율 높이기

추천 팀의 A/B테스트 결과를 들은 사내 다른 팀들도 DnA팀의 A/B 테스트 프레임워크에 대해 문의하기 시작했다. DnA팀은 이에 대응하기 위해 테스트 프레임워크의 안정성을 개선하고, 개별 파트너가 직접 실험을 분석할 수 있는 분석 툴 개발에 착수했다. 이와 함께 사내 모든 팀이 A/B테스트 분석 결과를 논의할 수 있는 정기 회의도 만들어서 운영하기 시작했다.

이런 노력 끝에 A/B테스트는 IT4U의 대부분의 팀이 사용하는 서비스로 자리잡게 되었다. 처음에는 대규모 UX 변경이나 추천모델 변경에만 A/B테스트를 적용했지만, 나중에는 Back-end 개선이나 리펙토링 등에도 사용자에게 끼치는 문제가 없다는 부분을 확인하기 위한 A/B테스트를 활용이 표준으로 자리잡았다. 그동안 A/B테스트 인프라의 개선으로 이런 테스트 사례의 증가는 팀에게 큰 부담을 주지 않게 되었다.

또한 팀간에 서로 영향을 주는 피쳐를 개발할 때도 각자 A/B 테스트를 수행하여 필요한 부분을 조율하는 프로세스가 자리를 잡게 되었다. 서로 목소리를 높이다가 결국 직위가 높은 사람의 의견을 따르던 회의는, 각자 가져온 실험 결과를 논의하고 이를 바탕으로 사용자에게 최선의 결과가 무엇인지 고민하는 시간으로 바뀌었다. 상명하복의 기업 문화가 누구나 아이디어를 제안하고 실험해볼 수 있는 방향으로 바뀐 것이다.

이렇게 A/B테스트가 전사 표준으로 자리를 잡으면서 IT4U의 피쳐 개발 방식에도 변화가 생겼다. 예전에는 개별 팀에서 몇 개의 새 피쳐를 개발했는지를 가지고 평가를 받았다면, 어느새부터인가 개별 피쳐의 A/B테스트를 통해 지표가 얼마나 향상되었는지가 평가 기준이 되었다. 또한 이에 따라 피쳐 개발 초기에 이를 어떻게 평가할 것인지를 먼저 논의하고 필요한 로깅이나 지표를 먼저 추가하는 방식으로 개발 패러다임이 바뀌게 되었다. 데이터와 지표가 개발의 시작이자 끝이 된 것이다.

이런 문화 변화에 따라 DnA팀의 역할도 계속 진화해갔다. 처음에는 개별 조직의 지표 개발과 분석을 일일이 지원해주는데 많은 시간을 투자해야 했지만, 틀과 인프라가 개선됨에 따라 점차 기존의 도구를 더 잘 쓸 수 있도록 교육하고 새로운 데이터 사이언스 기법을 사내 여러 비즈니스 문제에 적용하는 방법을 연구하는 기능이 강화되었다. 단순히 데이터 및 분석을 담당하는 역할에서 데이터를 바탕으로 서비스의 방향을 제시하고 조직 전체가 이를 달성하는 것을 지원하는 역할을 맡게 되었다.

이렇게 몇년간 전사적인 투자와 변화의 노력 끝에 IT4U는 지속적인 성장을 거듭할 수 있었다. 온라인 교육 시장에도 경쟁이 치열해지고 사용자들의 취향도 바뀌어 갔지만, 조직 구성원 각각이 여러 아이디어를 내고 이를 지표와 분석을 바탕으로 평가하여 의사결정을 하는 것이 체질화된 IT4U는 이런 변화에 기민하게 대응하면서 시장을 선도해 갔다. 또한 종종 발생하여 사용자들의 원성을 사던 시스템 장애 역시 이상 신호를 조기에 포착하여 신속하게 해결함으로써 서비스 영향을 최소화할 수 있었다.

맺음말

지금까지 IT4U라는 스타트업에서 데이터 활용 방식이 어떻게 바뀌었는지를 알아보았다. 처음에 데이터 인프라의 검증과 구축부터, 개별 팀의 평가 및 분석 업무 지원을 통한 신뢰 쌓기, 그리고 데이터 기반 개발 문화의 전사적인 확산에 이르기까지 기업에서 데이터를 제대로 활용하는 과정이 하루 아침에 이루어지지는 않는다는 교훈을 얻으셨으리라 생각한다.

데이터 조직으로의 변화는 이런 기술적, 업무적, 문화적인 변화가 꾸준히 쌓여 선순환을 만들며 점진적으로 이루어진다. 기술적으로 훌륭한 분석 및 평가 시스템이 갖추어졌다고 해도 구성원들의 일하는 방식이 바뀌지 않으면 제대로 활용되지 않을 것이며, 반대로 구성원들의 의지가 있더라도 제대로 된 인프라와 분석 시스템이 없다면 이는 오래 지속되지 못할 것이다.

데이터 기반 조직으로 가는 선순환의 고리

따라서 데이터 문화를 만들고자 하는 조직에서는 긴 호흡을 가지고 선순환의 고리를 하나씩 만들어나가야 할 것이다. 처음에 기본적인 분석과 평가 인프라의 바탕을 갖추고 작은 규모에서 성공 사례를 만든 후, 전사 확산을 위해 자동화 및 업무 프로세스가 정의되고, 이를 통해 효과적인 의사결정을 내리는 경험이 반복되면서 신뢰가 쌓이고 기업 문화가 바뀌는 것이 여기서 말하는 선순환의 모습이다.

마지막으로 데이터 기반 조직으로 가는 길은 일회성 이벤트가 아니라 지속적인 과정임을 기억하자. 애써 만들어놓은 데이터 인프라와 평가 시스템이 고객과 서비스의 변화하는 요구사항에 따라 바뀌어야 한다. 환경이 바뀌었는데 의사결정 지표와 프로세스가 이를 반영하지 못한다면 오히려 조직의 변화를 가로막는 결과를 낳을 수도 있다. 그래서 데이터 기반 조직의 핵심 프로세스에는 이런 내/외부적인 변화에 대응하여 데이터와 의사결정 기준을 검증하는 과정이 꼭 포함된다.

데이터지능 S2E11: 네이버 클로바 Document Intelligence팀 전희원님의 검색엔진, 데이터사이언스, 딥러닝 이야기

안녕하세요, 데이터 지능 청취자 여러분, 이번에는 오랫동안 데이터사이언스 및 AI 분야에서 경력을 쌓으시면서 고감자라는 필명으로 좋은 글도 많이 쓰시고 오픈소스 활동도 꾸준히 해오신 전희원님을 모셨습니다. 희원님은 야후 코리아, NexR, SKT를 거쳐 최근에는 네이버 클로바에서 Document Intelligence팀 리더로 새로운 시작을 하셨는데요, 그 과정에서의 배움과 앞으로의 계획을 여러분들과 공유하신다고 합니다. Back-end / Front-end 엔지니어 채용도 진행중이시라니 많은 지원 바랍니다! (아래 지원 정보)

관련 링크:
https://tinyurl.com/docuintel
http://freesearch.pe.kr/
https://github.com/haven-jeon
https://www.linkedin.com/in/gogamza

‘온라인서비스를 위한 데이터사이언스’ 시리즈를 시작하며

필자의 첫 책인 헬로데이터과학 출간후 6년이 지났다. 그동안 데이터 세상의 화두는 빅데이터에서 인공지능으로 넘어갔고, 대부분의 서비스는 모바일 환경에서 클라우드와 인공지능을 결합한 형태로 개발되고 있거나, 이런 방향으로의 진화를 고민하고 있다. 모바일, 클라우드, 인공지능의 결합은 이론적으로 사용자의 취향과 컨텍스트에 맞는 지능화 및 개인화된 서비스를 컴퓨팅파워의 제약 없이 제공할 수 있다는 것을 의미한다.

현대적인 온라인 서비스란?

모바일, 인공지능, 클라우드 — 언뜻 별 관련이 없어 보이는 이 세가지 키워드의 공통 분모는 데이터의 가능성을 더 확장시킨다는 점이다. 모바일 환경은 사용자에 대한 더 많은 데이터를 수집할 수 있도록 해주고, 인공지능 기술은 이렇게 수집된 데이터를 바탕으로 지능화된 서비스를 제공할 수 있도록 해주고, 마지막으로 클라우드는 이런 데이터 스토리지와 서비스에 필요한 인프라를 제공하니 말이다. (아래 그림은 필자의 최근 발표에서 발췌)

현대적인 온라인 서비스의 3요소

따라서 이런 패러다임 시프트는 데이터를 제대로 활용하는 조직과 그렇지 못한 조직간의 격차가 점점 벌어진다는 것을 의미하기도 한다. 모바일 앱 사용자에게서 서비스 개선에 필요한 데이터를 모으는 일, 이를 바탕으로 사용자가 만족할만한 인공지능 서비스를 제공하는 일, 서비스의 성장에 발맞추어 적절한 의사결정을 내리고 이를 뒷받침하는 인프라를 제공하는 일은 데이터 관련 여러 분야의 전문성을 필요로 하기 때문이다.

실제로 대부분의 빅테크 회사들은 자신들의 도메인에서 데이터 활용을 극대화하기 위해 꾸준한 연구 개발을 이어가고 있다. 모바일 환경에서 사용자의 영향을 최소화하는 로깅, 조직 전체의 필요에 따라 유연하게 성장하고 변화할 수 있는 데이터 파이프라인, 새로운 피쳐 개발 및 서비스 반영에 필요한 다양한 의사결정을 지원하는 지표와 실험 기법, 그리고 데이터 및 이에 기반한 인사이트의 개발 및 활용을 극대화하는 조직 문화들이 여기에 포함된다.

데이터사이언스의 역할

이렇게 변화된, 그리고 끊임없이 진화하는 환경에 과거의 경험이 아닌 새롭게 수집된 데이터를 바탕으로 적절히 대응하는 것을 가능하게 하는 것이 데이터 사이언스의 역할이다. 온라인 서비스를 위한 데이터 사이언스의 역할에 대해 이야기할 기회가 있을때, 필자는 서비스의 개발 및 지속적인 개선을 위한 방향을 설정하고, 이를 바탕으로 조직 전체가 일관되게 움직이는 것을 가능케하는 신경망을 만드는 일이라고 이야기한다.

동물의 신경계가 주위 환경으로부터 개체의 생존에 필요한 각종 정보를 수집하여 의사결정을 내리고 이에 근거하여 행동에 옮기듯이, 효과적인 데이터사이언스 조직/플랫폼/프로세스는 서비스 내 외부의 각종 데이터를 수집하고, 이를 바탕으로 각종 리포팅과 분석을 수행하고, 이를 바탕으로 서비스 개선에 직결되는 각종 의사결정을 내리고 관련 팀이 움직이는 것을 가능하게 하기 때문이다.

기업의 데이터사이언스는 조직 전체가 하나의 유기체처럼 움직이는 것을 가능케한다

단일 개체의 신경망과 달리 조직 내의 데이터사이언스가 갖는 어려움은 정보와 지식의 생산 및 전달이 개별 구성원 및 조직간에 원활히 일어나기 힘들다는 점이다. 데이터 팀의 분석 결과가 현업 부서에서 제대로 활용되지 못하는 문제, 개별 팀에서 서로 다른 지표와 의사결정 기준을 가지고 움직이는 문제 등이 다 여기 해당한다. 따라서 조직에서의 데이터 사이언스는 이런 소통 및 공유의 문제를 해결하고, 조직 전체가 데이터에 기반한 지식의 생산 및 축적, 이에 기반한 의사결정 프로세스를 만드는데 초점을 맞추어야 한다.

시중에는 이미 많은 데이터사이언스 관련 자료가 있지만 대부분은 입문서이거나 학술 논문과 같은 기술 중심의 전문적인 자료이다. 또한 데이터사이언스 교과서에서 나오는 이야기를 실제 업무 환경에 적용하는 과정에서 겪는 다양한 어려움에 대한 자료는 전무하다시피하다. 따라서 온라인 서비스를 실제로 개발해서 운영한 경험을 바탕으로 현업에서 바로 적용할 수 있는 가이드를 만드는 것이 가치가 있겠다는 생각을 했다.

집필을 결심한 이유

그동안 필자는 마이크로소프트 및 스냅에서 검색엔진, 추천시스템 관련된 다양한 데이터 사이언스 문제를 접했고, 현재는 네이버의 검색 품질 관리 및 개선에 바탕이 되는 데이터 사이언스 및 엔지니어링 문제를 해결하는 Data&Analytics팀을 이끌고 있다. 처음에는 검색 연구자로 시작하여, 현업 데이터 사이언티스트를 거쳐 현재는 데이터 및 분석 조직을 맡고 있으니 나름 여러 관점에서 데이터 관련 업무를 경험한 샘이다.

이 시리즈의 많은 부분은 필자가 이끌고 있는 네이버 서치의 Data&Analytics(DnA)팀의 업무에 기반하고 있으며, DnA팀은 이미 다양한 데이터와 지표를 바탕으로 네이버 서치가 다음 단계로의 진화를 위한 뱡향을 수립하고 앞으로 나아가는데 중추적인 역할을 수행하고 있다. 물론 앞으로도 계속 새로운 기술의 등장에 발맟추어 꾸준히 업데이트해야겠지만, 그동안 팀으로서 함께 배우고 경험한 것을 정리하는 것도 의미있는 경험이라는 생각을 했다.

물론 필자가 다년간 데이터지능 팟캐스트를 진행하며 느꼈듯이, 데이터 세상은 넓고 고수는 많다. 필자가 알고 경험한 영역보다 훨씬 넓은 세상이 있으며, 이런 부분을 훌륭한 Data&Analytics 팀원분들이나 외부 게스트 필자를 섭외하여 채울 생각이다. 앞으로 본 시리즈가 온라인서비스를 위한 데이터사이언스라는 영역에 종사하는 여러분들의 집단지성이 모이는 장이 되기를 희망한다.

p.s. 앞으로 이 시리즈는 필자의 블로그미디엄브런치 및 메일링 리스트를 통해서 보실 수 있습니다. 글에 대한 피드백이나, 게스트 필진 참여, 혹은 DnA팀에서 네이버 검색과 추천서비스의 미래를 만들어가실 분은 jin.y.kim at navercorp.com으로 연락 바랍니다!