Building a robust feature platform for data-powered recommendations (GBL208)

당근의 피처 플랫폼

당근 소개

  • 당근은 지역 기반의 생활 커뮤니티 플랫폼으로, 중고 거래, 커뮤니티, 알바, 중고차, 부동산 등 다양한 서비스를 제공하고 있음
  • 현재 550개 이상의 지역에서 서비스 중이며, 월간 활성 사용자(MAU)가 1,900만 명, 누적 사용자 수는 4,000만 명 이상임

당근 추천 시스템의 특성

  • 다양한 카테고리의 콘텐츠(중고 거래, 부동산, 모임 등) 추천이 필요
  • 다양한 서비스 지면(홈피드, 스토리, 버티컬 서비스 등)에서 추천이 이루어져야 함
  • 실시간 데이터 처리가 중요(거래 완료 게시물 제외, 새 게시물 실시간 반영)
  • 매우 높은 카디널리티(유니크 아이템)로 인한 추천 문제 해결이 필요

피처 플랫폼의 역할

  • 추천 시스템에 사용되는 핵심 데이터인 "피처"를 담당하는 컴포넌트
  • 게시글 데이터(제목, 내용, 카테고리 등)와 사용자 행동 데이터(최근 클릭, 검색 내역 등)를 수집하고 관리
  • 사용자-게시글 간 크로스 피처도 추가 관리

피처 플랫폼의 요구사항

  • 높은 가용성: 대규모 트래픽을 안정적으로 처리 가능
  • 다양한 데이터 수집: 실시간 스트리밍 데이터와 배치 데이터 모두 지원
  • 다양한 피처 지원: 여러 서비스의 피처를 통합 관리 및 제공

데이터 수집 아키텍처

  • 실시간 스트림 데이터 파이프라인:
    • 서비스 이벤트를 MSK로 수집하고, 이를 Kafka 컨슈머가 데이터 레이어(S3, DynamoDB)에 적재
    • LLM 기반의 피처 추출도 동일한 방식으로 처리
  • 배치 데이터 처리 파이프라인:
    • 사용자 작업(크롤, 백필)을 통해 대용량 데이터를 S3 또는 외부 데이터 레이크에서 가져와 가공 및 적재

온라인 피처 서빙 아키텍처

  • 클라이언트의 피처 서빙 요청을 피처 플랫폼 서버가 처리
  • 데이터 레이어(ElastiCache, DynamoDB)에서 데이터 조회
  • 실시간 계산이 필요한 피처는 온디맨드 피처 서버에서 처리

피처 플랫폼의 성과 및 비전

  • 당근 전체 서비스 성장에 핵심적으로 기여
  • 다양한 버티컬 서비스에 걸쳐 천여 개 이상의 고품질 피처 제공
  • 초당 15만 건 이상의 대규모 트래픽을 안정적으로 처리

향후 계획:

  1. 고품질 피처 확장: 통계 데이터 등 새로운 유형의 피처 추가
  2. 더 효율적인 시스템: 비용 효율성 향상 및 가용성 유지
  3. 피처 추가/활용의 편의성 증대: 피처 디스커버리 기능 개선

Your Digital Journey deserves a great story.

Build one with us.

Cookies Icon

These cookies are used to collect information about how you interact with this website and allow us to remember you. We use this information to improve and customize your browsing experience, as well as for analytics.

If you decline, your information won’t be tracked when you visit this website. A single cookie will be used in your browser to remember your preference.

Talk to us