2025-05-19 AWS summit Seoul 2025
요약
- 1일째는 AWS의 주요 고객들이 본인들의 문제에 적용시킨 케이스 스터디에 가까웠다면, 2일째는 AWS에서 제공하는 기술들의 소개에 가까운 세션이었음.
- 전체적으로 중·장기간 데이터의 수집이 완료된 기업들을 대상으로 수집된 데이터의 활용 방법과 차후에 입수되는 데이터들을 어떻게 효율적으로 관리할지 설명하는 내용이 많았으며, 데이터 입수를 담당하는 데이터 엔지니어부터 고객과 가장 가까운 마케팅까지 Python 혹은 SQL에 대한 이해를 가지고 있다는 전제가 깔려있었음.
- 이하, 각 세션 내용 요약
- 첫 번째 세션은 새롭게 리뉴얼된 AWS의 SageMaker 기능을 설명하고, 데이터 분석 솔루션을 제공하는 고객사에서 어떻게 활용할 수 있을지 설명하였음.
- 두 번째 세션은 최근 화제인 MCP에 대한 소개와 LLM이 웹사이트를 읽고 쓰는 등의 기능을 탑재한 MCP 앱을 이용한 실제 워크플로우에 대한 데모가 이어졌다. 추가적으로 구글에서 발표한 A2A와의 차이점 등이 다루어졌다.
- 세 번째 세션에선 기존에 API로 서비스되고 있는 LLM 서비스에 비해 AWS를 이용한 로컬 LLM을 가짐으로써 안정적인 서비스와 모니터링이 가능해진다는 점을 언급하고, AWS에서 자체 개발한 easy-model-deploy를 이용해 신속하게 LLM 서비스를 생성하는 방법을 소개하였다.
- 마지막 세션에선 LLM이 발전함에 따라 대용량 데이터를 가공하여 LLM에 데이터를 제공하기 위한 방법론에 대한 설명을 하였다.
데이터에서 대규모 성과로
- 쌓아둔 데이터를 AI에 적용 시 고려해야 할 사항들
SageMaker
- Unified Studio 출시:
- 기존 모델 개발: Amazon SageMaker AI로 변경
- 단일화된 서비스 페이지에서 데이터 및 AI 모델을 탐색
- 증가하는 데이터 용량에 따라 효율적으로 처리하기 위한 SageMaker를 이용한 데이터레이크 구성 방법
- 특이사항: Iceberg의 OpenAPI 규격에 완벽하게 대응
데이터 분석
- RAG, MCP 등 다양한 생성형 솔루션을 사용하기 위해선 데이터에 관한 설명 등 메타데이터(컨텍스트)가 중요해짐
- 컨텍스트에는 단순히 데이터의 상세 정보뿐만 아니라 BM과 관련된 컨텍스트를 제공
| 구분 | 데이터레이크 (Data Lake) | 데이터 웨어하우스 (Data Warehouse) |
|---|---|---|
| 데이터 형태 | 정형, 반정형, 비정형 모두 (예: 로그, JSON, 이미지, 동영상 등) | 주로 정형 데이터 (SQL 테이블 형식) |
| 스키마 구조 | 스키마 온 리드(Schema-on-read)→ 읽을 때 해석 | 스키마 온 라이트(Schema-on-write)→ 저장 전에 구조 정함 |
| 데이터 저장소 | 주로 저비용의 객체 스토리지 사용 (예: AWS S3) | 고성능 RDBMS 기반 스토리지 |
| 처리 속도 | 대용량 저장에 최적화, 실시간 분석은 상대적으로 느릴 수 있음 | 빠른 질의 처리에 최적화 |
| 사용 목적 | 데이터 과학, 머신러닝, 원시 데이터 저장 | 비즈니스 인텔리전스(BI), 리포팅 |
| 비용 | 저장 비용이 상대적으로 저렴 | 저장/운영 비용이 높을 수 있음 |
데모
데이터 관련 직군 업무 구분
- 데이터 엔지니어: 데이터 소스를 다양하게 구비해서 팀원들이 쉽게 사용할 수 있도록 만드는 업무
- 데이터 과학자: 데이터로부터 인사이트를 도출해서 AI 모델을 만드는 업무
MCP로 진화하는 AI 기술의 게임체인저
AWS에서 MCP 활용하기
- MCP는 외부 앱, 데이터 소스 등이 AI 모델과 연결 및 상호 작용하여 정보를 얻거나 기능을 수행하는 표준형 프로토콜
- 앱을 MCP 서버와 연결하고 MCP 서버를 LLM과 연결
- 장점
- 쉽고 원활한 통합
- 실시간 데이터 접근 유리
- 표준화된 워크플로우
- 단점
- 아키텍처 복잡성
- 초기 개발 가중
- 호환성 이슈
데모
주어진 URL들을 읽고 핵심 내용을 800자 이내로 요약해줘
- LLM이 요청에 대해서 MCP 등록된 Tool을 사용할지 결정
- 사용하기로 한 툴 요청을 MCP 서버로 보냄
- MCP 서버가 연결된 앱을 실행하고, 결과를 사용자에게 보냄
- 툴 요청에 필요한 변수들의 설정 방법 등을 규정하여 원활한 상호 작용을 구현
최근 트렌드(MCP와 A2A)
MCP와 A2A의 차이
- A2A는 좀 더 에이전트 간의 커뮤니케이션에 집중
- 상호 보완적으로 발전하리라 예상됨
Zero to Hero: 클릭 몇 번으로 완성하는 AI/ML on Amazon ECS
인공지능과 머신러닝을 활용한 애플리케이션의 도전과제
- 유연성: 다양한 모델을 선택 가능해야 하고, 태스크의 요구에 따라 라이브러리를 선택
- 신뢰성: 고객이 원하는 일관된 답변
- 성능: 태스크에서 충족하는 답변 속도를 만족시켜야 함
- 확장성: 트래픽에 맞게 스케일링하면서 비용을 조절할 수 있어야 함
- 관찰가능성: 로깅 및 모니터링을 통해서 리스크를 관리할 수 있어야 함
- 비용
아키텍처 고려사항: ECS의 장점
- 모델 앱 분리
- 마이크로서비스와 같이 구성
- 기술 선택의 유연성 확보, 독립적인 스케일링, 전문성 확보
- 모델 구성 방법
- 동기식
- 장점: 간단, fail fast
- 단점: 쓰로틀링, 운영 복잡성, 탄력 회복성
- 비동기식
- API Gateway → 로드 밸런싱
- 동기식
- Amazon ECS 기반 생성형 AI 애플리케이션 빌드
- 데모
- easy model deploy(https://github.com/aws-samples/easy-model-deployer)
- aws api키를 제공하는 것만으로 다양한 설정을 자동으로 해주고 openai api호환의 LLM서버를 생성해줌
- 공짜 아님
생성형 AI 시대의 데이터 파운데이션: 데이터에서 지능으로, 혁신을 만드는 게임 체인저
데이터 파운데이션 이해
- WHAT: 조직 차원의 데이터 전략
- WHO: 조직의 데이터와 데이터 실무자 중심
- WHY: 빠르고 신뢰할 수 있는 데이터 기반의 의사결정
- HOW: 포괄적, 통합적, 체계적으로 관리되는 도구와 솔루션
AWS 데이터 파운데이션
- 비즈니스
- 데이터 신뢰성
- 데이터 수익화
- 데이터 적용 가속화
- 유연한 비즈니스 전환
- 기술
- 검색 발견 용이
- 접근성 강화
- 상호운용성 확대
- 재사용성 증대
생성형 AI와 AWS의 데이터 파운데이션
- 생성형 AI
- (어려움) → 자체 모델 사전 훈련 → 지속적인 사전 훈련 → 미세 조정 → RAG → (쉬움)
- 데이터 = 지속적인 차별화의 핵심 요소
데모: Amazon Finance Automate
- FinOps
- 공급업체, 직원에게 대금 지급
- 고객으로부터 적기에 대금 회수
- 모든 금융 거래에 대한 통제 및 보안
- 진화하는 AWS 데이터 파운데이션
- 아마존 OpenSearch
- 재무 문서 데이터베이스화 (S3, OpenSearch) Knowledge Base 구성
- 재무 문제에 대한 컨텍스트를 구현하여 LLM과의 상호 작용을 컨트롤할 수 있도록 구성
- 아마존 OpenSearch