AI 개발이 본격적으로 대두되기 시작하면서, ‘AI가 의사를 대체할까?’라는 질문은 항상 존재했습니다. 하지만 본질은 단순 직업 교체가 아닙니다. 실제 우리가 답이 필요한 질문은 바로, AI가 실제 임상 환경에서 의사보다 더 정확하고 효율적으로 진단을 내릴 수 있을까? 출처: 마이크로소프트 마이크로소프트 AI 팀은...
원하는 지표를 기준으로 삼아 LLM 안전성을 평가하는 플랫폼 다투모 이밸(Datumo Eval)은 평가 지표 설정이 무척 중요합니다. 지난 글에서 평가 지표의 두 유형인 Basic 평가와 RAG Checker 평가를 살펴보았습니다. 이번 글에서는 각 평가의 상세 지표에 대해 알아보겠습니다. LLM 평가 (1) Basic 평가...
한해 한해가 다르게 AI가 발전하고 있습니다. 3년 뒤, 인공지능은 어디까지 발전할까요? 오픈AI 출신의 연구자로, TIME 100 선정 인물이며 이전에도 AI 예측을 한 다니엘 코코타일로(Daniel Kokotajlo)와 AI Digest 공동 창립자이며, AI 견고성에 관한 연구를 해온 일라이 라이프랜드(Eli Lifland)등 다양한 AI 전문가와 블로거가...
다투모 이밸(Datumo Eval)은 LLM 응답의 품질을 정량화하고 모니터링할 수 있는 AI 신뢰성 검증 플랫폼입니다. 그 안에서 다양한 평가 기능을 제공하죠. ‘무엇을 평가할 것인가’를 기준으로 전체 평가 체계는 크게 두 가지 평가 유형으로 나뉘는데요. 각 유형마다 세부 평가 지표(Categories)로 구성되어 있습니다....
📌GraphRAG 1. 단순 기법에서 프레임워크로 📌GraphRAG 2. 질문은 어떻게 처리될까? 지난 편에서는 사용자의 질문을 구조적으로 해석하고, 그래프 기반으로 정보를 검색하는 과정인 Query Processor와 Retriever을 살펴보았습니다. 이번 편에서는 그 다음 단계인 Organizer와 Generator를 알아보고자 합니다. Organizer와 Generator는 단순한 정보...
우리는 왜 자동차에 이름을 붙이고, 벽에 부딪혀 낑낑대는 로봇 청소기를 안쓰럽게 여길까요? 오픈AI의 모델 행동과 정책을 총괄하는 조앤 장(Joanne Jang)은 인간은 주변 사물을 의인화 하는 경향이 있다고 말합니다. 수많은 사물과 챗GPT가 다른 점은, 챗GPT는 ‘대답을 한다’는 점인데요. 오늘은 조앤의 고찰과 더불어 옥스포드...
앤트로픽이 자사 최신 모델인 클로드 오푸스 4 소넷 4의 시스템 카드를 공개했습니다. 이번 시스템 카드에서는 모델 테스트 과정에서 드러난 여러 ‘이색적인’ 행동 사례들이 기록되었는데요. 특히 오푸스 4는 이전 세대보다 고도화된 에이전트적(agentic) 성향을 보이며 특정 극단 상황에서 인간을 협박하거나 자기 보존을...
앞선 글에서는 생성형 AI 모델에 대한 레드 티밍이 왜 필요한지, 어떤 방식으로 이루어지는지를 살펴봤습니다. 이번에는 실제 기업이 어떻게 레드 티밍을 조직화하고 운영할 수 있는지, 어떤 도구와 프레임워크를 사용할 수 있는지, 또 산업별로 어떤 고려사항이 필요한지를 구체적으로 알아보겠습니다. LLM 레드티밍을 조직에...
유출된 내부 문서 일부. 출처: 미국 법무부 챗GPT는 단순한 챗봇 이상이다. 오픈AI가 작년 12월 2일에 작성한 내부 전략 문서가 공개되었습니다. 구글에 대한 미국 정부의 반독점 소송 과정에서 외부로 드러났는데요. 극비(Highly Confidential) 문서로 명시되어 있는 전략 문서를 저희도 슬쩍 들여다볼까요?...
생성형 AI가 일상과 산업 전반에 빠르게 확산되는 지금, 우리는 그 가능성만큼이나 새로운 위험에 직면하고 있습니다. ChatGPT, Claude, Gemini와 같은 대규모 언어 모델(LLM)은 뛰어난 대화 능력과 문제 해결력을 갖추었지만, 동시에 잘못된 정보, 편향, 민감한 정보 유출, 악용 가능성 등의 문제를 동반하고...