엔비디아 블로그에 올라온 글을 번역 및 편집한 글입니다. 과학자들은 이제 Evo 2를 사용할 수 있습니다. Evo 2는 모든 생명체의 유전 암호를 이해하는 강력한 AI 모델로, 오늘 공개된 가장 큰 규모의 공개 유전체 AI 모델입니다. 이 모델은 비영리 생의학 연구 기관...
미생물학자 호세 페나데스(José Penadés)는 쇼핑을 하던 중 걸음을 멈췄습니다. 너무 놀란 나머지 일행에게 ‘상황을 좀 이해할 수 있도록 한 시간 만 시간을 달라’고 부탁까지 했는데요. 구글의 AI 기반 연구 도구인 Co-scientist가 페난데스의 연구팀이 10년 동안 연구한 결과를 단 이틀 만에 도출했기 때문입니다. 연구의...
AI 기술을 개발하는 데 있어 가장 중요한 것은 바로 ‘고품질 학습 데이터’입니다. 아무리 뛰어난 AI 알고리즘을 개발하더라도, 데이터가 부족하거나 정제되지 않았다면 성능이 기대만큼 나오지 않겠죠. 그래서 많은 기업들이 AI 도입의 첫 단계에서 ‘데이터’ 문제로 고민합니다. “어떤 데이터를, 어떻게 구축해야 하지?”...
AI 기술을 도입하고 싶은 기업이라면, 가장 먼저 고민하는 것이 ‘데이터 구축 비용’입니다. AI 모델을 개발하려면 방대한 학습 데이터가 필요한데, 고품질 데이터를 수집하고 정제하는 데 드는 비용과 시간은 결코 만만치 않죠. 하지만 다행히도 기업이 AI 학습 데이터를 무료로 확보할 수 있는...
지난 10일, 오픈AI의 샘 올트먼이 <Three Observations(세 가지 관찰)>라는 제목으로 블로그 글을 올렸습니다. 올트먼은 AGI(Artificial General Intelligence, 범용 인공지능)에 가까워지는 시대에 대해 이야기하며 AGI가 가져올 경제적, 사회적 변화에 대해 이야기합니다. 올트먼이 말하는 AGI 올트먼은 아래 문장으로 글을 시작합니다. Out mission is...
임베딩 튜닝이란? RAG는 데이터를 기반으로 AI가 사용자 질문에 맞는 적절한 답변을 생성이 가능하지만 기본적인 RAG 알고리즘만으로는 질문과 답변 청크 간 매칭 문제가 발생할 수 있습니다. 이는 특히 질문이 짧고, 답변 청크가 길 경우 더욱 두드러지게 나타납니다. 이를 해결하기 위해 임베딩...
설 연휴 동안 전 세계를 뒤흔든 뉴스가 있습니다. 바로 중국의 AI 스타트업 DeepSeek(딥시크)가 출시한 LLM 모델인 R1의 출시 소식인데요. R1은 단지 성능이 뛰어난 것뿐만 아니라, 경쟁사들에 비해 낮은 비용으로 개발되었습니다. 게다가 무료로 공개되었지요. 샘 올트만은 경쟁을 의식한 듯, R1은 ‘특히나...
문서 검색에서 Dense Passage Retrieval(DPR) 방식은 오랜 기간 동안 효과적인 검색 메커니즘으로 자리 잡아 왔습니다. 하지만 복잡한 질문이나 대규모 문서 데이터셋에서는 그 한계가 분명하게 나타납니다. 이러한 한계를 해결하기 위해 등장한 것이 RAPTOR (Recursive Abstractive Processing for Tree-Organized Retrieval) 방식입니다. RAPTOR와...
효과적으로 데이터를 검색하고 활용하려면 단순히 많은 정보를 찾기보다는 각 정보 간의 연결 관계를 이해해야 합니다. 오늘은 RAG를 위한 데이터 구조화 기술의 핵심인 청킹 자동화와 그래프 기반 데이터 연결을 중심으로, 기존 Document Retrieval 구조의 한계와 이를 극복하기 위한 지식 그래프(Knowledge Graph)에 대해...
1편 <RAG를 뛰어넘는 Graph RAG> 읽고 오기 2편 <LLM 성능 높이기? Think on Graph!> 읽고 오기 전 세계적으로 의과대학은 왜 유독 과정이 길까요? 아마도 공부해야 할 양이 상당하기 때문일 텐데요. 의료는 복잡한 관계와 수많은 변수를 다루며, 그 안에서 정확하고...