본문 바로가기

Multimodal2

Gemini와 LangChain을 활용한 멀티모달 삼진 하이라이트 시스템 AI가 바꾸는 스포츠 중계 서비스 혁신: AI 하이라이트/AI 캐스터 devocean.sk.com  위 글을 읽고 너무 재밌고 혁신적인 아이디어라고 생각해서 비슷하게 만들어보았습니다. 옛날부터 Gemini가 멀티모달로 학습을 시켜서 멀티모달의 선두주자 아닌가 생각했었는데, 막상 다른 Claude, ChatGPT 가 텍스트 성능이 워낙 좋다 보니 잘 쓸 기회가 없었습니다. 근데 문득 KT 야구 경기를 보다가 하이라이트가 있는데 이것도 결국 나중에 AI 가 해줄 수 있지 않을까? 생각을 했습니다. 스포츠가 다양하지만 일단 야구와 투수의 삼진으로 좁혀야 개발이 가능할 듯 싶어서, 좁혀서 진행해 보았습니다. 위처럼 사람이 직접 공수를 거쳐서 삼진아웃 전 영상을 클립으로 보통 만드는데 이걸 AI에게 맡겨보자? 이.. 2024. 7. 30.
Honeybee: Locality-enhanced Projector for Multimodal LLM 논문 리뷰 h안녕하세요 Simon 입니다 오늘은 Honeybee 라고 KAKAO Brain 에서 개발한 멀티모달 모델에 관련된 논문을 리뷰하려고 합니다. LLM -> MLLM 에 대한 연구가 확실히 활발하게 이루어지고 있는 듯 합니다. made dall-e HoneyBEE 카카오브레인이 새로운 인공지능 모델 '허니비(Honeybee)'를 발표, 이미지와 텍스트 입력이 가능한 기능을 갖춤. '허니비'는 이미지와 텍스트를 이해하고 답변하는 능력이 있으며, MME 벤치마크에서 높은 점수를 획득. 카카오브레인은 허니비를 교육 및 학습 보조 도구로 활용할 계획이며, 지속적인 연구와 개발을 진행할 예정임. Honeybee: Locality-enhanced Projector for Multimodal LLM In Multimo.. 2024. 3. 5.