본문 바로가기

cv3

Gemini와 LangChain을 활용한 멀티모달 삼진 하이라이트 시스템 AI가 바꾸는 스포츠 중계 서비스 혁신: AI 하이라이트/AI 캐스터 devocean.sk.com  위 글을 읽고 너무 재밌고 혁신적인 아이디어라고 생각해서 비슷하게 만들어보았습니다. 옛날부터 Gemini가 멀티모달로 학습을 시켜서 멀티모달의 선두주자 아닌가 생각했었는데, 막상 다른 Claude, ChatGPT 가 텍스트 성능이 워낙 좋다 보니 잘 쓸 기회가 없었습니다. 근데 문득 KT 야구 경기를 보다가 하이라이트가 있는데 이것도 결국 나중에 AI 가 해줄 수 있지 않을까? 생각을 했습니다. 스포츠가 다양하지만 일단 야구와 투수의 삼진으로 좁혀야 개발이 가능할 듯 싶어서, 좁혀서 진행해 보았습니다. 위처럼 사람이 직접 공수를 거쳐서 삼진아웃 전 영상을 클립으로 보통 만드는데 이걸 AI에게 맡겨보자? 이.. 2024. 7. 30.
[Azure AI] 손쉽게 Custom Vision 모델 활용하기 이번에 KT가 MS와 전략적 제휴를 맺은 만큼 Azure 관련한 클라우드 서비스를 알아보려고 합니다. 저도 이전 회사에서 Azure를 사용할 기회가 있었는데 제대로 써보질 못해서 아쉬웠는데 이번기회에 많이 써보려고 합니다.  KT·마이크로소프트 ‘AI 동맹’… 한국에 수조원 공동투자KT·마이크로소프트 AI 동맹 한국에 수조원 공동투자 양사 전략적 파트너십 체결www.chosun.com포스팅하게 된 계기는 저도 Azure 초보자이고 아무래도 Cloud가 AWS 위주로 많이 포스팅이 되어있는 만큼 초보자들이 바로 검색해서 도움이 될 수 있기를 바라며 작성해 봅니다. 오늘 소개해드릴 콘텐츠는 Azure의 AI Custom Vision 기능입니다. 우선 Azure AI 를 활용하기 위해 Azure 평가판 첫 계.. 2024. 7. 3.
Honeybee: Locality-enhanced Projector for Multimodal LLM 논문 리뷰 h안녕하세요 Simon 입니다 오늘은 Honeybee 라고 KAKAO Brain 에서 개발한 멀티모달 모델에 관련된 논문을 리뷰하려고 합니다. LLM -> MLLM 에 대한 연구가 확실히 활발하게 이루어지고 있는 듯 합니다. made dall-e HoneyBEE 카카오브레인이 새로운 인공지능 모델 '허니비(Honeybee)'를 발표, 이미지와 텍스트 입력이 가능한 기능을 갖춤. '허니비'는 이미지와 텍스트를 이해하고 답변하는 능력이 있으며, MME 벤치마크에서 높은 점수를 획득. 카카오브레인은 허니비를 교육 및 학습 보조 도구로 활용할 계획이며, 지속적인 연구와 개발을 진행할 예정임. Honeybee: Locality-enhanced Projector for Multimodal LLM In Multimo.. 2024. 3. 5.