본문 바로가기

김덕배 링크드인 바로가기

전체 글137

파이썬 위치 기반 매개변수, 키워드 기반 매개변수 안녕하세요 오늘은 우연하게 알게된 파이썬의 모르는 문법들을 설명해드리려고 합니다. 위치기반 매개변수(positial only) 키워드기반 매개변수(keyword only) 입니다. def function(a,b,c,d,e,f): print(a,b,c,d,e) 다들 많이 함수에서 쓰기 때문에 아실수도 있지만 생소한 내용입니다. * , / 를 활용해서, 위치기반과, 키워드기반을 지정을 할 수 있습니다. def function(a,b,/,*,e,f) foo(1,2) foo(a=1,b=2) foo(1,2,"","") 첫번째 foo 함수는 정상적으로 실행이 됩니다. 두번째는 error 가 나는데요. 위치기반 파라미터이기 때문입니다. 세번째 역시 키워드기반이기 때문에 명시를 해주어야합니다. 파라미터를 아래의 예제를.. 2024. 3. 7.

InstructGPT : Training language models to follow instructions with human feedback 안녕하세요 모든 논문을 리뷰하기에는 너무 가내수공업이 많이 들고 그래서 짧게나마 제가 읽고 , 봤었던 논문에 대한 생각을 정리를 위해 Summary를 만들어보았습니다. https://openai.com/research/instruction-followinghttps://arxiv.org/abs/2203.02155 Training language models to follow instructions with human feedback Making language models bigger does not inherently make them better at following a user's intent. For example, large language models can generate outputs t.. 2024. 3. 6.

Entropy 는 무엇인가? Entropy : 정보를 표현하는데 필요한 최소 평균 자원량 (코딩을 잘한것) 하트와 뻐큐중에 뭐가 더 엔트로피가 높을까? 하트가 높다 Cross Entropy : 동일하게 정보를 표현한다.비효율적인 것 (코딩을 못한것) KL 다이버전스 : Entropy - Cross entorpy + 양수가 되는것 2024. 3. 6.

Direct Preference Optimization: Your Language Model is Secretly a Reward Model 리뷰 안녕하세요 오늘 소개해드릴 논문은 지난 Upstage에서 공개한 모델 Solar의 학습 기법인 DPO입니다. 최근 지도학습 기법으로 떠오르고 있는 DPO인데요. 요즘 LLM Fine-tunning에 많이 쓰이고 있는 방법입니다. 사실 강화학습 분야가 되게 어렵다는 것도 알고 있지만 생각보다 보다 보면 흥미로운 내용이 많았던 거 같습니다. 제일 유명한 PPO 거의 진한 곰탕급으로 우려진 방법론인데요. PPO의 핵심 아이디어는 손실 함수에 특정 제약을 추가하여, 새로운 정책이 이전 정책으로부터 너무 멀어지지 않도록 하는 것입니다. 이를 통해 학습 과정에서 발생할 수 있는 큰 정책 변동을 방지하고, 안정적인 학습을 유도합니다.RLHF와 연관해서 데이터를 통해 반영을 할 수도 있는 메커니즘이라고 볼 수 있습니다.. 2024. 3. 6.

LoRA+: Efficient Low Rank Adaptationof Large Models 짧은 논문리뷰 안녕하세요 Simon입니다. NLP LLM 논문을 읽다 보면 방대한 양에 지칠 때가 있는데요. 과연 이 논문을 다 읽더라도 나에게 명확하게 인사이트를 줄 수 있을까? 란 생각이 항상 듭니다. 고효율은 아니라고 생각되어서, 이제 제가 필요한 인사이트가 아니라면? 과감하게 Abstrack 정도와 필수 개념만 보고 요약을 하려고 합니다. 아마 비슷하게 생각하실 거라고 생각합니다. 오늘 리뷰해 드릴 논문은 LoRA+ 튜닝의 기존의 방법론보다 더 성능을 개선시키는 LoRA+라는 논문입니다. LoRA+: Efficient Low Rank Adaptation of Large Models In this paper, we show that Low Rank Adaptation (LoRA) as originally intr.. 2024. 3. 6.

SELF-DISCOVER: Large Language Models Self-Compose Reasoning Structures 리뷰 Self-Discover: Large Language Models Self-Compose Reasoning Structures We introduce SELF-DISCOVER, a general framework for LLMs to self-discover the task-intrinsic reasoning structures to tackle complex reasoning problems that are challenging for typical prompting methods. Core to the framework is a self-discovery process whe arxiv.org 안녕하세요 Simon입니다. 오늘은 SELF_DISCOVER라는 또 한 번 CoT를 넘어서는 방법론에 대해서.. 2024. 3. 6.

이전 1 ··· 8 9 10 11 12 13 14 ··· 23 다음

티스토리툴바