본문 바로가기

분류 전체보기129

파이썬 위치 기반 매개변수, 키워드 기반 매개변수 안녕하세요 오늘은 우연하게 알게된 파이썬의 모르는 문법들을 설명해드리려고 합니다. 위치기반 매개변수(positial only) 키워드기반 매개변수(keyword only) 입니다. def function(a,b,c,d,e,f): print(a,b,c,d,e) 다들 많이 함수에서 쓰기 때문에 아실수도 있지만 생소한 내용입니다. * , / 를 활용해서, 위치기반과, 키워드기반을 지정을 할 수 있습니다. def function(a,b,/,*,e,f) foo(1,2) foo(a=1,b=2) foo(1,2,"","") 첫번째 foo 함수는 정상적으로 실행이 됩니다. 두번째는 error 가 나는데요. 위치기반 파라미터이기 때문입니다. 세번째 역시 키워드기반이기 때문에 명시를 해주어야합니다. 파라미터를 아래의 예제를.. 2024. 3. 7.
InstructGPT : Training language models to follow instructions with human feedback 안녕하세요 모든 논문을 리뷰하기에는 너무 가내수공업이 많이 들고 그래서 짧게나마 제가 읽고 , 봤었던 논문에 대한 생각을 정리를 위해 Summary를 만들어보았습니다. https://openai.com/research/instruction-followinghttps://arxiv.org/abs/2203.02155 Training language models to follow instructions with human feedback Making language models bigger does not inherently make them better at following a user's intent. For example, large language models can generate outputs t.. 2024. 3. 6.
Entropy 는 무엇인가? Entropy : 정보를 표현하는데 필요한 최소 평균 자원량 (코딩을 잘한것) 하트와 뻐큐중에 뭐가 더 엔트로피가 높을까? 하트가 높다 Cross Entropy : 동일하게 정보를 표현한다.비효율적인 것 (코딩을 못한것) KL 다이버전스 : Entropy - Cross entorpy + 양수가 되는것 2024. 3. 6.
Direct Preference Optimization: Your Language Model is Secretly a Reward Model 리뷰 안녕하세요 오늘 소개해드릴 논문은 지난 Upstage에서 공개한 모델 Solar의 학습 기법인 DPO입니다. 최근 지도학습 기법으로 떠오르고 있는 DPO인데요. 요즘 LLM Fine-tunning에 많이 쓰이고 있는 방법입니다. 사실 강화학습 분야가 되게 어렵다는 것도 알고 있지만 생각보다 보다 보면 흥미로운 내용이 많았던 거 같습니다. 제일 유명한 PPO 거의 진한 곰탕급으로 우려진 방법론인데요. PPO의 핵심 아이디어는 손실 함수에 특정 제약을 추가하여, 새로운 정책이 이전 정책으로부터 너무 멀어지지 않도록 하는 것입니다. 이를 통해 학습 과정에서 발생할 수 있는 큰 정책 변동을 방지하고, 안정적인 학습을 유도합니다.RLHF와 연관해서 데이터를 통해 반영을 할 수도 있는 메커니즘이라고 볼 수 있습니다.. 2024. 3. 6.