Welcome
Hi, welcome to my blog😊
Hi, welcome to my blog😊
This note is based on MIT 18.06 📒
Reinforcement Learning (RL) algorithms for LLM alignment with human preferences: RL from Human Feedback (RLHF) and Directed Preference Optimization (DPO).
This note is based on MIT 18.06 📒
RL foundations and Proximal Policy Optimization (PPO) Algorithm
Based on PPO by RethinkFun📒
This note is based on MIT 18.06 📒
Python支持类的多继承,通过super()方法实现对不同父类的访问。
ML系列学习笔记基于吴恩达教授的斯坦福CS229 2018课程📒
本文扩展了线性回归模型:引入局部权重回归以及第一个分类模型——逻辑斯特回归;证明为什么使用最小平方误差作为优化目标;介绍一种新的参数优化方法——牛顿法。