Welcome
Hi, welcome to my blog😊
Hi, welcome to my blog😊
Reinforcement Learning (RL) algorithms for LLM alignment with human preferences: RL from Human Feedback (RLHF) and Directed Preference Optimization (DPO).
This note is based on MIT 18.06📒
RL foundations and Proximal Policy Optimization (PPO) Algorithm
Based on PPO by RethinkFun📒
This note is based on MIT 18.06📒
Python支持类的多继承,通过super()方法实现对不同父类的访问。
ML系列学习笔记基于吴恩达教授的斯坦福CS229 2018课程📒
本文扩展了线性回归模型:引入局部权重回归以及第一个分类模型——逻辑斯特回归;证明为什么使用最小平方误差作为优化目标;介绍一种新的参数优化方法——牛顿法。
ML系列学习笔记基于吴恩达教授的斯坦福CS229 2018课程📒
本文介绍首个模型——线性回归,展示机器学习基本步骤;回顾(预习)线性代数相关知识,并基于几何角度重新理解线性回归中的模型参数估计过程。