Sjx

hexo管理

路径1C:\Hexo\blog 新建文章1hexo new post 新建页面1hexo new page aaa 新建分类1hexo new page categories 示例123title: Llama_factorydate: 2024-11-27 01:38:54type: "categories" 在文章前加：1categories: Llama_factory

2024-11-27

hexo使用

启动

欢迎来到我的6.s081频道！

2024-11-27

6.s081

6.s081 Lab1

欢迎来到我的6.s081频道！

2024-11-27

6.s081

6.s081 Lab2-trace实现

欢迎来到我的6.s081频道！

2024-11-27

6.s081

Llama_factory部署踩坑之旅

记录一个很巧的报错，说来也巧，2024.11.18和同门在新机器上部署代码跑模型，早上在我工位电脑远程成功跑起模型，由于工作需要先在我电脑终止，下午在同门笔记本远程连接后同样的conda环境和路径命令跑不了了。重新创建conda环境拉取代码后一直报一个typo模块缺失的错，手动安装并永久添加到系统环境也无法解决，但是在吃饭的两个小时时间段有人提了一模一样的issue,第一反应是问同门是否是他提的

2024-11-27

Llama_factory

deepspeed/runtime/engine.py

确定检查点保存的配置12345678def _save_checkpoint(self, save_dir, tag, client_state={}, exclude_frozen_parameters=False): save_path = self._get_ckpt_name(save_dir, tag) zero_optimizer_state

2024-11-27

Llama_factory

pdb+gdb启动微调

245机器上启动调试：123conda activate torch_new_envcd /home/dell/sdb/LLaMA-Factoryexport FORCE_TORCHRUN=1 1CUDA_VISIBLE_DEVICES=0 python3 $(which llamafactory-cli) train --stage sft --do_train --model_na

2024-11-27

Llama_factory

检查点存储流程

保存checkpoint日志解析保存检查点开始12024-11-21 10:18:54,402 >> Saving model checkpoint to /home/dell/sdb/saves/Qwen2-0___5B-Instruct/freeze/sft/checkpoint-25 模型检查点将被保存到指定路径 /home/dell/sdb&#x

2024-11-27

Llama_factory