Llama_factory部署踩坑之旅 记录一个很巧的报错,说来也巧,2024.11.18和同门在新机器上部署代码跑模型,早上在我工位电脑远程成功跑起模型,由于工作需要先在我电脑终止,下午在同门笔记本远程连接后同样的conda环境和路径命令跑不了了。重新创建conda环境拉取代码后一直报一个typo模块缺失的错,手动安装并永久添加到系统环境也无法解决,但是在吃饭的两个小时时间段有人提了一模一样的issue,第一反应是问同门是否是他提的 2024-11-27 Llama_factory
deepspeed/runtime/engine.py 确定检查点保存的配置12345678def _save_checkpoint(self, save_dir, tag, client_state={}, exclude_frozen_parameters=False): save_path = self._get_ckpt_name(save_dir, tag) zero_optimizer_state 2024-11-27 Llama_factory
pdb+gdb启动微调 245机器上启动调试:123conda activate torch_new_envcd /home/dell/sdb/LLaMA-Factoryexport FORCE_TORCHRUN=1 1CUDA_VISIBLE_DEVICES=0 python3 $(which llamafactory-cli) train --stage sft --do_train --model_na 2024-11-27 Llama_factory
检查点存储流程 保存checkpoint日志解析 保存检查点开始12024-11-21 10:18:54,402 >> Saving model checkpoint to /home/dell/sdb/saves/Qwen2-0___5B-Instruct/freeze/sft/checkpoint-25 模型检查点将被保存到指定路径 /home/dell/sdb 2024-11-27 Llama_factory