夹心
  • 首页
  • 归档
  • 分类
  • 标签
  • 关于

hexo管理

路径1C:\Hexo\blog 新建文章1hexo new post 新建页面1hexo new page aaa 新建分类1hexo new page categories 示例123title: Llama_factorydate: 2024-11-27 01:38:54type: "categories" 在文章前加:1categories: Llama_factory
2024-11-27
hexo使用

启动

欢迎来到我的6.s081频道!
2024-11-27
6.s081

6.s081 Lab1

欢迎来到我的6.s081频道!
2024-11-27
6.s081

6.s081 Lab2-trace实现

欢迎来到我的6.s081频道!
2024-11-27
6.s081

Llama_factory部署踩坑之旅

记录一个很巧的报错,说来也巧,2024.11.18和同门在新机器上部署代码跑模型,早上在我工位电脑远程成功跑起模型,由于工作需要先在我电脑终止,下午在同门笔记本远程连接后同样的conda环境和路径命令跑不了了。重新创建conda环境拉取代码后一直报一个typo模块缺失的错,手动安装并永久添加到系统环境也无法解决,但是在吃饭的两个小时时间段有人提了一模一样的issue,第一反应是问同门是否是他提的
2024-11-27
Llama_factory

deepspeed/runtime/engine.py

确定检查点保存的配置12345678def _save_checkpoint(self, save_dir, tag, client_state={}, exclude_frozen_parameters=False): save_path = self._get_ckpt_name(save_dir, tag) zero_optimizer_state
2024-11-27
Llama_factory

pdb+gdb启动微调

245机器上启动调试:123conda activate torch_new_envcd /home/dell/sdb/LLaMA-Factoryexport FORCE_TORCHRUN=1 1CUDA_VISIBLE_DEVICES=0 python3 $(which llamafactory-cli) train --stage sft --do_train --model_na
2024-11-27
Llama_factory

检查点存储流程

保存checkpoint日志解析 保存检查点开始12024-11-21 10:18:54,402 >> Saving model checkpoint to /home/dell/sdb/saves/Qwen2-0___5B-Instruct/freeze/sft/checkpoint-25 模型检查点将被保存到指定路径 /home/dell/sdb&#x
2024-11-27
Llama_factory
1234

搜索

Hexo Fluid