Easy-dataset安装
LiuSovia 化神

Easy-dataset安装

方式1 使用官方 Docker 镜像

  1. 克隆仓库:
1
2
git clone https://github.com/ConardLi/easy-dataset.git
cd easy-dataset
  1. 更改 <font style="color:rgb(31, 35, 40);background-color:rgba(129, 139, 152, 0.12);">docker-compose.yml</font> 文件:
1
2
3
4
5
6
7
8
9
10
services:
easy-dataset:
image: ghcr.io/conardli/easy-dataset
container_name: easy-dataset
ports:
- '1717:1717'
volumes:
- ./local-db:/app/local-db
# - ./prisma:/app/prisma 如果需要挂载请先手动初始化数据库文件
restart: unless-stopped

注意: 请将 <font style="color:rgb(89, 99, 110);background-color:rgba(129, 139, 152, 0.12);">{YOUR_LOCAL_DB_PATH}</font><font style="color:rgb(89, 99, 110);background-color:rgba(129, 139, 152, 0.12);">{LOCAL_PRISMA_PATH}</font> 替换为你希望存储本地数据库的实际路径,建议直接使用当前代码仓库目录下的 <font style="color:rgb(89, 99, 110);background-color:rgba(129, 139, 152, 0.12);">local-db</font> <font style="color:rgb(89, 99, 110);background-color:rgba(129, 139, 152, 0.12);">prisma</font> 文件夹,这样可以和 NPM 启动时的数据库路径保持一致。

注意: 如果需要挂载数据库文件(PRISMA),需要提前执行 <font style="color:rgb(89, 99, 110);background-color:rgba(129, 139, 152, 0.12);">npm run db:push</font> 初始化数据库文件。

  1. 使用 docker-compose 启动

docker-compose up -d

  1. 打开浏览器并访问 <font style="color:rgb(31, 35, 40);background-color:rgba(129, 139, 152, 0.12);">http://localhost:1717</font>

方式2 使用本地 Dockerfile 构建

如果你想自行构建镜像,可以使用项目根目录中的 Dockerfile:

  1. 克隆仓库:
1
2
git clone https://github.com/ConardLi/easy-dataset.git
cd easy-dataset
  1. 构建 Docker 镜像:

docker build -t easy-dataset .

  1. 运行容器:
1
2
3
4
5
6
docker run -d \
-p 1717:1717 \
-v {YOUR_LOCAL_DB_PATH}:/app/local-db \
-v {LOCAL_PRISMA_PATH}:/app/prisma \
--name easy-dataset \
easy-dataset

注意: 请将 <font style="color:rgb(89, 99, 110);background-color:rgba(129, 139, 152, 0.12);">{YOUR_LOCAL_DB_PATH}</font><font style="color:rgb(89, 99, 110);background-color:rgba(129, 139, 152, 0.12);">{LOCAL_PRISMA_PATH}</font> 替换为你希望存储本地数据库的实际路径,建议直接使用当前代码仓库目录下的 <font style="color:rgb(89, 99, 110);background-color:rgba(129, 139, 152, 0.12);">local-db</font> <font style="color:rgb(89, 99, 110);background-color:rgba(129, 139, 152, 0.12);">prisma</font> 文件夹,这样可以和 NPM 启动时的数据库路径保持一致。

注意: 如果需要挂载数据库文件(PRISMA),需要提前执行 <font style="color:rgb(89, 99, 110);background-color:rgba(129, 139, 152, 0.12);">npm run db:push</font> 初始化数据库文件。

  1. 打开浏览器,访问 <font style="color:rgb(31, 35, 40);background-color:rgba(129, 139, 152, 0.12);">http://localhost:1717</font>

使用方法

创建项目

  1. 在首页点击”创建项目”按钮;
  2. 输入项目名称和描述;
  3. 配置您首选的 LLM API 设置

处理文档

  1. 在”文本分割”部分上传您的文件(支持 PDF、Markdwon、txt、DOCX);
  2. 查看和调整自动分割的文本片段;
  3. 查看和调整全局领域树

生成问题

  1. 基于文本块批量构造问题;
  2. 查看并编辑生成的问题;
  3. 使用标签树组织问题

创建数据集

  1. 基于问题批量构造数据集;
  2. 使用配置的 LLM 生成答案;
  3. 查看、编辑并优化生成的答案

导出数据集

  1. 在数据集部分点击”导出”按钮;
  2. 选择您喜欢的格式(Alpaca 或 ShareGPT 或 multilingual-thinking);
  3. 选择文件格式(JSON 或 JSONL);
  4. 根据需要添加自定义系统提示;
  5. 导出您的数据集
 评论
评论插件加载失败
正在加载评论插件