Easy-dataset安装
方式1 使用官方 Docker 镜像
- 克隆仓库:
1 2
| git clone https://github.com/ConardLi/easy-dataset.git cd easy-dataset
|
- 更改
<font style="color:rgb(31, 35, 40);background-color:rgba(129, 139, 152, 0.12);">docker-compose.yml</font> 文件:
1 2 3 4 5 6 7 8 9 10
| services: easy-dataset: image: ghcr.io/conardli/easy-dataset container_name: easy-dataset ports: - '1717:1717' volumes: - ./local-db:/app/local-db restart: unless-stopped
|
注意: 请将 <font style="color:rgb(89, 99, 110);background-color:rgba(129, 139, 152, 0.12);">{YOUR_LOCAL_DB_PATH}</font>、<font style="color:rgb(89, 99, 110);background-color:rgba(129, 139, 152, 0.12);">{LOCAL_PRISMA_PATH}</font> 替换为你希望存储本地数据库的实际路径,建议直接使用当前代码仓库目录下的 <font style="color:rgb(89, 99, 110);background-color:rgba(129, 139, 152, 0.12);">local-db</font> 和 <font style="color:rgb(89, 99, 110);background-color:rgba(129, 139, 152, 0.12);">prisma</font> 文件夹,这样可以和 NPM 启动时的数据库路径保持一致。
注意: 如果需要挂载数据库文件(PRISMA),需要提前执行 <font style="color:rgb(89, 99, 110);background-color:rgba(129, 139, 152, 0.12);">npm run db:push</font> 初始化数据库文件。
- 使用 docker-compose 启动
docker-compose up -d
- 打开浏览器并访问
<font style="color:rgb(31, 35, 40);background-color:rgba(129, 139, 152, 0.12);">http://localhost:1717</font>
方式2 使用本地 Dockerfile 构建
如果你想自行构建镜像,可以使用项目根目录中的 Dockerfile:
- 克隆仓库:
1 2
| git clone https://github.com/ConardLi/easy-dataset.git cd easy-dataset
|
- 构建 Docker 镜像:
docker build -t easy-dataset .
- 运行容器:
1 2 3 4 5 6
| docker run -d \ -p 1717:1717 \ -v {YOUR_LOCAL_DB_PATH}:/app/local-db \ -v {LOCAL_PRISMA_PATH}:/app/prisma \ --name easy-dataset \ easy-dataset
|
注意: 请将 <font style="color:rgb(89, 99, 110);background-color:rgba(129, 139, 152, 0.12);">{YOUR_LOCAL_DB_PATH}</font>、<font style="color:rgb(89, 99, 110);background-color:rgba(129, 139, 152, 0.12);">{LOCAL_PRISMA_PATH}</font> 替换为你希望存储本地数据库的实际路径,建议直接使用当前代码仓库目录下的 <font style="color:rgb(89, 99, 110);background-color:rgba(129, 139, 152, 0.12);">local-db</font> 和 <font style="color:rgb(89, 99, 110);background-color:rgba(129, 139, 152, 0.12);">prisma</font> 文件夹,这样可以和 NPM 启动时的数据库路径保持一致。
注意: 如果需要挂载数据库文件(PRISMA),需要提前执行 <font style="color:rgb(89, 99, 110);background-color:rgba(129, 139, 152, 0.12);">npm run db:push</font> 初始化数据库文件。
- 打开浏览器,访问
<font style="color:rgb(31, 35, 40);background-color:rgba(129, 139, 152, 0.12);">http://localhost:1717</font>
使用方法
创建项目
- 在首页点击”创建项目”按钮;
- 输入项目名称和描述;
- 配置您首选的 LLM API 设置
处理文档
- 在”文本分割”部分上传您的文件(支持 PDF、Markdwon、txt、DOCX);
- 查看和调整自动分割的文本片段;
- 查看和调整全局领域树
生成问题
- 基于文本块批量构造问题;
- 查看并编辑生成的问题;
- 使用标签树组织问题
创建数据集
- 基于问题批量构造数据集;
- 使用配置的 LLM 生成答案;
- 查看、编辑并优化生成的答案
导出数据集
- 在数据集部分点击”导出”按钮;
- 选择您喜欢的格式(Alpaca 或 ShareGPT 或 multilingual-thinking);
- 选择文件格式(JSON 或 JSONL);
- 根据需要添加自定义系统提示;
- 导出您的数据集