欢迎访问江苏大学采购与招标网站!
当前位置: 网站首页 >> 正文
需求公示

农业多源异构大数据库管理与一站式分析平台(项目) 采购信息公示

发布时间:2024-01-05 浏览次数:

 

我校近期拟对“农业多源异构大数据库管理与一站式分析平台 ”(项目名称)启动采购程序,为充分创造条件让供应商参与我校采购项目,根据《政府采购信息发布管理办法》(财政部令〔2019〕101号)、《关于开展政府采购意向公开工作的通知》(财库〔2020〕10号)精神,现将有关该项目的主要用途、功能及使用目的、采购需求(技术参数、主要配置、售后服务等)进行公示。详见附件一:采购需求书。

本次公示是本单位采购工作的初步安排,具体采购项目情况以相关采购公告和采购文件为准。

如有异议,请于本公示后五日内,书面送(寄)达我处,逾期不予接受。




                           

                                   联系人:张老师    0511-88791357


                               江苏大学实验室与设备管理处

                                                                                      

                                                                                                                                 2024 1 月 5




附件一

采购需求书

一、项目概况及总体要求

国家数字农业装备(人工智能和农业机器人)创新分中心面向我国农业生产的科技与装备支撑的痛点和瓶颈问题,立足于打造人工智能和农业机器人的国家战略科技力量,成为原始创新策源地。成为国家数字农业装备中心在人工智能和农业机器人领域的重要布局,成为推动国家数字农业创新应用基地建设的关键支撑。

分中心打造农业人工智能通用自拓架构与算法、农业机器人多适高速技术与装备、数智融合集群智慧管控技术与系统3大实验平台突破一批人工智能和农业机器人关键技术,形成可复制推广构建AI+Agribot智慧农业模式和“中国方案”,推动人工智能和农业机器人对现代生产支撑作用的重大跨越。

面向分中心战略定位和目标,本次将采购农业多源异构大数据库管理与一站式分析平台(1台套),用于承载重点科研攻关计划任务:基础性研究——农业场景-环境-目标大数据库经费预算为230.9万元。

二、采购用途

采购用途:☑科研  □教学  □医疗  □管理  □后勤  □其他

用途说明:用于温室、果园场景下的农业路面、作物行、冠层、果花叶、病虫害、农产品的树形、点云、图像、频率/功率谱、力学/生理/病理参数大数据的分类存储、建模和同步在线高速计算,总算力达到百TFLOPS以上,支撑农场景的农业AI通用自拓算法架构开发。

三、采购需求一览表(货物类):

农业多源异构大数据库管理与一站式分析平台采购为整机,由AI服务器、高性能显卡、中性能显卡、人工智能开发平台、IB交换机(含线缆)、管理交换机、光纤交换机、42U标准机柜和配套安装服务构成。

序号

货物名称

是否为进口设备

单位

数量

是否属核心产品

1

AI服务器

5

2

高性能显卡1

5

3

中性能显卡2

1

4

人工智能开发平台

1

5

IB交换机(含线缆)

1

6

管理交换机

1

7

光纤交换机

1

8

42U标准机柜

1

9

安装服务

1


四、技术指标(按一览表中货物分别填写)

1. AI服务器 5 台)

序号

指标项

重要性

指标要求

关键指标理由

1

品牌

国内知名品牌,非OEM;所投产品必须为厂商官方网站非停产设备型号,提供产品彩页及官网链接截图,加盖原厂公章

实际需要

2

自主研发


要求整机为厂商自主研发产品,提供自研CPU主板高清照片,含有投标厂商的PCB丝印logo标志


3

架构


≥4U机架式服务器自主研发


4

处理


配置≥2颗Intel Xeon 第三代Gold或Platnium可扩展处理器。单颗 CPU 核数≥16 核心,主频≥3.1GHZ单颗CPU 线程数≥30

实际需要

5

内存

配置≥12根64GB ECC 3200内存,最大支持≥32根

实际需要

6

硬盘

支持≥12块3.5寸硬盘,支持≥8块NVMe SSD硬盘,采用国产NVMe SSD硬盘,由本地厂商制造并提供本地故障分析服务,MTBF≥250万小时。提供产品彩页及官网链接截图,加盖原厂公章
本次配置两块1.92T U.2 NVME SSD硬盘

四块1.8T 10K SAS硬盘

实际需要

7

RAID卡


支持2张内置标准RAID卡;

配置一块RAID卡,RAID卡高速缓存不低于2GB,RAID控制卡支持RAID 0/1/5/6,提供断电后数据永久保护

实际需要

8

网络技术

每个计算节点提供≥2个千兆网络接口;

每个计算节点提供≥2个万兆网络接口(含SFP+光模块);

每个计算节点配置≥1块单端口100Gb/s InfiniBand高速网卡;

支持1个 25G/100G的OCP3.0;

支持Multi-Host功能

实际需要

9

I/O扩展槽


支持支持8颗A800,A30,A40,MI100等全高全长双宽PCIe接口GPU卡,同时后置最大支持4个PCIe4.0 x16插槽;

支持2个RAID卡专用插槽

实际需要

10

ASIC扩展性


支持国产AI加速卡,FP32训练性能≥40TFLOPS;

支持国产加速卡,INT16推理性能≥64TOPS

实际需要

11

拓扑切换(性能、场景的数据)

支持在不同场景下,可实现CPU-GPU间连接拓扑切换,提供产品彩页及官网链接截图,加盖原厂公章

实际需要

12

管理特性


集成BMC管理模块,支持IPMI、KVM over IP、虚拟媒体等功能


13

电源


支持2+2冗余模式,最大支持3000W 80Plus铂金牌PSU,本次配置4块2200W电源


注:★号指标为重要指标,不满足将视为技术性能存在较大负偏离。

2. 人工智能开发平台  1 套)

序号

指标项

重要性

指标要求

关键指标理由

1

总体描述


提供大规模异构计算集群的统一管理、便捷易用的AI 开发环境、大规模AI 分布式训练、训练作业全生命周期管理、数据集版本管理与追溯、集群资源统计与报表等能力,帮助用户实现精准的资源管理与调度、敏捷的数据整合及加速、流程化的AI 场景及业务整合,有效打通AI 开发环境、算力、数据等要素,管理全周期AI 工作流,提升用户AI 开发效率;

支持通过Docker快速创建计算环境,基于Kubernetes进行可移植容器的编排管理,计算环境隔离互不影响,内置各种AI框架镜像,包括 Tensorflow、Caffe、pytorch、PaddlePaddle、MXNet主流框架版本,兼容web开源镜像和用户自定义镜像;

支持集群资源统一调度,支持多用户,多作业同时运行,通过调度器来给作业动态分配资源,支持单节点单GPU, 单节点多GPU,多节点多GPU以及多节点GPU,以及CPU/GPU混合的多种调度方式


2

数据存储目录

支持用户数据存储到不同的目录,如用户家目录、组共享目录、全局共享目录,实现数据在不同用户之间的灵活使用,支持在AI任务和开发中使用;
提供数据集目录,支持其中的数据按用户设置访问权限,支持在AI任务和开发中多个数据集同时使用

(以上功能提供软件功能截图)

实际需要

3

文件操作


支持在WEB界面上可视化操作用户数据,支持文件上传、下载、复制、复制到、重命名、压缩、解压、删除、搜索、属性修改;
支持WEB界面上文件操作的进度查看,支持多人同时执行文件操作。


4

数据共享


支持在WEB界面上把用户数据共享给指定用户、组、全局

实际需要


数据上传


支持通过第三方工具上传数据至用户目录,如sftp、winscp,实现多文件/文件夹、断点续传等特性;
支持WEB界面多人同时上传文件,支持文件上传进度查看。


5

视频播放

支持WEB界面上在线播放视频文件,格式支持:AVI,MP4,MOV,FLV;播放时提供暂停和开始控制,提供播放进度拖拽功能,辅助用户进行关键视频内容查看。(以上功能提供软件功能截图

基础功能需求

6

音频播放


支持WEB界面上在线播放音频文件,格式支持:MP3,WAV,FLAC;播放时提供暂停和开始控制,提供音频播放进度拖拽功能,辅助用户进行关键音频内容的评估。

(以上功能提供软件功能截图)

基础功能需求

7

图片查看


支持WEB界面上图片查看功能,格式支持:PNG,JPEG,JPG,BMP;提供图片平铺展示,方便使用。


8

文件查看


支持WEB界面上文本内容的查看功能,默认linux支持的文本格式都支持打开查看;
支持WEB界面上文本内容的编辑和保存功能。


9

数据集控制


支持数据集对接不同的存储服务器类型,支持对象存储、文件存储;
支持数据集使用权限控制,实现不同数据集设置不同用户或用户组使用权限;
支持WEB界面清理服务器本地存储已缓存的数据集;
支持WEB界面设置不同服务器本地存储缓存数据集目录的大小阈值设置,根据阈值进行服务器本地存储已缓存的数据集自动清理,清理不经常使用的数据集释放本地存储空间;
支持WEB界面数据集全量模糊查询功能;

基础功能需求

10

数据集版本控制


支持数据集多版本管理,基于数据集进行增加或删除后生成新版本数据集,且多个版本数据集只保留一份原始数据,节省存储空间;
支持数据集多版本的历史信息追溯查看功能;
支持数据集版本的发布功能,发布后供其他用户使用该数据集;

基础功能需求

11

数据集安全


支持数据集在数据流程过程中全程只读模式读取;
支持数据集访问权限控制;

(以上功能提供软件功能截图)

基础功能需求

12

多存储管理

1.支持多套存储对接能力,实现用户家目录扩展能力,达到一个用户有多个家目录在不同存储上的使用方式;
2.支持一个用户多个家目录同时在训练任务中使用,提供不同的使用路径;
3.支持一个用户多个家目录分别有下载、复制、复制到、重命名、压缩、解压、删除、搜索、属性修改功能;
4.支持用户多个家目录之间复制功能且提供复制进度信息查看功能;

(以上功能提供软件功能截图)

基础功能需求

13

数据集下载缓存功能


页面化提交:在任务提交时,平台可以提供页面化的节点数据集缓存功能;
灵活配置数据集使用模式:用户可以选择一个或多个存储系统的数据集(数据集可以是文件和文件夹),并能够分别单独指定训练环境内的挂载路径,分别单独指定数据使用模式:直接存储系统目录挂载、计算节点下载缓存。直接目录挂载,平台会将存储系统数据集目录直接挂载至训练任务环境内;计算节点下载缓存方式,平台会首先将数据集从存储系统下载至计算节点本地,然后将本地缓存的数据集挂载至训练容器内使用;
数据集拉取可视化:在页面中可以查看数据集的拉取进度,并且可以查看预估下载完成时间
数据缓存更新:用户提交任务时,可以对节点缓存方式的数据集选择是否进行更新;更新方式下,平台会自动对源端存储系统与节点已下载缓存的数据进行校验,自动增减计算节点缓存数据,与源端存储数据保持一致;无需人工操作;
支持源端存储系统:数据集下载缓存方式支持文件系统存储和对象文件系统存储,如BeeGFS、GPFS、Lustre、NFS、Ceph等;
节点数据集缓存生命周期管理
1. 用户可以在平台页面创建节点数据集缓存任务,平台自动将所选数据集缓存至计算节点本地,无需人工干预;
2. 用户可以在页面查看数据集缓存的进度信息(下载百分比及预估剩余时间);
3. 用户可以在页面能够查看计算节点缓存数据集的信息(数据集路径、大小、最近使用时间、是否正在使用),并可以手动清理节点一个或多个缓存数据;
4. 数据集自动管理功能:平台能够按照节点本地磁盘空间大小单独设置缓存空间的使用值;平台也支持自动按照磁盘空间使用率(如95%)灵活差异化使用各节点本地磁盘空间,在磁盘使用率低于指定值时,可以一直缓存数据,高于指定值时,自动对缓存数据清理;平台在节点磁盘使用打到阈值时,可以自动清零磁盘数据,清理策略支持LRU算法。
缓存亲和性调度:在节点其他条件对等的情况下,调度系统优先将训练任务调度至已缓存该任务请求数据的计算节点。如该任务使用数据dataA,且是节点下载缓存的方式使用,集群内存在节点node1(已缓存数据dataA)、node2。则调度系统会将该任务调度至node1节点,从而直接使用已缓存的数据。
数据集下载加速
1.支持千万级别小文件数据集多线程读取,读取性能速度优于传统命令拷贝方式;
2.支持内置NFS存储中数据集小文件聚合打包功能特性,加速训练数据读取;

基础功能需求

14

资源  管理


加速卡异构,快速适配能力
基于不同的应用场景和对计算能力的不同需求,该平台需支持灵活的选用不同硬件构成的异构计算单元,支持主流的CPU、ARM(计算节点)、GPU 芯片,支持国产寒武纪芯片(MLU290、MLUX5K)、天垓100、灵汐300/201,华为昇腾训练卡,并可水平扩展至多机集群,以应对更强的算力需求。
平台在对接异构加速卡时,提供以下能力:
1.
自动资源接入:平台支持异构加速卡节点的自动扩容,能够实现加速卡驱动等组件自动安装,自动扩容至平台计算机群;平台可以将节点加速卡类别型号、加速卡数量、显存大小等信息自动同步。用户在页面可以看到该加速卡节点的详细信息(加速卡类别型号、加速卡个数、显存大小等);
2.
支持异构加速卡资源池混部:异构加速卡节点可以纳入同一机群资源池管理,如GPU、MLU、天垓加速卡支持在同一资源池内混合部署,调度器根据资源类型进行差异化调度;
3.
作业使用异构加速卡:用户提交训练任务时,可以指定计算任务使用的加速卡类型和数量,调度系统自动根据作业需求在资源池内选择对应的加速卡节点,为计算任务分配资源、自动构建运行环境运行训练任务;
4.
加速卡配额管理:平台接入新加速卡时,会自动进行用户、用户组对该加速卡配额进行配置管理;管理员可以分别设置用户、用户组维度的该加速卡的使用配额;用户在提交任务时,可以选择该异构加速卡,对应加速卡配额会根据任务创建、结束自动进行配额更新。
5.
加速卡监控及报表:平台能够对新接入异构加速卡进行自动监控,平台可以从加速卡、异构加速卡节点、资源组等层面进行数据采集,并提供页面化的汇总展示;
6.
动态页面展示:平台无需管理组件升级,即可有效支持异构加速卡的动态接入。如监控自动展示新异构加速卡状态、节点信息自动展示加速卡信息(个数、型号、显存等)、任务提交自动更新加速卡系列型号、监控及报表管理自动更新视图展示各维度的信息

实际使用场景需求


大规模管


支持大规模集群资源管理,能够支持不低于300节点千级别加速卡算力管理

后续扩容需求

15

网络  异构


1.在集群网络部署支持多种网络时,可以通过页面化的操作来快速切换节点计算使用的网络,支持ether、IB、RoCE的切换。切换后,计算任务自动适配计算网络。
2.支持管理、计算、存储网络分离,支持计算网络、存储网络使用高性能网卡
3.支持OFED驱动自动加载,训练任务镜像无需内置OFED驱动,既可以使用RDMA网络通信

4.支持训练任务自动加载多张IB卡,可以为训练任务分配任意数量GPU卡,训练任务内任意GPU卡可以基于RDMA通信
5.支持训练任务自动加载多张ROCE网卡,可以为训练任务分配任意数量GPU卡,训练任务内任意GPU卡可以基于RDMA通信

后续扩容需求

16

集群  扩缩容


扩容:支持节点扩容模板,待扩容节点按照模板组织后,可以实现自动化节点扩容操作,平台自动安装网卡驱动(IB、RoCE等驱动)、加速卡驱动(GPU驱动、寒武纪MLU驱动等),无需人工干预。支持多操作系统(centos、ubuntu、麒麟等)扩容;支持批量多节点操作;
缩容:实现页面化操作,自动化完成平台节点移除操作,无需人工干预。


17

资源组划分模式


支持管理员按需指定节点进行资源分组,不同厂商异构加速卡可以划分为一个资源组;管理员可以将资源组指定给一个或多个用户组使用;支持将资源组按照使用模式划分为训练使用资源组(仅允许运行训练任务)、开发使用资源组(仅允许运行开发调试环境)和通用资源组(可同时供开发和训练使用);


18

资源组粒度的资源管理


支持资源组任务规格限制:管理员可以设置提交至该资源组的最小资源规格,支持CPU个数、加速卡个数和单机分布式任务属性等;
支持资源组任务超时控制:管理员可以设置该资源组任务最长运行时间,超时任务可以配置发送通知至任务所属用户或者直接停止任务;
支持资源组CPU弹性使用
:管理员可以设置该资源组任务能够弹性使用CPU的最大值(如N个CPU)。用户提交训练任务至该资源组后,不仅可以使用申请的CPU配额,同时在节点资源空闲时可以超额使用最多N个CPU,以提高训练速度和集群资源使用率。

资源利用需求

19

用户配额管理


支持用户、用户组的CPU、存储容量、异构卡整卡的(GPU、寒武纪、NPU、其他)配额管理,提供用户级别的GPU卡的MIG特性的配额管理;

防止英伟达断供,后续灵活扩容需求


节点  管理


1.节点算力管理:可在页面对某个节点进行下线操作,此时节点不再进行新资源调度,节点正在运行任务不受影响,以支持节点非停机类故障维修等工作。
2.节点存储管理:支持节点平台数据资源的生命周期管理工作,能够实现镜像、数据集缓存的自动清理操作。同时支持用户通过Web页面进行镜像和数据缓存的手动清理。


20

资源细粒度划分能力

提供基于web的GPU细粒度调度设置,允许多个任务同时使用一张GPU。平台提供以下几种GPU细粒度使用模式:
1.
MIG特性支持:平台支持单卡维度的MIG配置,每张卡可以独立配置MIG方案;支持训练任务和开发调试任务选择MIG实例进行使用,调度自动选择MIG实例资源调度使用;MIG使用计入用户用户组配额管理,计算方式:使用的MIG实例显存占整卡显存比例;

2. 显存隔离:平台支持GPU卡按照显存划分的方式进行使用,多个训练环境可以同时使用GPU,但彼此显存空间分离,但任务故障不影响其他同卡任务,实现故障隔离;训练环境按照显存大小申请资源,管理员可设置显存大小的最小粒度(如1GB、2GB等),调度系统自动跟踪单卡维度显存分配调度;显存隔离使用计入用户用户组配额管理,计算方式:训练环境使用显存大小占整卡显存比例;
3.
复用率:平台支持GPU卡按照并发训练个数进行配置使用,多个训练环境可以同时使用GPU,由管理员设置单GPU被分配的并发使用数量(复用率),调度系统自动跟踪单卡维度的复用率计算和调度;复用率使用计入用户用户组配额管理,计算方式:使用卡数量/复用率。

(以上功能提供软件功能截图)

实际使用需求

21

镜像  管理


支持通过Docker快速创建计算环境,基于Kubernetes进行可移植容器的编排管理,计算环境隔离互不影响,内置各种AI框架镜像,包括 Tensorflow、Caffe、pytorch、PaddlePaddle、MXNet主流框架版本,兼容web开源镜像和用户自定义镜像


22

镜像拉取加速


镜像管理支持镜像下载P2P模式,在大规模训练任务高并发镜像下载时,利用计算节点资源构建镜像P2P网络进行镜像数据分发,将对镜像仓库网络下载压力由节点并发下载数降低为1次下载,能够规避高并发训练导致的镜像下载慢和失败问题,提供与计算节点数正相关的镜像网络总下载带宽

实际使用需求

23

镜像属性信息查看


用户可以在页面查看镜像的信息,支持按照框架、名称、标签、共享方式对镜像进行搜索;对于单个镜像,用户可以查看该镜像的大小、历史使用次数、最近使用时间、制作者、备注、使用范围等信息


24

镜像  管理


镜像制作:支持多种页面化的镜像制作方式,如Dockerfile、已有开发环境(docker container)保存、外部镜像仓库镜像导入、镜像导出文件导入;镜像制作时,提供页面化的进度信息和制作过程日志信息;镜像制作过程中允许终止制作;
镜像分享:支持镜像平台内共享操作,共享范围包括平台内、用户组内;支持取消共享操作;
镜像删除:用户可以通过页面的方式,删除平台内镜像;
镜像缓存生命周期管理:用户发起训练时选择镜像,平台自动下载镜像至计算节点;在计算节点磁盘空间紧张时,平台自动清理无用镜像;平台也提供页面化的方式,供用户查看节点维度的镜像情况,展示该计算节点所有的镜像信息(如镜像名称、标签、大小、是否在用、被哪些训练任务使用、上传者、创建时间等),同时支持用户并发删除一个或多个镜像缓存操作。


25

镜像  仓库


支持外部镜像仓库:能够对接客户自有镜像仓库服务,提供通过客户自有仓库镜像创建容器能力;
支持NGC镜像仓库:可以通过NGC token认证机制,完成NGC镜像的导入和管理


26

在线模型开发能力


1.交互式开发:支持用户通过平台内置AI镜像或用户自定义镜像进行环境创建交互式开发环境,环境实例可以使用CPU资源也可以使用GPU资源;开发环境支持Jupyter、web shell的在线交互开发,支持对接第三方开发工具(如VSCode、PyCharm);平台支持开发实例的镜像持久化,在实例中安装的软件包在下次创建启动后可以继续使用;
2.多实例:提供单机、多实例快速部署方式,多实例间自动建立ssh免密配置;
3.开发过程评估:支持开发环境容器维度的资源监控,包括CPU、内存、加速卡(计算利用率、显存利用率、nvlink带宽)、网络IO(支持以太、IB、RoCE网卡)、磁盘IO的实时监控,提供页面化的实时动态趋势图展示;
4.端口开放:提供开放端口能力,可以支持用户自定义在线服务部署;
5.数据集热挂载:运行状态的开发调试环境,在不重启该环境的前提下,提供动态挂载数据集至容器的功能;用户发起热挂载后,平台可以将所选数据集缓存至该调试环境所在节点,并根据用户指定的容器内目的路径挂载;热挂载过程中,用户可以查看热挂载任务的进度信息和预估剩余时间、成功或失败状态;
6.可视化能力:支持tensorboard、Visdom、Netscope可视化框架,用户可以通过页面化方式发起可视化服务
7.GPU共享细粒度管理:支持调度挂载多张GPU共享卡的开发环境,例如单个开发环境可以挂载2张GPU卡,每张GPU卡显存大小为1G

后续开发使用需求

27

模型训练全生命周期管理


平台提供模型训练任务的全生命周期管理能力,提供页面化的训练任务状态跟踪,包括训练任务创建、环境准备、运行、成功、失败等:用户可以页面化的提交任务、在环境准备时查看镜像下载状态或数据集下载进度、在运行时查看任务实时日志和资源使用情况、运行结束时查看任务历史日志和历史资源使用情况;


28

训练  支持


训练框架支持:支持基于容器的模型训练功能。对Tensorflow、Caffe、pytorch、PaddlePaddle、MXNet、Mindspore框架,用户可自定义训练使用的框架版本;
训练分布式支持:支持AI模型的多机分布式训练,提供模板可以提交Tensorflow、Caffe、pytorch、PaddlePaddle、MXNet框架的分布式训练作业,支持的分布式类型有:MPI、Master/Worker、PS/Worker、Server/Worker、Pytorch DDP等;
训练资源自定义配置:用户可通过页面的方式,指定任务使用的容器数量、加速卡数量、内存、指定不同的加速卡型号资源,并且可以实时查看训练日志,监控各容器内资源使用状况;同时提供服务端口开放功能,容器内服务端口自动映射至平台开放端口;
训练可视化:支持tensorboard、Visdom、Netscope可视化框架,用户可以通过页面化方式发起可视化服务


29

训练过程评估


支持训练过程中训练日志;支持训练容器维度的资源监控,包括CPU、内存、加速卡(计算利用率、显存利用率、nvlink带宽)、网络IO(支持以太、IB、RoCE网卡)、磁盘IO的实时监控,提供页面化的实时动态趋势图展示;

资源管理需求

30

训练作业容错


监控系统能够识别平台内的故障信息,平台能够自动识别非训练任务自身故障、硬件网络失效等第三方故障,自动对模型训练任务进行容错重启,从而避免第三方故障导致任务失败重复计算;

资源管理需求

31

弹性   任务


支持按照worker的最大值弹性伸缩,按需动态分配计算资源;可以根据运行情况,动态调整训练任务资源,保障巨量规模训练的时效性和可靠性;

时效性、可靠性需求

32

模型   管理


模型导入:将生产训练好的模型按照不同模型类别、版本有序进行存储和管理,管理的维度有:模型名称、版本、场景、训练数据、训练镜像和脚本、模型文件、模型描述、参数信息(如batch size、learning rate、weight_decay、momentum等)和评估信息(如评估数据、评估镜像、召回率、准确率、精确率、F1值等);支持将符合技术标准的外部训练模型导入,在平台中进行统一管理
版本管理:支持模型版本化管理,提供模型多次迭代间的版本化组织功能;
共享管理:支持模型平台内共享,分享范围包括平台和用户组;支持模型发布功能,发布模型可以供第三方平台下载使用;
模型访问:用户可以将有权限的模型挂载至模型开发调试环境、训练任务、算法任务和工作流任务中,提供模型的二次开发和使用能力


33

测试


模型测试:支持模型在线测试和离线测试两种方式,具体包括:
在线测试:用户可以页面化发起在线测试任务,通过开发服务端口的方式提供模型测试服务,支持常见的在线测试方式,如tensorflow-serving、tensorRT-server、torch-server等,支持http、gRPC等多种调用方式;
离线测试:用户可以页面化发起离线测试任务,用户指定测试使用的资源规格(CPU、加速卡型号及个数)、离线测试脚本、离线测试数据等,发起任务后,平台自动将模型挂载至离线测试任务环境内,根据用户自定义脚本批处理式的进行模型测试

开发使用需求

34

算法


算法管理:平台可以规范模型训练的输入、训练使用镜像、训练资源规格、输出,提供算法的版本化管理。
算法创建:平台提供页面化的算法管理功能,算法包括名称、版本、运行时镜像、训练脚本/命令、环境变量、模型、资源规格(CPU、加速卡种类及个数等)、单机或分布式运行模式、描述等;
算法训练:支持算法的调试和训练,用户可以根据算法模板快速发起模型训练任务;
算法发布与共享:用户可以将训练好的算法发布,发布的算法固化至算法库,不允许再次编辑;发布算法可供平台内用户、用户组和全平台使用;
算法收藏:提供算法收藏功能,用户可以页面化的对某些算法收藏至收藏夹;支持取消算法收藏;

效率需求

35

多样化调度能力


1.支持任务级别的资源调度方式功能,支持指定节点、GPU型号亲和调度、支持紧急任务调度;
2.支持数据集亲和性调度,即自动将训练任务优先调度到已经存在所需数据集的节点
3.支持基于节点物理拓扑信息调度,即支持将训练任务绑定到CPU
4.支持用户组轮询调度、高中低优先调度,即多个用户组共用资源组时,可以按照训练任务所属用户组、用户组优先级进行资源调度分配
5.支持紧急任务调度,对于紧急任务,可以提高训练任务优先级,优先完成紧急任务调度;紧急任务队列支持页面化的队列排序,支持平台用户手动调整紧急队列内的任务优先级
6.GPU共享细粒度调度,支持节点内GPU卡,按照GPU利用率进行分配
7.支持交换机网络拓扑调整,可以优先将任务调度到同一交换机内计算节点

效率需求

36

工作流


工作流管理:平台提供工作流调度功能;用户可以定义模型训练的数据处理、模型算法训练过程,支持自定义数据处理脚本、数据输入输出、数据处理任务资源规格,支持自定义选择模型算法、运行参数、环境变量、模型挂载、单机分布式运行模式,用户可自定义模型导出相关信息(如模型名及版本);
工作流自定义运行周期:工作流支持手动触发运行;支持周期性运行模式,间隔固定时间后由平台自动触发运行;
工作流定义子任务:支持创建多个子任务,每个子任务独立运行,多个任务以串行方式运行,提供功能截图;
工作流模型导入:工作流产生的模型,可自动导入至模型管理模块;

基础功能需求

37

多租户管理


1.支持用户和用户组创建功能、修改、删除功能;
2.支持不同的用户角色,提供普通用户、组管理员用户、审计用户、系统管理员角色;
3.支持对接用户认证系统后提供用户和用户组导入功能,提供创建用户家目录和不创建用户家目的两种方式,提供导入组织架构和不导入组织架构两种方式;


38


日志管理


1.支持所有操作日志记录信息,提供不同模块进行日志查询功能;
2.支持不同的用户角色查看不同的日志,且提供模糊查询功能;
3.支持日志导出功能;


39

资源报表统计


支持以集群、资源组、节点维度进行计算资源的利用率及占用情况统计,包括:
1.集群统计,支持以曲线图的形式展示整个集群资源使用情况,包括:节点总数、CPU总数、CPU使用均值、CPU利用率均值/峰值、内存利用率均值/峰值,按照加速卡类型显示加速卡未用/总数、加速卡使用均值、加速卡利用率均值/峰值、加速卡显存利用率均值/峰值
2.
资源组统计,支持以柱状图的形式展示每个资源组中加速卡占用和加速卡利用率使用情况;支持以曲线图的形式展示每个资源组的使用情况,包括:CPU使用核数/总数、CPU利用率均值/峰值、加速卡使用卡数/总数、加速卡利用率均值/峰值、加速卡显存利用率均值/峰值
3.节点统计,支持以曲线图的形式展示每个节点中资源使用情况,包括:CPU使用核数/总数、CPU利用率均值/峰值、加速卡使用卡数/总数、加速卡利用率均值/峰值、加速卡显存利用率均值/峰值

基础功能需求

40

任务报表统计


1.支持任务提交总数、任务平均运行时长、任务平均加速卡占用个数、人均任务数量的统计
2.支持以曲线图的形式展示每小时任务提交数
3.支持以柱状图的形式展示运行时长区间内(12小时内、24小时内、48小时内、超过48小时)的任务数

基础功能需求

41

租户报表统计


1.支持整个集群中数据的统计,包括:管理员数量、开发人员数量、人均任务量、人均GPU卡时
2.支持按照用户和用户组统计资源使用情况,包括:任务总量、 CPU 已用核时、 CPU配额核时、 GPU 已用卡时、 GPU 配额卡时、 GPU 利用率、 GPU 显存利用率

基础功能需求

42

机时报表统计


1.支持整个集群中数据的统计,包括:任务总量、任务总机时、 CPU 任务总核时、 GPU 任务总卡时
2.支持以用户、用户组为维度分别统计,包括:任务总量、任务总机时、 CPU 任务总核时、 GPU 任务总卡时
3.支持查看某个用户、用户组中每条任务的详细信息,包括:任务 ID、任务名称、用户、用户组、资源组、资源规格、节点列表、 CPU 核时、加速卡卡时、加速卡类型、提交时间、运行时间、完成时间、运行时长

基础功能需求

43

存储报表统计


支持以用户、用户组为单位统计存储的使用量


44

报表多样性查询和导出


1.支持按照24小时、7天、30天、半年、一年、自定义时间来完成报表数据的查询和导出
2.支持自定义导出项来完成报表数据的导出
3.支持一键式导出报表的概览信息以及对应的详细信息
4.支持以后台任务的方式导出大数据量报表(查询时间超过5分钟,时间可定义),并且导出完成之后通知用户,减少用户的交互等待时间

基础功能需求

45

自定义报表


1.支持以web页面的方式对接客户特殊场景的数据统计,数据统计支持方式包括:API、SDK、shell脚本、python脚本
2.支持从web页面完成用户自定义报表数据的查询和导出

基础功能需求

46

计费管理


1.支持以资源组为单位定义CPU和加速卡的单价
2.支持以集群为单位,按照账单类型(月账单、周账单、天账单)输出账单,包括:账期、作业总数(个)、作业平均运行时长(小时)、CPU(核 * 时)、加速卡(卡 * 时)、消费金额( ¥)

3.支持以用户组为单位,按照账单类型(月账单、周账单、天账单)输出账单,包括:账期、用户组、作业总数(个)、作业平均运行时长(小时)、 CPU(核 *时)、加速卡(卡 * 时)、消费金额( ¥)
4.支持以用户为单位,按照账单类型(月账单、周账单、天账单)输出账单,包括:账期、用户、用户组、作业总数(个)、作业平均运行时长(小时)、 CPU(核 * 时)、加速卡(卡 * 时)、消费金额( ¥)
5.支持以任务为单位,统计每个任务的账单信息,包括:任务 ID、任务名称、用户账号、用户组、申请资源、节点列表、 CPU 核时(小时)、加速卡卡时(小时)、 CPU 机时费( ¥)、加速卡机时费( ¥)、任务提交时间、任务运行时间、任务完成时间、任务完成月份、运行时长(小时)、 CPU 单价( ¥/核/时)、加速卡单价( ¥/卡/时)、资源组、任务机时费( ¥)、任务等待时间(小时)
6.支持自定义导出项来完成账单信息的一键式导出

基础功能需求

47

集群整体视图


按照加速卡类型(GPU、寒武纪、天垓等)展示集群中当前卡的使用情况以及一天内的资源利用率,具体如下:
1.GPU当前占用情况:开发任务占用、训练任务占用、工作流占用、总卡数、未占用卡数
2.GPU利用率统计:最近1小时/12小时/24小时所有GPU卡的利用率均值、最大值、最小值,最近一天内开发资源、训练资源、通用资源的GPU平均利用率曲线图与均值直线图
3.GPU显存利用率统计:最近1小时/12小时/24小时所有GPU卡显存的利用率均值、最大值、最小值,最近一天内开发资源、训练资源、通用资源的GPU 显存平均利用率曲线图与均值直线图


48

加速卡占用视图


1.支持以色块的方式展示每张卡的占用情况,并且不同的任务按照不同颜色区分
2.支持故障卡的快速识别,标记为红色


49

加速卡利用率视图


以卡为单位展示每张卡的利率用,并且通过色块的方式快速识别利用率区间,还可以查看每张卡的基本信息(加速卡名称、型号、显存已用/总量、加速卡利用率、显存利用率和加速卡是否掉卡)



50

节点  视图


1.节点基本信息:节点名称、状态、资源组名称、CPU(%)、内存(%)、负载、加速卡在用/总量、CPU在用/总量,任务数量
2.节点任务信息:任务名称、用户姓名、用户账户、电话、邮箱、用户组
3.节点加速卡信息:ID(节点名称_索引号,形如node1_1)、类型(加速卡名称)、加速卡利用率、加速卡显存利用率、温度(°C)、功率(W)、运行的任务数量,点击链接加速卡ID之后跳转到加速卡性能曲线位置


51

丰富的性能曲线


1.节点维度支持CPU使用率、内存使用率、网络吞吐、节点负载、磁盘吞吐等
2.支持Infiniband性能数据,包括:ib_xmitdata、ib_rcvdata、ib_xmitpktsize、ib_rcvpktsize
3.支持加速卡性能数据,包括:PciMaxWidth、PciCurWidth、加速卡温度、加速卡利用率、加速卡功率、加速卡显存使用况、GPUclock、grEngineActive、smActive、smOccupancy、tensorActive、dramActive、fp16Active、fp32Active、fp64Active、pcieRxBytes、pcieTxBytes、nvlinkRxBytes、nvlinkTxBytes

提供软件功能截图

管理需求

52

存储容量监控


支持存储总容量、已用量、剩余容量的WEB界面显示。支持存储配额已分配容量、未分配容量统计;
支持每个用户家目录已用容量、用户组已用容量的统计;


53

DCGM健康检查


1.支持查看当前节点的GPU物理信息、健康检查选项与开启状态、健康检查结果信息
2.支持健康检查选项的开启和关闭
3.支持查看卡的健康信息,包括设备信息、功率限制、温度限制、clocks

基础功能需求

54

报警信息管理


1.支持报警信息查看,包括::节点名称、报警名称、报警类型(报警、恢复)、报警等级(一般报警、严重报警)、报警内容、报警资源、处理状态(待认领、处理中、已解决、已忽略)、报警时间、接收对象类型(角色、用户)、接收对象、报警指标趋势
2.支持查看报警信息对应监控指标在发生报警的前后 15 分钟时间段内的监控数据趋势图
3.支持用户自定义故障处理策略,并且通过web页面完成管理和触发
4.多维度报警信息分析,包括:按照级别统计故障数、按照报警策略统计故障数、按照处理时长统计故障信息


55

报警策略定义


1.支持多种报警指标组合使用,比如GPU利用率和节点CPU使用率同时满足时产生报警信息
2.支持定义不同的报警通知对象,包括以用户组为单位、用户为单位,并支持通知给平台外用户
3.支持多种通知方式,包括:邮箱、平台内提醒
4.支持自定义通知模板,包括报警指标信息、级别信息、对比方式等
5.支持配置故障产生时的后置处理策略,并且在故障产生时立即生效
6.支持故障频率、故障次数的灵活配置,防止故障信息堆积


56

自定义报警策略


支持对接客户特殊场景的故障检测,客户需要按照平台规范完成一次性对接即可,具体包括:
1.支持自定义故障检测脚本的批量下发(下发到集群所有节点中),以及故障检测策略的配置,比如采集周期等
2.支持使用自定义的故障检测脚本完成报警策略的定义
3.支持自定义故障产生时的后续动作


57

内置丰富的报警策略


1.加速卡:加速卡显存使用率、加速卡使用率、加速卡功耗、加速卡温度、加速卡掉卡
2.CPU:CPU使用率、CPU_USER使用率、CPU_SYSTEM使用率、CPU_IOWAIT使用率
3.网络:网络流入量、网络流出量、高速网卡不可用
4.内存:内存使用率
5.磁盘:磁盘读取量、磁盘写入量、磁盘挂载点使用率、镜像缓存空间利用率
6.节点:主机不可用(与管理节点无法ping通)、节点未准备好(Kubernetes中的状态)、节点计算与存储网络状态
7.容器:容器CPU使用率、容器内存使用率

基础功能需求

58

平台  运维

自动运维:提供平台故障自恢复能力,实现平台组件故障的自动检测、自动处理功能,提高平台稳定性和自运维能力
自动故障识别与处理
:自动运维能够识别平台内已知常见故障,能够在故障发生时自动告警,并生成处理任务,自动进行故障处理;
故障手动处理:支持管理员登录平台后,通过页面对平台组件进行手动故障处理;支持管理员查看组件在所选时间内的故障趋势和故障事件;
支持独立部署:自动运维支持独立部署,部署上避免平台通用组件故障造成的功能失效,实现故障隔离及高可用;

(提供软件功能截图)

基础功能需求

59

兼容的操作系统


支持Centos7.9,Ubuntu18.04、麒麟V10


60

信创


海光服务器适配


61

北向  接口


1.支持训练任务的全生命周期管理,包括:创建、列表数据查询、删除、任务基本信息查询、任务日志信息查询、任务资源使用查询(IB吞吐、CPU利用率、GPU利用率、GPU显存利用率、磁盘读写、内存利用率等)
2.支持报警信息查询,信息包括:报警内容、报警等级、报警时间、报警资源等
3.支持加速卡信息查询,信息包括:加速卡名称、节点名称、显存总数、显存已用、利用率等


62

认证  对接


1.支持对接LDAP、NIS系统,支持用户信息平滑迁移,支持OpenLDAP、AD域、NIS、FreeIPA协议认证;
2.支持认证协议的映射关系配置,方便用户导入时自动将认证系统中的用户基本信息,如邮箱、联系方式等导入平台;
3.支持通过SAML协议使用联合身份访问,增加认证系统连接状态的健康监控;


63

部署  能力


多实例部署:平台提供高可用部署模式,核心服务实现多机多实例部署;核心数据实现多机存储;
实例配置化扩缩容:平台可以根据业务流量等因素,通过配置化的方式实现业务组件实例的扩缩容,已适配不同的业务规模;
自动化部署:自动完成GPU驱动、OFED驱动、镜像仓库、集群高可用的部署配置

效率需求

64

容错  能力


故障自动切换:在高可用部署状态下,单机故障或单模块故障下能够实现服务的自动切换,不影响平台服务整体的可用性,且切换过程中不影响正在运行的任务

基础功能需求

65

身份  鉴别


1.支持密码策略的配置,包括:密码复杂度、密码长度、密码有效期等
2.支持密码错误的账号锁定策略和解锁策略
3.支持同一个账号只能一个登陆同时在线
4.支持密码到期提醒
5.支持密码中不能包含当前用户的账号
6.支持token会话超时控制


66

网络  隔离


1.支持基于用户组的网络隔离策略
2.支持配置集群网络隔离, 即集群内的训练任务禁止访问集群外地址

安全需求

67

敏感数据安全


对于重要信息的查看和修改平台开启二次密码确认功能;比如查看密码功能需要再次输入平台登录密码才可以查看;


68

敏感功能安全


平台中所有敏感信息都已加密或者星号显示,如果想查看都需要输入密码确认;


69


权限控制


支持基于角色、版本、用户等多维度对用户访问进行控制;


70

加密  算法


核心数据加密:存储在数据库中的关键敏感数据以加密形式存储,支持AES等常见加密算法;
加密协议支持:涉及到密码和传输时统一使用sm2、aes128(CBC模式)、aes256(CBC模式)、sha256相关的加密/解密算法


71

安全加固


docker安全加固,通过内部加固、外部防控,支持CIS L2级别核心安全标准
kubernetes安全加固,通过内部加固、外部防控,支持CIS L2级别核心安全标准


3. InfiniBand交换机  1 台)

序号

指标项

重要性

指标要求

关键指标理由

1

基本要求


高度1U,适用于通用机房环境,支持标准机柜,安装调试至正常运行


2

设备参数

交换机端口:≥36,端口速率:≥ 100Gbps,网络带宽吞吐量≥7Tb/s-1PS,,电源接口数:≥2,支持RJ45管理。

基础性能需求

4.管理交换机  1 台)

序号

指标项

重要性

指标要求

关键指标理由

1

设备参数

交换容量336Gbps/3.36Tbps,包转发率108/126Mpps  

24个10/100/1000BASE-T以太网端口,4个万兆SFP+,交流供电

基础性能需求

5. 光纤交换机  1 台)

序号

指标项

重要性

指标要求

关键指标理由

1

设备参数

24个万兆SFP+,6个100GE QSFP28,含1个600W交流电源,5个万兆光模块

交换容量2.56Tbps/25.6Tbps,包转发率1260Mpps,支持双电源,支持扩Vxlan

基础性能需求

6.显卡1(5块)

序号

指标项

重要性

指标要求

关键指标理由

1

设备参数

1、FP64双精度计算性能≥9.7TFLOPS,FP32单精度计算性能≥19.5TFLOPS

2、显存容量≥80GB HBM2e,显存带宽≥1930GB/s

3、支持多实例GPU 最多7个MIG,每个 10GB

4、搭载2个GPU的 NVIDIA〞NVLink” 桥接器:400GB/S,PCle 4.0: 64GB/s

5、支持PCle双插槽风冷式或单插槽液冷式

基础性能需求

7.显卡2(1块)

序号

指标项

重要性

指标要求

关键指标理由

1

设备参数

1、FP32单精度计算性能≥27.8TFLOPS

2、显存容量≥24GB GDDR6,显存带宽≥768GB/s

3、PCIe4.0x16,4xDisplayPort 1.4,插槽数量≥2

4、Tensor Cores≥256,RT Cores≥64

基础性能需求

工程类须另附:施工图纸、工程量清单、主材清单(如有)、控制价等。

五、商务和服务需求

序号

商务和服务项目

重要性

商务和服务要求

1

供货期


合同签订后十个工作日内

2

质保期


三年

3

原厂售后

服务承诺


提供原厂三年质保服务,并提供原厂售后服务承诺函

4

服务标准


所有硬件  年免费保修、所有软件   年免费保修升级、电话报修后  4 小时上门服务、  1 小时内排除故障。

所有硬件过  年免费保修期后按原价维修(按投标货物价格数量表所列价格,更换零部件的按合同签订时的零部件价格)、所有软件终身免费升级

5

安装调试


根据甲方需求及现场实际情况,安排合适的人员或者团队进行安装调试工作

6

 


提供不少于 3 天不少于 1  的主要设备厂商(认证的)工程师安装配置等实操培训课程,场地、交通等与培训相关的费用均由成交供应商承担。

7

验收标准


验收时设备为整机,并按招标要求的性能、功能等技术指标和双方签订的合同所规定的条款进行验收。

8

付款方式


货物经甲方验收合格后30个工作日内,甲方支付合同金额的90%给乙方,无故障使用年后支付合同金额的8%,质保期满后支付合同金额的2%。


六、特定资格条件

除《中华人民共和国政府采购法》第二十二条规定的供应商应具备的条件外,采购人可以根据采购项目的特殊要求,规定供应商的特定资格条件,如国家或行业强制性标准等。但不得以不合理的条件对供应商实行差别待遇或者歧视待遇。

版权所有 2017-2020   江苏大学采购与招标  版权所有  苏ICP备05071359号
地址:江苏省镇江市学府路301号行政二号楼6楼 邮编:212013