能否建立一个的 AI 训练众包平台

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个专门讨论 idea 的地方。

每个人的时间，资源是有限的，有的时候你或许能够想到很多 idea，但是由于现实的限制，却并不是所有的 idea 都能够成为现实。

那这个时候，不妨可以把那些 idea 分享出来，启发别人。

这是一个创建于 637 天前的主题，其中的信息可能已经有所发展或是发生改变。

已经有很多人讨论过这个点子了，就像挖矿一样；能否建立一个的 AI 训练众包平台；家里有显卡的小伙伴可以把闲置的设备租出去赚取收益；而没有强力计算设备的用户无需花费大量资金购买设备，只需登录平台，提交任务即可进行 AI 训练；

之前的技术瓶颈在于几乎不可能将大规模的 AI 训练拆分成一个个分布式的小任务，因为数据量庞大，并行交换要求高速的带宽等等；但是目前像 Stable Diffusion 这样的图像处理任务，一旦部署了稳定和标准化的模型，是可以将任务拆分为极小的数据单位的；这样技术上就能将一个个任务分配给某一台个人 PC 去处理；

我拍脑袋想了一下，建立这样一个平台的难点在于反作弊和计算量评估；这两点应该都有合适的解决方案；

反作弊可以参考挖矿的算法，为每个客户端生成一对公 /私钥，服务端下发每个计算任务时，采用私钥加密；客户端上传每个计算任务时，采用公钥加密；
计算量评估先期可以采用服务端评估的方法；后期可以通过下发任务给配置类似的客户端，采用同一个客户端并行执行同一任务，然后比较计算时间，来建立一个靠谱的计算量评估机制
最后是防止滥用和羊毛党，可以采用信用评分，对于完成任务优秀的客户端打高分，给它分配更多更高收益的任务，从经济系统上进行激励；

我搜了一下，目前这个点子的相关项目不是很多，都在起步阶段，我觉得挺有前景的；

大家讨论一下，这个项目在技术 /商业 /可行性上有哪里漏洞？

我在 github 上建立一个一下项目，有兴趣的小伙伴可以去讨论下:

https://github.com/aitobox

第 1 条附言 · 2023-06-14 11:14:43 +08:00

我的描述可能不是很清楚；再补充一下；

这个众包平台并不是要把大模型训练这个过程拆分；而是把一个个完整的任务，比如一个文生图这样的任务，分发给平台上各个接单设备；

这种单个的、使用固定模型、使用标准化参数输入的任务，是可以分别派单的；

这个平台不涉及高深的训练算法；只是想把咸鱼画图接单流水化而已；

第 2 条附言 · 2023-06-14 13:59:54 +08:00

再次补充：

这个平台可以先不涉及高大上的边缘计算、联邦计算、多卡并联等等等等；
他就是个 AI 算力的咸鱼平台，可以先做一些单卡运算的推理任务；

任务

计算量

客户端

私钥

82 条回复 • 2024-06-03 15:52:33 +08:00

xingHI

2023-06-14 10:11:57 +08:00

人工智能训练本质上也是数学计算的过程，所以分布式肯定是没问题的。但是有一些比较麻烦的问题
1. 你不可能把整个模型都放在客户端，你需要对你的神经网络进行拆分，或者把特定的技术分开，这个拆分目前是否已经有成熟的方案？
2. 神经网络的本质是完整的链接反应和反馈修正，万一某一台没有完成任务，你是不是需要重新分配，那么后面的连接内容是不是就不能继续，就要等待这个完成，这个如何进行优化？
3. 从商业角度来看，你这一套东西之成本，是否比现在成熟的公有云 GPU 算力平台便宜？

brainzhang

2023-06-14 10:13:51 +08:00

拍脑袋简单想一下设计思路；
简单的分为 Client 和 Server 两个部分:

Server 端功能：
=========

- 用户注册和认证：提供用户注册和认证功能，确保只有经过验证的用户才能使用平台服务。

- 任务管理：实现任务创建、分配和执行跟踪功能。将用户提交的任务进行分配给可用的 Client 端，并跟踪任务的执行状态和进度。

- 收益统计和分配：记录用户的工作量和收益情况，并根据平台规则进行收益分配。确保公平和透明的收益分配机制。

- 防作弊机制：实施防作弊机制，采用非对称机密算法确保 Client 端的安全性和工作量的保护。

Client 端功能：
=========

- 安装和配置：用户加入平台后，需要下载和安装 Client 端程序，并进行必要的配置，包括与 Server 端的通信设置和密钥管理。另外要部署好完成任务所需要的环境，比如 StandAlone 的 Stable Diffusion 环境

- 任务接收和执行：Client 端接收由 Server 端分配的任务，执行任务所需的计算操作，并生成结果。

- 结果上传：完成任务后，Client 端使用公钥加密任务结果，然后上传至 Server 端进行验证和处理。

防作弊机制：
=========
- 非对称加密算法：为每个 Client 端生成一对公私钥，Client 端只持有公钥。Server 端使用私钥对任务进行签名，Client 端使用公钥验证任务有效性，以确保任务的安全传输。

- 结果加密：Client 端使用公钥加密任务结果，上传至 Server 端。Server 端使用私钥解密任务结果，确保结果的保密性和完整性。

任务工作量验证和奖励机制：
=========

- 任务积分：根据任务的计算量大小，为任务分配一定的积分，以反映任务的工作量。

- 并行执行和结果比对：Server 端可以将一个任务分配给多个 Client 端并行执行，然后将结果进行比对，以确保结果的准确性和一致性。

- 信用评分：根据 Client 端的历史记录和表现，进行信用评分，评分高的 Client 端可以获得更高的任务奖励，激励诚实工作和打击造假。

总体设计目标：保证平台的安全性、可靠性和公平性，促进用户的参与和奖励诚实工作。

brainzhang

2023-06-14 10:18:38 +08:00

@xingHI
1. 现在想要实现分布式的神经网络训练肯定是技术难度极大的；但是本地跑一个图像生成的任务，肯定是能拆分独立运行的；先做简单的

2. 先不优化，大力出奇迹；接入客户端多了，可以一个任务同时分担到多个矿工机器上去，最后人工或 server 端挑选跑的结果比较好的

3. 这个跟公有云应该是错位竞争；它肯定不如公有云靠谱，毕竟接入的机器可能从 1060 到 A100 都有；但是肯定是能重复利用闲置设备的；这个我觉得算是众包和集中运营各有优势；这种众包形式可以给囊中羞涩的学生或者小工作室提供一个可选项；大公司就去租公有云；

brainzhang

2023-06-14 10:20:28 +08:00

可以更具体一步，当前把 stable diffusion 做成这种众包形式，我觉得技术上应该没有瓶颈吧;

brainzhang

2023-06-14 10:22:15 +08:00

至于模型太大，客户端太臃肿，这个真不用考虑；

当时不是有一堆零知识证明的币，要挖矿就要先下载一个十几 GB 的数据包，大家不也是玩的不亦乐乎嘛

crokily

2023-06-14 10:29:59 +08:00

@brainzhang
那怎么拆分呢，确定能拆的出来吗

brainzhang

2023-06-14 10:32:44 +08:00

@crokily 就拿 stable diffusion 举例子吧；最简单的，就是把 stable diffusion webui 的 Request 请求包装，传给客户端就可以了；每次生成一张图片，请求数据并不大啊；

这个细节在于一个靠谱的、下载好常用模型的 standalone stable diffusion Client ；加入众包平台，等着平台派单就可以了；

zooo

2023-06-14 10:39:23 +08:00

之前有过类似的想法，我记得之前有个帖子讨论过这种情况，好像有人给出过一个项目在做类似的事情

整体想法就是将 AI 计算与挖矿的工作量证明结合起来

难点是防止客户端恶意造假，比如并没有计算而给出错误的计算结果；还有就是估计计算量。

第一点我觉得通过加密的方式也不太好结果，通过多个客户端冗余计算倒是可以解决一些，缺点就是计算浪费了一部分。

hhjswf

2023-06-14 10:40:27 +08:00 via Android

早就有了吧

brainzhang

2023-06-14 10:43:59 +08:00

@zooo 我看过那个帖子；我觉得非要跟工作量证明挂钩大可不必；这个目的并不是建立一个去中心化的绝对公正的平台；而是一个比较可行的众包平台；比如我作为运营商给计算用户分配任务，不需要绝对公平，只要让他觉得相对比较公平的任务积分就可以了；初期甚至可以这样，人工来判断这个任务值多少积分，然后下发给合适的接单者；

这个过程初期都可以用人工，后期完成的任务多了，设备也多了，可以从服务端进行统计，为每一个任务建立合适的积分奖励；

brainzhang

2023-06-14 10:45:38 +08:00

@hhjswf 我就找到了一个类似的，也是刚刚在做:
https://github.com/aitobox/AI-Horde

请问您有什么成熟的类似平台推荐一下？我去试用试用，感激不尽；

zooo

2023-06-14 10:47:47 +08:00

@brainzhang 那你这个项目就是偏向将 AI 任务拆分，分布式计算，通过用户自己使用自己的机器接任务。

zooo

2023-06-14 10:48:33 +08:00

我想太多了，想复杂了

看到有加密就想到了挖矿哈哈哈哈

OysterQAQ

2023-06-14 10:50:44 +08:00

搜一下边缘计算的论文吧还涉及到一堆恶意回传梯度的问题

hhjswf

2023-06-14 10:52:40 +08:00 via Android

@brainzhang 恒源云算力变现计划

NSAtools

2023-06-14 10:58:01 +08:00

了解一下东数西算战略

brainzhang

2023-06-14 11:05:56 +08:00

@hhjswf 这个我看了；感觉它做的比较高大上，是想要做一站式的分布式 GPU 平台；

我想的这个比较简单，初期可以看成是 Stable Difussion 的众包平台；没有那么通用和底层；

Pteromyini

2023-06-14 11:09:50 +08:00

你想做的实际上跟边缘计算有异曲同工之处，问题是现阶段技术没法做到，而深度学习网络拆分更是大问题，并行计算一直是研究的热门方向，很遗憾，目前并没有太完美的解决方案

glfpes

2023-06-14 11:10:52 +08:00

单卡的训练，做成众包模式肯定没有问题

只是需求端一般是公司或者是科研机构，比起成本更追求服务稳定性，所以这个众包平台的目标客户只能是个人玩家。目前个人玩模型的还是少数，预期也不太可能人均训练模型。所以可能需求不大。

sujin190

2023-06-14 11:11:26 +08:00

数据安全也是一个很大问题，训练用的数据可都是各大公司的资产，云厂商可以通过签署合同承担责任，个人用户你没法约束他而且也不稳定，而且把现在普通显卡和专业超算算力差距会越来越大，大概率得不偿失

再说吧复杂模型必须只能是大厂商巨额投入才能玩得动的，否则如何建立护城河，越是难以进入的领域就代表着越高的回报，资金对于他们来说完全不是问题，所以这个的发展方向只会是更大更贵更复杂

brainzhang

2023-06-14 11:12:59 +08:00

@Pteromyini 我的描述可能不是很清楚；这个众包平台并不是要把大模型训练这个过程拆分；而是把一个个完整的任务，比如一个文生图这样的任务，分发给平台上各个接单设备；

这种单个的、使用固定模型、使用标准化参数输入的任务，是可以分别派单的；

这个平台不涉及高深的训练算法；只是想把咸鱼画图接单流水化而已；

chesha1

2023-06-14 11:15:07 +08:00

stable diffusion 本来就是推理，推理当然可以在边缘平台上随便拆分了，你的手机都能跑推理
但是大家现在的需求主要是训练，这个不好拆分

brainzhang

2023-06-14 11:19:58 +08:00

@chesha1 对的；我就是想做一个比较通用的推理众包平台，上面可以运行 stable diffusion 文生图、声音转换等等现成的模型任务；这些任务是可以单卡运行的；

至于需求，这个真不好说；我只能说这个跟公有云是错位竞争，面向个人爱好者和小工作室，不是给大企业训练模型用的；

Genii

2023-06-14 11:27:50 +08:00

联邦学习？

monkeyWie

2023-06-14 12:12:31 +08:00

感觉是个不错的点子，就看怎么抽象和设计了

xu11111111

2023-06-14 12:15:31 +08:00

可是怎么确保不传回假的数据呢，我直接瞎掰一个结果返回给你你怎么知道
就算采用多个设备一起计算
可是不同的设备的随机过程就不一样啊？他和挖矿不一样带了一点开奖的性质在
这样的话服务端怎么确保客户端真的算了呢

- 任务积分
- 并行执行和结果比对
- 信用评分

在可以造假的情况下，12 直接没有意义，3 应该是基于历史的 2 进行评分的吧，那也没有意义了

人工判断？那也太闲了，不同人的主观性如何修正？

综上，感觉不如直接卖设备

chesha1

2023-06-14 12:23:44 +08:00

@brainzhang 关键是推理的需求真不大呀，训练需要快速出结果，迭代提高性能，算法工程师的工资烧着玩是大厂不能接受的
但是推理不在乎速度有多慢，就还拿你举的 stable diffusion 的例子，我把参数设置好，跑一个小时还是两个小时有影响吗？睡觉的时候开着电脑跑就行了
大多数人的手头的设备无法支持需求大显存的训练，但是推理还是能支持的，它们恐怕不太愿意再花钱买推理服务，毕竟手头也有设备，无非就是跑慢一点

brainzhang

2023-06-14 12:23:50 +08:00

@xu11111111

反作弊确实是个问题；但我认为并不是无解的；

1. 首先，像文生图这样的任务，如果传入相同的参数，指定同样的模型，其结果是固定的，并不是随机的；所以可以通过相同任务分给多个接单者，然后进行结果比对，来排查有没有作弊；

2. 因为最终用户会感知结果好坏，可以像咸鱼那样，对接单者和用户都建立评分机制；久而久之，可靠的接单者和可靠的用户自然会脱颖而出；这样就形成了类似于信用极好者与信用极好者交易的氛围；就从经济机制上反作弊了

3. 平台人工判读；首先我觉得做好了 1 ，2 ，需要人工判读的时候并不多；至于太闲了或主观性，想想内容审查就知道了；判断一个 AI 文生图好不好，总比内容审核靠谱简单多了；

brainzhang

2023-06-14 12:26:15 +08:00

@chesha1 您说的就是问题所在啊，有的人显存并没有那么大；他不可能为了生成一张图去买个显卡吧；也不太可能去买个公有云服务去搞一遍搭建吧；只能去用像 midjourney 这样的现成的服务；或者他就想一次快速生成 1000 张图片，去买公有云的价格肯定不便宜；

一个 all for one ，one for all 的众包平台，会极大的降低成本；

Pteromyini

2023-06-14 13:21:52 +08:00

@brainzhang #28 1 就有问题，结果不是固定的，他确实是随机的，训练过程必然会添加 noise ，2 好坏与设备无关，更多看运气，要不然也不会把深度学习称为炼丹了

brainzhang

2023-06-14 13:38:27 +08:00

@Pteromyini

有 noise 的训练先不分给新来的接单者做；

先把固定参数、固定模型的推理任务交给新人做；像 stable difussion ，固定的参数配置输入，结果是相同的，可以分给三个人同时做，然后比对结果；

随机的训练交给"信用极好"者来做；信用只能通过时间和任务来累积；这样就从经济模型上规避作弊风险了；

woctordho

2023-06-14 13:45:16 +08:00 via Android

AI Horde 已经相当成熟了，它就是一个大模型（包括图片生成和文字生成）的众包平台

woctordho

2023-06-14 13:46:48 +08:00 via Android

建议楼主先搞清楚“训练”和“推理”这两个概念，普通用户输入文字输出图片不叫“训练”，叫“推理”

随机数的问题只要给定随机种子就行了

brainzhang

2023-06-14 13:50:24 +08:00

@woctordho 是的；我的用词不严谨；这个平台主要作用是推理；

当平台通过用户的推理任务完成度，建立信用机制后；可以引入一些训练的任务；

lambdaq

2023-06-14 13:52:09 +08:00

为什么要拿显卡训练，因为显存在 CUDA core 之间数据复制效率有要求。。。。

你分布式训练，怎么解决各个显卡之间的带宽和延迟问题？

woctordho

2023-06-14 13:57:41 +08:00 via Android

@lambdaq 分布式训练也有人试过，比如 https://training-transformers-together.github.io/

他们估计分布式训练中 IO bound 的部分在过去两年里已经快了一万倍，继续进化的话因特网上通信的速度赶上几年前 NVLink 的速度也不是不可能

brainzhang

2023-06-14 13:58:01 +08:00

@lambdaq 前期可以只做单卡运行的推理任务；

lambdaq

2023-06-14 14:04:06 +08:00

@woctordho 延迟呢？一卡有难万卡围观？

shalingye

2023-06-14 14:05:36 +08:00 via Android

这个项目我王多鱼投了！

brainzhang

2023-06-14 14:06:51 +08:00

@lambdaq 一个任务就在一张卡上跑啊；想要快，就选性能强的节点，多消耗积分；

youmilk

2023-06-14 14:16:59 +08:00

我前几年也有类似的想法😎

kkwkk

2023-06-14 14:19:17 +08:00

思路不错，其实不少人都弄着本地 sd ，刚开始只是想涩涩，所以 c 站模型产生很多很快，
但是后面如果没能转为收入的话，大家也就渐渐停了下来。

Wen2chao

2023-06-14 14:20:25 +08:00

@brainzhang
colab 一天免费用几个小时.....给的 Tesla T4 。

kkwkk

2023-06-14 14:24:40 +08:00

colab 主要是得自己弄各种大模型和 lora 等麻烦，自己本地我们基本都弄三四百 G 的模型

kkwkk

2023-06-14 14:27:34 +08:00

@brainzhang 闲置显卡也得看是什么卡，各种卡之间训练出图速度差不少。
还有就是是否是 torch2 等，虽然最新 webui 已经是默认的 torch2 了

brainzhang

2023-06-14 14:31:51 +08:00

@kkwkk 对；这是细节问题；估计平台还得对每一个接入设备打分；不过现在讨论的是大体框架有没有问题；技术上是不是有坑；

kkwkk

2023-06-14 14:31:54 +08:00

我觉得弄出图的还是麻烦了，因为涉及模型问题，大家一般都只会下自己喜欢的难以满足要求。
所以还是训练比较切合闲置显卡利用，虽然其中也会涉及到大模型作为底模的问题，但不是很大（一般大家训练底模大差不差），最后就是涉及训练素材问题

brainzhang

2023-06-14 14:36:22 +08:00

@kkwkk

1. 这种众包平台，对于个人用户来说(一般是小白，应用者)，应该是是推理需求多，训练需求还是专业人士在公有云上跑合适
2. 从技术上来说，训练任务不好反作弊，不好并行跑；

kkwkk

2023-06-14 14:46:03 +08:00

@brainzhang 如果是出图的话，因为是交付原图（原图包含图片信息），监督还有那么大必要么。
我可以理解为让每个用户发出自己想要的出图的参数（大模型+lora+咒语），然后接单着参考自己的模型去考虑是否接这个单？

brainzhang

2023-06-14 14:56:35 +08:00

@kkwkk 大体思路是这样的；具体实现可以智能一点；比如接单者的环境上传到平台，平台收到任务，会自动寻找合适的接单者进行匹配；

brainzhang

2023-06-14 14:58:23 +08:00

最后就是模型越全，设备算力越强，接单能力就越强，信用值就会提高，同时积分积累会更快；这样就会良性循环；

接单者就会自己去完善环境，尽可能多的配置最全的模型等等；

Pteromyini

2023-06-14 15:01:00 +08:00

@brainzhang #31 深度学习不存在“信用极好者”

kkwkk

2023-06-14 15:01:59 +08:00

@brainzhang 这样的话我觉得可以弄个解析模型接单者路径中模型功能。
然后还得有识别显卡的，因为有的大图得大显存才能弄

brainzhang

2023-06-14 15:02:44 +08:00

@Pteromyini 为什么呢？这个我不懂了；作为平台，我发现一个设备出图又快又好，不就是信用极好吗？

haha512

2023-06-14 15:03:46 +08:00

拆分是最大难点吧。如果能保证很容易的拆分和分发任务，这个应该会挺有前景的

shuianfendi6

2023-06-14 15:22:31 +08:00

带宽不够，现在 PCIE 的带宽拷贝都不够，更不要提集群分布式了
众包推理到是可能，不过已经有了端侧推理

Pteromyini

2023-06-14 16:36:37 +08:00

@brainzhang #54 如果单纯评价时间是可以的，但是成像质量等其他指标并不好量化，而且具有随机性。

pkoukk

2023-06-14 16:37:12 +08:00

“Server 端可以将一个任务分配给多个 Client 端并行执行，然后将结果进行比对，以确保结果的准确性和一致性。”
很好奇这一点，完全一样的参数给模型，模型返回的数据也必定完全一致么？

另外，基于 client 比对，server 本身没有工作证明的话，有没有可能被 client 的垃圾提交淹没？
我在你的 server 上注册一万个 client ，无论你给我发什么任务，我都返回一张固定的 doge 。因为没有工作证明，你无法判断我有没有实际去跑模型。我的资源消耗量是极低的，我可以用非常低的成本淹没其它正常玩家的提交

Pteromyini

2023-06-14 16:37:46 +08:00

@brainzhang #54 作为推理这个方案是可行的，但是我不认为你的评价方式是合理的

2n80HF9IV8d05L9v

2023-06-14 16:47:59 +08:00

技术方案应该可行, 但是需求方面我觉得:
* 小模型用不上
* 大模型用不上
* 仅适用于, 穷且没人脉, 却又手里有一定规模数据的, 这个取交集应该很接近空集把..

Muniesa

2023-06-14 16:52:20 +08:00 via Android

只是 stable diffusion 倒还好，如果是不同的模型，可能还要考虑推理环境的一致性，以及模型权重文件的传输，现在模型权重文件动不动就几个 G ，带宽的成本也不能忽视

2n80HF9IV8d05L9v

2023-06-14 16:53:57 +08:00

帖子里太长没看, 看到挖矿, 懂一点点, 提供一个看法:
挖矿的核心之一是工作量证明, 工作量证明一般是计算时间无法绕过, 验证时间又极短.
比如 btc, eth 那种找遍历找幸运数.
比如 fil, chia 那种提前计算好存在硬盘上.
他们其实都是在做无意义的事情, 答案并不重要, 重要的只是得到答案的过程所产生的成本, 进而产生的可信度

而 AI 训练是说不通的, 是相反的, 他是过程不重要, 结果重要. 所以首先可以排除这种非中心化方案. 我觉得零知识证明在这里没法用的

其次是中心化的方案, 那就简单了, 除了一点: 数据加密.

woctordho

2023-06-14 16:59:42 +08:00

@kkwkk 从 AI Horde 的运行情况来看，大多数普通用户喜欢的都是少数几个最流行的模型，剩下的模型只要让少数几个 worker 认领就行了

@brainzhang AI Horde 刚好有这么一套积分（ kudos ）系统

如果你真的想搞挖矿、零信任那一套东西，可以看看 Bittensor

hahiru

2023-06-14 17:00:56 +08:00

https://petals.ml/

woctordho

2023-06-14 17:04:37 +08:00

你想要的东西应该就是 AI Horde 。。我觉得这样的平台只要有一个，然后大家一起建设就行了，没必要搞第二个，除非第一个真的太烂了

你可以先在他们那里注册一个 worker 跑一段时间体验一下，然后想想有什么可以改进的地方，或者在国内搞点宣传

brainzhang

2023-06-14 17:10:15 +08:00

@woctordho 多谢多谢；大家集思广益果然开拓视野；我研究一下 Horde 看看；

jiekeop

2023-06-14 17:10:35 +08:00

支持很有想法！

brainzhang

2023-06-14 17:14:55 +08:00

@pkoukk 这个问题我觉得已经说明了；

1. 首先不能纯依靠算法，要有人工排查；你说的这种作弊或者攻击者人工 ban 掉
2. 为了排除无效 Client 提交，初期那种简单的，固定输入固定输出的 task ；分给多个 client 执行；然后返回结果进行比对；如果 Client 是无效计算，那它就会被降权，降权到一定程度就标记为低信用节点，同理多次执行后可以筛选出高信用节点
3. 引入积分制，信用高者获取积分有加成

就像运营一个社区一样，多种措施保证参与节点的诚实度；

misty8873

2023-06-14 18:08:33 +08:00

其实 IDC 机房的合作方式也可以。。有群么？

rphoho

2023-06-14 18:30:49 +08:00

币圈很多这类项目了，包括最近 a16z 投的 gensyn 。个人感觉，去中心化的东西没有激励层是很难落地的，说白了就是发币，那么涉及到发币，你国内就玩不了。但如果想在海外玩，单单众包这套系统是很简单的，kubeedge 之类的拿过来包装下估计都能实现，如果项目没有啥核心技术的突破，比如 zkml ，分布式训练等，那就又变成提概念融资、挖矿、发币、崩盘的模式，而这是个重运营的项目，无关技术。

brainzhang

2023-06-14 18:39:49 +08:00

@rphoho 这个不是去中心的，也跟币圈和挖矿没关系；仅仅是拿挖矿打了个比方而已

pkoukk

2023-06-14 18:53:48 +08:00

@brainzhang
也就是 PT 社区那样咯，小白想加入网络，得先做任务解锁等级，任务难度分梯度，奖励等级也分梯度。
那怎么维持这个付出 /回报体系呢？如果靠多客户端比对，那势必存在任务的重复计算。
类似 PT 这样的社区，上传也是要高于下载的。也就是说，对我来说，我付出的计算量总量是大于我本地计算的。
适用场景倒是也有，如果显卡出图太慢，我就没事就挂着平台换积分，来换取平台的快速出图

brainzhang

2023-06-14 19:12:35 +08:00

@pkoukk 是这样的，具体的激励机制还没有想的太清楚；

但是只要确定一点：就是这种众包形式总体上可以有效利用闲置计算资源，提高利用率；并且能有效的分配计算能力给最需要的人；这是有价值的；

剩下的，就是设计一种机制，能最大限度的发掘这个价值出来；

brainzhang

2023-06-14 19:16:12 +08:00

另外，这个池子并不完全像 PT ；我认为大部分小白用户，是愿意付费（一元？）购买那些闲置算力，来生成一张好看的图片的；是能覆盖跑一张图片的算力成本的；这个是积分流转的另一个来源，可能是主要来源；

中间平台抽一点税，这个机制应该就能长期运转下去；

rphoho

2023-06-14 19:45:17 +08:00

@brainzhang 重新看了一遍，理解你的意思，你想做一个撮合平台并且设计了一套信用体系。不过你可能要从供需上去多琢磨琢磨这个产品，无论是咸鱼还是 pt ，他供需都能匹配的。因为做过 gpu 公有云，不过运营失败了，所以比较了解这行，其实 ai 看着很美好，实际需求很低，特别是低端卡，矿卡多到你根本抠不出利润，自然也组织不起这样的社区，我要用还不如用 autodl 之类的，还稳定。而高端卡是有需求，但好像这题无关。所以我更看好有发币的系统，然后反哺技术突破，如分布式训练或者 zkml 之类的，形成护城河。当然这只是个人看法，不一定对，我也想看看其他人有没有什么好想法。

yankebupt

2023-06-14 20:53:56 +08:00

@brainzhang 首先你说的这个技术还真有，叫参数服务器，我贴个相关论文精读视频吧……看看再说。或者你懒得看的话，用 AI 总结个概要读一下也行

其次，家用显卡的弱鸡性能及家用网络的弱鸡参数交换性能，对于参数服务器基本可以忽略不计了，用的话，浪费比同算力集群高到不知道哪里去了，所以目前技术不要想。

mikumkf

2023-06-14 23:17:25 +08:00

做着得有自己的技术优势，比如有自己的一套分布式梯度同步算法

ykk

2023-06-15 09:34:04 +08:00

赞成，先从技术要求最低的做起，先做一个 AI 咸鱼，比如我手里有 20 个 A100 集群闲置，每张卡我可以提供一个 SD 服务，提供一些流行开源服务，大模型等等，然后买方直接来购买体验。

对于小白来说，不需要再去 B 站学习怎么搭建和复杂的概念了（搭建对于我们这种算法工程师来说就跟吃饭一样），直接提供服务。

更简单的，我现在就可以提供以上说的 AI 服务，op 如何包装前后端和推广出去？

brainzhang

2023-06-15 09:58:14 +08:00

@ykk 对，就是这样的；现在最傻瓜的办法就是咸鱼接单，人工服务；但是这个模式肯定是低效无比；

如果把这个流程简化成美团接单，有硬件的把家里的显卡出租做 AI 骑手，有画图需求的就来平台点一单 AI 生图，SD 这样的服务 UI 搞简单，平台抽一点税，这个模式听起来是可以的；

HungryOrangeCat

2023-06-16 11:10:33 +08:00

分布式训练有点挑战的

Satansickle

282 天前

LZ 做的如何了，有闲置设备，想深入了解，base64 （ 5ZkAPJNc8P ）

Satansickle

282 天前

@Satansickle 搞错了。eHN3d3BwcA==