有关反AI运动,我认为只要模型开源、数据来源没有法律和道德问题即可。工作被机器取代怎么办是社会问题,不要找机器讨说法。

@fulkrum@qoto.org 怎么开源?模型不是都是黑盒(不了解其内部结构)的吗?:ablobcatblink:

Follow

@Orca 黑盒指人们不懂机器学习的数学原理,就像物理中的唯象理论或是工科中的经验公式。训练模型本身所需的代码和技术方案还是传统的计算机程序。

@Orca 就像人们可能不懂某种材料性质的来源,但制造材料所需的工艺步骤是确定的。

@fulkrum@qoto.org 制造工艺是确定的,那也不是每个人都有那个能力去完成的啊。

@fulkrum@qoto.org 那这到底是在“开源”模型还是在开源模型的训练方法?
而且从知道怎么训练到有完成的模型也需要大量计算力(hence资本,微软甚至为了OpenAI专门设计了训练模型用的计算机集群),只是开源了模型的训练方法真的能说这是“开源了模型”吗?

@Orca 刚才PeterCxy讲了数据的重要性。训练模型硬件要求高我觉得不属于是否开源的讨论范畴,但讨论个人与资本的壁垒肯定要谈。

@fulkrum@qoto.org 是的,硬件条件和开源与否没有关系。但如果一份源代码没有普通人能运行起来,那其实这个开源还是开给资本的,不是给普通人的。

@Orca 我觉得这个定性太二元论了。开源后的模型个人完全能够自行修改,壁垒主要是个人难以从头训练。我认为这是当代大型软件的常态。以Linux桌面发行版为例,个人可以修改某组件,但很难独立从头开发整套系统。

@fulkrum@qoto.org Linux内核如果不从头开发,只是改一点东西的话,还是很容易的,Linux内核的模组化做得不错。
模型呢。。。

@Orca 哈哈,按需模型现在可是显学,比什么改内核教程多多了(电表加快警告)。这方面细节我也不懂,您搜fine tune和LoRA能看到很多文章。

@fulkrum@qoto.org @Orca@nya.one 倒不如说需要的不只是开源训练用的程序本身,而更是训练数据、参数,以及可以在大多数人的家用硬件上运行的模型。

@fulkrum@qoto.org @Orca@nya.one 可解释的 AI 在现在已经没有希望了,但至少作为一个程序我们还是可以做到一定的可审计性和可重复性的,但这就依赖于普通人可以 access 并在自己的机器上运行的模型。

@PeterCxy @Orca 对,我也没了解过现在这些「开源」大模型的数据来源。感觉只靠爬虫总有法律风险的……
运行(推理)现在基本没问题,还是训练难……

@fulkrum@qoto.org 还有,模型这个东西,很难“修改后分享给其他人”(自由软件的自由之三)吧。。。?
这个还能叫做自由软件吗?还是说“开源”的定义需要修改了。。。?模型这个东西,它没有源代码啊。

@Orca 有源码,源码大体上表达了网络结构,交给PyTorch等框架运行,输入数据训练得到模型(即参数)。
模型本身完全可以修改,现在有很多基于开源模型的调整方案。您可以搜LLaMA的各种变形。

@Orca 机器学习模型可视作有关「张量」(实际是高维向量)的函数,表达了输入、输出张量间的映射。形如Y = kX + b,代码表达的是运算映射关系也就是上式本身,参数是k、b的具体值。

Sign in to participate in the conversation
Qoto Mastodon

QOTO: Question Others to Teach Ourselves
An inclusive, Academic Freedom, instance
All cultures welcome.
Hate speech and harassment strictly forbidden.