紫漆东来,子柒归来

时隔三年,子柒归来。

做自媒体的,谁敢,这样长时间断更?

她敢。

谁又能断更的时候不仅不掉粉,还涨粉?

她能。

断更三年,涨粉千万。

11月12日,李子柒更新了视频,瞬间席卷了国内各大平台的热搜,在她的YouTube频道下边,汇聚了汉语、英语、泰语、意大利语、日语等多语种的欢迎归来的祝福。

最新视频,延续了她以往的国风韵味、宁静的乡村田园风格以及精美的艺术感。在那条以中国非物质文化遗产漆器为主题的视频里,她还原了漆器的制作流程,展现了传统的工艺美学。该视频发布5小时后,仅微博平台的观看量就突破了1亿。(李子柒曾拿到YouTube中文频道最多订阅量的吉尼斯世界纪录,5小时破亿的观看量)

她给这件漆器取名“紫气东来”,“漆”同“柒”。即便断更三年多,归来的李子柒,依旧是王者。目前,她在全平台拥有接近1.13亿的粉丝,新视频发布后,在微博平台,单日涨粉超过90万。

 

注:上图可以点击,观看李子柒最新微博视频。

每个人,每个孩子,勇敢闯,勇敢绽放,静等风来。

AI「长脑子」了?LLM惊现「人类脑叶」结构并有数学代码分区,MIT大牛新作震惊学界!

【导读】Max Tegmark团队又出神作了!他们发现,LLM中居然存在人类大脑结构一样的脑叶分区,分为数学/代码、短文本、长篇科学论文等部分。这项重磅的研究揭示了:大脑构造并非人类独有,硅基生命也从属这一法则。
LLM居然长「脑子」了?就在刚刚,MIT传奇大牛Max Tegmark团队的新作,再次炸翻AI圈。
 

添加图片注释,不超过 140 字(可选)
 
论文地址:https://arxiv.org/abs/2410.19750他们发现,LLM学习的概念中,居然显示出令人惊讶的几何结构——首先,它们形成一种类似人类大脑的「脑叶」;其次,它们形成了一种「语义晶体」,比初看起来更精确;并且,LLM的概念云更具分形特征,而非圆形。

添加图片注释,不超过 140 字(可选)
具体而言,这篇论文探讨了LLM中稀疏自编码器(SAE)的特征向量表示的。Max Tegmark团队的研究结果表明,SAE特征所代表的概念宇宙在多个空间尺度上展现出有趣的结构,从语义关系的原子层面到整个特征空间的大规模组织。这就为我们理解LLM的内部表征和处理机制,提供了全新的见解。总之,这个研究实在太过震撼!网友直言:如果LLM和人脑相似,这实在是给人一种不好的预感……

添加图片注释,不超过 140 字(可选)
所以,美丽的自然法则并不独属于人类,硅基也从属于这一法则。

添加图片注释,不超过 140 字(可选)
这个发现证明了:数学才是一切的基础,而非人类构造。

添加图片注释,不超过 140 字(可选)
LLM的三个层面:原子,大脑和星系
团队发现,SAE特征的概念宇宙在三个层面上都具有有趣的结构:
  1. 小尺度「原子」
  2. 中尺度「大脑」
  3. 大尺度「星系」

添加图片注释,不超过 140 字(可选)
原子级的微观结构,包含面为平行四边形或梯形的「晶体」,这是对经典案例的推广(比如「男人-女人-国王-王后」的关系)。他们发现,当使用线性判别分析(LDA)高效地投影出诸如词长等全局干扰方向时,这些平行四边形和相关函数向量的质量会显著提升。

添加图片注释,不超过 140 字(可选)
而类似「大脑」的中间尺度结构,则展现出了明显的空间模块化特征,团队将其描述为空间集群和共现集群之间的对齐。比如,数学和代码特征形成了一个「脑叶」,跟神经功能磁共振图像中观察到的人类大脑功能分区相似。团队运用多个指标,对这些功能区的空间局部性进行了量化分析,发现在足够粗略的尺度上,共同出现的特征簇在空间上的聚集程度远超过特征几何随机分布情况下的预期值。

添加图片注释,不超过 140 字(可选)
而在「星系」的大尺度结构上,特征点云并非呈各向同性(各个方向性质相同),而是表现出特征值幂律分布,中间层的斜率最抖。而聚类熵也在中间层周围达到峰值!

添加图片注释,不超过 140 字(可选)
看完这个研究,有网友给出了这样的评价——「如果这项研究出自Max Tegmark之外的任何人,我都会觉得他是疯子。但Tegmark是我们这个时代最优秀的科学家之一。当我说意识是一种数学模式、一种物质状态时,我引用的是他。」

添加图片注释,不超过 140 字(可选)
LLM学习概念中,惊人的三层几何结构
 
去年,AI圈在理解LLM如何工作上取得了突破,稀疏自编码器在其激活空间中,发现了大量可以解释为概念的点(「特征」)。稀疏自编码器作为在无监督情况下发现可解释语言模型特征的方法,受到了很多关注,而检查SAE特征结构的工作则较少。这类SAE点云最近已经公开,MIT团队认为,是时候研究它们在不同尺度上的结构了。
「原子」尺度:晶体结构
在SAE特征的点云中,研究者试图寻找一种称之为「晶体结构」的东西。这是指反映概念之间语义关系的几何结构,一个经典的例子就是(a, b, c, d)=(男人,女人,国王,女王)。它们形成了一个近似的平行四边形,其中b−a≈d−c。

添加图片注释,不超过 140 字(可选)
这可以解释为,两个函数向量b−a和c−a分别将男性实体变为女性,将实体变为皇室。研究者还搜索了只有一对平行边b−a ∝ d−c的梯形(对应于仅一个函数向量)。图1(右)即为这样的一个例子:(a, b, c, d)=(奥地利,维也纳,瑞士,伯尔尼),其中函数向量可以解释为将国家映射到其首都。研究者通过计算所有成对的差向量并对其进行聚类来搜索晶体,这应该会产生与每个函数向量相对应的一个簇。簇中的任何一对差向量,应该构成梯形或平行四边形,这取决于在聚类之前差向量是否被归一化(或者可以等效于,是否通过欧几里得距离或余弦相似度,来量化了两个差向量之间的相似性)。最初搜索SAE晶体时,研究者发现的大多是噪声。为什么会出现这种情况?为了调查原因,研究者将注意力集中在了在第0层(token嵌入)和第1层,在这些层中,许多SAE特征与单个词相对应。然后,他们研究了Gemma2 2B模型中来自数据集的残差流激活,这些激活对应于先前报告的词->词函数向量,于是搞明白了这个问题。

添加图片注释,不超过 140 字(可选)
如图1所示,晶体四重向量通常远非平行四边形或梯形。这与多篇论文指出的情况一致,即(男,女,国王,王后)并不是一个准确的平行四边形。之所以会有这种现象,是因为存在一种所谓的「干扰特征」。比如,图1(右)中的横轴主要对应于单词长度。

添加图片注释,不超过 140 字(可选)
这在语义上是不相关的,并且对梯形(左)造成了严重破坏,因为「Switzerland」要比其他的词长很多。

添加图片注释,不超过 140 字(可选)
为了消除这些语义上无关的干扰向量,研究者希望将数据投影到与这些干扰向量正交的低维子空间上。对于数据集,他们使用了线性判别分析(LDA)来实现这一点。LDA将数据投影到信号噪声比特征模式上,其中「信号」和「噪声」分别定义为簇间变化和簇内变化的协方差矩阵。这种仿佛显著改善了簇和梯形/平行四边形的质量,突显出干扰特征可能掩盖了现有的晶体结构。
「大脑」尺度:中等尺度的模块结构
接下来,我们到了论文最精彩的地方。在这一部分,研究者们缩小了视角,试图寻找更大规模的结构。他们研究了功能相似的SAE特征组(这些特征组倾向于一起激活),想看看它们是否在几何上也是相似的,是否会在激活空间中形成「脑叶」。在动物的大脑中,这种功能组就是众所周知的神经元所在的三维空间中的簇。例如,布罗卡区涉及语言生成,听觉皮层处理声音,杏仁核主要处理情绪。

添加图片注释,不超过 140 字(可选)
研究者非常好奇,是否可以在SAE特征空间中找到类似的功能模块呢?他们测试了多种方法,来自动发现这类功能性「脑叶」,并量化它们是否是空间模块化的。他们将脑叶分区定义为点云的一个k子集的划分,这种分区的计算不使用位置信息,相反,他们是基于它们在功能上的关联性来识别这些脑叶分区的。具体来说,这些脑叶在同一文档内倾向于一起激活。为了自动识别功能脑叶,研究者首先计算了SAE特征共现的直方图。他们使用Gemma2 2B模型处理了来自The Pile的文档。研究者发现,在第12层的残差流SAE具有16k个特征,平均L0为41。他们记录了这个SAE被激活的特征(如果某特征的隐藏激活值> 1,则将其视为被激活)。如果两个特征在同一个256个token的块内同时激活,则它们被视为共现。此长度提供了一种粗略的「时间分辨率」,使他们能够发现倾向于在同一文档中共同激活的token,而不仅限于同一token。研究者使用了最大长度为1024的上下文,并且每个文档只使用一个这样的上下文,这就使他们在The Pile的每个文档中最多有4个块(和直方图更新)。他们在5万个文档中计算了直方图。基于此直方图,他们根据SAE特征的共现统计,计算了每对特征之间的亲和分数,并对得到的亲和矩阵进行了谱聚类。研究者尝试了以下基于共现的亲和度计算方法:简单匹配系数、Jaccard相似度、Dice系数、重叠系数和Phi系数,这些都可以仅通过共现直方图计算得出。

添加图片注释,不超过 140 字(可选)
研究者们原本假设,功能上相似的点(即常见的共现SAE特征)在激活空间中应该是均匀分布的,不会表现出空间模块性。然而,出乎他们意料,图2显示出:脑叶在视觉上呈现出相当集中的空间分布!
 

添加图片注释,不超过 140 字(可选)
 
在SAE点云中识别出的特征倾向于在文档中一起激活,同时也在几何上共同定位于功能「脑叶」中,左侧的2脑叶划分将点云大致分为两部分,分别在代码/数学文档和英文文档上激活。右侧的3脑叶划分主要将英文脑叶细分为一个包含简短消息和对话的部分,以及一个主要包含长篇科学论文的部分
为了量化其统计显著性,研究者使用了两种方法来排除原假设:1. 虽然可以基于特征是否同时出现进行聚类,但也可以基于SAE特征解码向量的余弦相似度来进行谱聚类。他们首先使用了余弦相似度对SAE特征进行聚类,然后使用共现对特征进行聚类,之后计算这两组标签之间的相互信息。在某种意义上,这直接衡量了通过了解功能结构可以获得多少关于几何结构的信息。2. 另一个方法就是训练模型,通过几何信息预测特征所属的功能脑叶。为此,研究者将基于共现聚类得到的脑叶标签集作为目标,使用逻辑回归模型直接根据点的位置预测这些标签,并使用80-20的训练-测试集划分,报告该分类器的平衡测试准确率。
 

添加图片注释,不超过 140 字(可选)
 
左上:空间聚类与功能聚类之间的调整互信息。右上:逻辑回归的平衡测试准确率,用位置预测基于共现的聚类标签。左下:随机置换余弦相似度聚类标签后的调整互信息。右下:随机单位范数特征向量的平衡测试准确率。报告的统计显著性基于Phi系数的脑叶聚类
图3显示,对于两种度量方法,Phi系数效果最佳,提供了功能脑叶与特征几何形状之间的最佳对应关系。为了证明其统计显著性,研究者随机打乱了基于余弦相似度聚类的簇标签,并测量了调整后的相互信息。同时,他们使用随机高斯分布,对SAE特征解码方向重新初始化并归一化,然后训练逻辑回归模型从这些特征方向预测功能脑叶。图3(下)显示,两项测试都以极高的显著性排除了零假设,分别达到了954和74个标准差,这就明确表明:研究者所观察到的脑叶是真实的,而非统计偶然!

添加图片注释,不超过 140 字(可选)
为了评估每个脑叶的专长,他们将The Pile数据集中的1万份文档输入了Gemma2 2B模型,并再次记录了第12层中每256个token块内触发的SAE特征。对于每个token块,他们都记录了具有最高特征触发比例的脑叶。The Pile中的每个文档都带有名称,指定该文档属于语料库的哪个子集。对于每种文档类型,针对该类型文档中每个256 token块,他们都会记录哪一个脑叶具有最高的SAE特征触发比例。跨越数千份文档后,可以查看每种文档类型中,哪个脑叶的激活比例最高的直方图。在图4中,研究者展示了使用Phi系数作为共现度量计算的三个脑叶结果,这构成了图2中脑叶标记的基础。
 

添加图片注释,不超过 140 字(可选)
 
每个脑叶都具有最高比例的激活特征上下文分数。脑叶2通常在代码和数学文档上不成比例地被激活,脑叶0在包含文本(聊天记录、会议记录)的文档上激活更多,脑叶1在科学论文上激活更多
图5对比了五种不同共现度量的效果。尽管Phi系数最佳,但五种度量方法均能够识别出「代码/数学脑叶」。

添加图片注释,不超过 140 字(可选)
「星系」尺度:「大规模」点云结构
最后一种,让我们进一步拉远视角,看看大模型在「星系」尺度结构中,点云的样子。主要是研究其整体形状、聚类,类似于天文学家研究硬核系形状和子结构的方式。

添加图片注释,不超过 140 字(可选)
接下来,研究人员试图去排除一个简单的零假设(null hypothesis):点云只是从各向同性多元高斯分布中采样的。如图6直观地表明,即使在其前三个主要成分中,点云分布也不完全是圆形的,某些主轴略宽于其他轴,类似人脑的形状。

添加图片注释,不超过 140 字(可选)
形状分析
图7(左)通过点云协方差矩阵的特征值排序,来量化这一现象。它揭示出,这些特征值并非是恒定的,而是呈现出幂律衰减。

添加图片注释,不超过 140 字(可选)
为了检验这个令人惊讶的幂律是否显著,图中将其与从各向同性高斯分布中抽取的点云的相应特征值谱进行比较。结果显示,后者更加平摊,并且与分析预测一致:
从多元高斯分布中抽取的N个随机向量的协方差矩阵遵循Wishart分布
这一点,已经在随机矩阵理论中,得到了充分的研究。由于,最小特征值的急剧下降是由有限数据引起的,并在N趋于无穷大时消失,研究人员在后续分析中,将点云降维到其100个主成分。换句话说,点云的形状像一个「分形黄瓜」,其在连续维度上的宽度像幂律一样下降。研究人员发现,与SAE特征相比,激活值的幂律特征明显较弱。未来,进一步研究其成因,也将是一个有趣的方向。图7(右)显示了,上述幂律的斜率如何随LLM层数变化,这是通过对100个最大特征进行线性回归计算得到的。

添加图片注释,不超过 140 字(可选)
研究人员观察到一个清晰的模式:中间层具有最陡的幂律斜率(第12层的斜率为-0.47),而早期和后期层(如第0层和第24层)的斜率较为平缓(分别为-0.24和-0.25)。这可能暗示了,中间层充当了一个瓶颈,将信息压缩到更少的主成分中,或许是为了更有效表示高层抽象概念。图7(右)还在对数尺度上,展示了有效云体积(协方差矩阵的行列式)如何随层数变化。

添加图片注释,不超过 140 字(可选)
聚类分析
一般来说,星系或微观粒子的聚类,通常通过幂谱或相关函数来量化。对于研究中高维数据来说,这种量化变得很复杂。因为底层密度会随着半径变化,而对于高维高斯分布,密度强烈集中在相对较薄的球壳周围。由此,研究人员选择通过估计点云,假定采样的分布的「熵」来量化聚类。他们使用k-NN方法来估计熵H,计算如下:

添加图片注释,不超过 140 字(可选)
其中ri是点i到第k个最近邻的距离,d是点云的维度;n是点的数量;常数Ψ是k-NN估计中的digamma项。作为基线,高斯熵代表了给定协方差矩阵的最大可能熵。对于具有相同协方差矩阵的高斯分布,熵的计算方法如下:

添加图片注释,不超过 140 字(可选)
其中λi是协方差矩阵的特征值。研究人员定义聚类熵,或「负熵」,为Hgauss− H,即熵比其最大允许值低多少。图8显示了不同层的估计聚类熵。可以看到,SAE点云在中间层强烈聚集。

添加图片注释,不超过 140 字(可选)
在未来研究中,研究这些变化是否主要取决于不同层中晶体或叶状结构的显著性,或者是否有完全不同的起源,将会是一个有趣的方向。
破解LLM运作机制黑箱,人类再近一步
总而言之,MIT团队这项最新研究中,揭示了SAE点云概念空间具有三层有趣的结构:原子尺度的晶体结构;大脑尺度的模块结构;星系尺度的点云结构。正如网友所言,亲眼目睹了人类硅基孩子在我面前成长,既令人敬畏又令人恐惧。

添加图片注释,不超过 140 字(可选)
Max Tegmark出品,必属精品。此前就有人发现,仅在下一个token预测上训练的序列模型中,存在线性表征的类似证据。23年2月,哈佛、MIT的研究人员发表了一项新研究Othello-GPT,在简单的棋盘游戏中验证了内部表征的有效性。在没有任何奥赛罗规则先验知识的情况下,研究人员发现模型能够以非常高的准确率预测出合法的移动操作,捕捉棋盘的状态。他们认为语言模型的内部确实建立了一个世界模型,而不只是单纯的记忆或是统计,不过其能力来源还不清楚。吴恩达对该研究表示了高度认可。

添加图片注释,不超过 140 字(可选)

添加图片注释,不超过 140 字(可选)

添加图片注释,不超过 140 字(可选)
如今,Tegmark团队又再进一步,帮我们从更微观的角度剖析LLM的大脑。人类离解释LLM运作机制的黑箱,又近了一步。
【思考】AI越来越像人脑,越来越聪明和强大,我们能做什么呢?请关注AI成功落地商业案例,有需要AI的,请联系速嵌智造
参考资料:https://arxiv.org/abs/2410.19750

GPT4 vs Llama,大模型训练的坑

最近搞了8张A100,训练大模型,对比了GPT4、llama 2、还有若干国内大模型,总觉得效果哪里不对,查了三天,终于发现了原因。

原来相同的汉字,编码值不同。 注意是相同的编码方式,例如都是unicode。
这里不是字体不同,是纯文本,与字体无关,相同编码方式,不同的是编码值。

例:


能看出区别吗?一个编码值是\u2ee6,一个是\u9e1f。不信邪的可以自己试试。
类似的还有很多,常用来举例说明的比较明显的是:“戶”、“户”、“戸”。
还有:⽣, 生;⼩, 小;⽟, 玉;⼤, 大;⽉, 月;⽜, 牛;⾼, 高;⼉, 儿;⼆, 二;⾦, 金;⽂, 文;⼭, 山;⾹, 香;⾉, 艮;⽴, 立;⼋, 八;⽥, 田;⽕, 火;⼦, 子……
不一一例举。

对于用多种来源未经验证的中文语料数据训练模型,尤其要注意上述问题。

对我们人类来说,是相同的字,对计算机来说,是不同的字。
果然,汉语言博大精深!

那又鸟不是鸟,那马户不是驴。

下课!

原创干货,转载请注明出处。

独立开发者理想办公地点–寺庙

作为一枚独立开发者,需要一个清净的开发环境(笑),最近一直在寺庙生活和工作,感觉寺庙绝对是适合包括独立开发者在内的自由职业者的办公地点。

下面简单介绍一下我在寺庙的日常生活吧.

首先,我是通过在寺庙做义工的方式来换取他们的免费食宿

所以,如果你想要来寺庙,又不想花钱,就要付出自己的一些时间来帮助寺庙做事.

其实寺庙义工干的活,跟你在家里干的活是类似的,无非就是做饭,扫地这些事,只是范围更大一点罢了,比如,如果要煮饭,你可能要煮半袋米,如果是扫地,你可能要扫一整座塔(我花了三天才扫完),规律的日常劳动,对长期没有锻炼的程序员来说,感觉反而更有好处.

其次,寺庙每天的时间安排还是很规律的

6点:起床洗漱

6点30:吃早饭.

7点:开始干活,一般一两个小时搞定.

11点:吃中饭.

14点:如果师兄有安排,也要再干一两个小时的活,不过寺院干活基本都在上午.

17点:吃晚饭.

18点-21点:可以在寺庙的玻璃房里与其他义工聊聊天,或者自己去寺庙的书屋看看书都可以(书屋超级安静,非常适合看书!)

22点:没什么事就可以睡觉了.

总体下来,每天的义工时间在1-2个小时,其他时间可以自由安排,我一般利用自由时间写写代码,看看书,或者在寺庙附近爬爬山,生活还是很充实的.

另外,如果你想要来寺庙体验一下的话,需要注意以下几点

1:做义工有什么要求?

 年龄:25-58周岁

 性别:男女不限

 时间要求:可以选择周末两天,如果是平时的话,至少一周以上.

2:吃饭住宿怎么样?

 吃饭当然是素食,形式类似于自助餐,一般都是豆腐,木耳,土豆,豆芽等各种素菜,口味也是清淡为主,味道还是可以的(我发现寺庙的素食都不错).

 住宿一般是标间或者三人间,寺庙会准备床单三件套.

 吃住免费.

3:需要自带什么?

 因为寺庙离采购的地方较远不太方便,所以最好带完整的洗漱用品和衣物:两三套换洗衣物,毛巾,牙刷,洗浴用品.

 山上有可能比较冷,所以也可以带点感冒药以备不时之需.

 保温杯非常有用.

4:如何去寺庙里做义工?

 可以找联系我.

最后,做了两个月义工以后,我的一些感受

如果你是一枚自由职业者(独立开发者,或者自由设计师),强烈建议不要一个人呆在家里做事,一方面这会让你越来越不自律,另一方面也会让你越来越孤僻.

虽然在寺庙做义工,需要付出自己的时间帮助寺庙做事,但是这些轻体力活对自己来说其实是有好处的,并且你能够得到的,是一个安静的环境,干净的空气,免费的食宿,保持距离的社交,以及规律的生活.

所以有机会的话,推荐去体验一下在寺庙的生活,相信你会有不错的收获.

坐拥千万用户的大佬 竟然穷到删库跑路?

关注科技圈的朋友,前段时间应该听过这么一个事情。开源项目 faker.js 和 color.js 的开发者 Marak,一夜之间清空了所有项目,并塞进一些恶意代码。虽说 Marak 名声不大,但这两项目可是在开源界极其火爆。

Faker.js 可以帮开发者生成伪数据,Color.js 可以帮助网页着色。它俩在 NPM ( 组件库网站 )上每周下载量加一起近乎 2700 万。

所以 Marak 这通操作,让很多用户突然无法工作,引起了不小的混乱。用户应用输出乱码 ▼

当然,Marak 这么做可不是因为中午多喝了 2 杯。

而是作品一直被各大公司白嫖的同时,经济上还遇到了困难,心里不平衡引发的。

这故事里细节还挺多的,差评君简单给大家讲讲。

2020 年 10 月,Marak 发推特说它的公寓失火,家当都烧没了。希望大家走过路过,多少意思一下。

但看这寥寥无几的转发和点赞数,我估摸他是没收到多少钱。

接着,他又从小道消息得知,不少大公司都在大量使用他的项目。

而他作为作者,不仅没捞到啥钱,甚至现在都要流浪街头了。

换做是谁,可能心里都有点不爽。

于是 Marak 就发了一个通告说,不想搞免费了。

你们这些白嫖怪要么给个 6 位数的合同,要么 Fork ( 类似于复刻 )一份代码自己研究去。

然而,理他的人并不多。

后来为了生存,他基于 Faker.js 做了一个网页版的应用 Faker Cloud。

但没多久他发现别的公司也开发了一款类似的,服务正是基于 Faker.js,于是他向那个公司发邮件,问要不收购 Faker Cloud 算了。

但是对方只是敷衍了一下,没有再回应。

最后,这个拥有顶级开源项目的老哥,由于一穷,二赚不到钱,三总被白嫖,选择了删库。。

关于这件事,网友观点也不太一致。

有人说他不守规则:你都开源了,别人再怎么白嫖你,也是按规矩来的。

但也有很多的人认为“ 为众人抱薪者,不可使其冻毙于风雪 ”。

意思就是这些开发者是为大家提供便利,在他们遇到困难时,那些白嫖他们成果的公司,理应提供点支持。

不知道各位差友怎么看,差评君先就事论事:老哥删库可以,但他想法不对,推送恶意代码更不对。另外那些公司白嫖 Faker.js 在法律上没啥毛病。

看到这可能有的差友急了,你这是公开支持白嫖怪?当然不是,看看文章结尾的点赞和在看,你就知道差评君向来不鼓励大家白嫖。

在解释观点之前,大伙儿不妨先认识一下开源这个玩意。

为了更好的理解,我们把代码比喻成菜谱。

你擅长做一个菜,并为此写下一份菜谱。

开源呢,就是你把这份菜谱公开出来,用的原材料和配方,别人都能看到,也能复制一份。

当然,别人也可以根据自己口味,在你的菜谱上做点改动。

这就是开源。

但通常来讲,为了维护开源社区,代码不被滥用,大家开源时还会加一份开源协议。

大大小小的开源协议有上百个,非常复杂。目前主流的有:MIT、GPL、BSD、Apache。

它们主要区别就是,别人修改代码后是否可以闭源( 私藏起来 ),是否要遵循同样的开源协议。

图源阮一峰博客 ▼

比如你选了 GPL 协议,那别人改动你的菜谱之后,他也要公开出来,不能藏着掖着。

但如果你选了宽松点的 MIT 协议,别人改动菜谱后就无需公开,还能把它作为“ 秘方 ”,开个排档赚点钱啥的。删库这件事中的老哥 Marak,选的是 MIT 协议。

这个协议里可没规定别的公司不能用 Faker.js 赚钱,也没规定使用 Faker.js 后要付钱给 Marak。

所以人家白嫖,在法律上,确实是没啥毛病。那为什么说 Marak 想法不对呢。

首先啊,一个项目开源了,相当于给别人提供了自己的结晶,方便了大家。

第二,项目开源后,参与的人自然变多了。那大家一起改善优化,技术也会进步得快。

所以,开源本质是给大家提供便利,促进技术发展。

但 Marak 呢?他选择了 MIT 协议,就理应做好会被别人“ 白嫖 ”的准备。却因别人用他项目赚钱,自己没赚到钱,一怒之下删库甚至放入恶意代码。

这,恐怕有点违背了开源精神吧。如果每个开源维护者都像 Marak 这样,不全乱套了么。Marak 真想赚钱,其实办法挺多的。

就凭这 2 个火爆的开源项目,我想他不难找到一份好工作吧?

或者,他也可以像 Redhat 一样,提供免费版产品,当用户遇到技术问题,再提供付费支持。

要实在不行,就想躺平,也可以和之前一样,每个平台都放上赞助码。只不过人家帮你是情分,不帮是本分。

当然了,差评君写这篇文章并不是要背刺一下 Marak,而是因为这件事映射出了开源界的现状:

绝大多数开发者们和 Marak 一样,在开源项目上几乎就没啥回报。美国有一家公司叫 Tidelift,他们的产品可以帮别人管理开源项目,所以平时会和大量优秀的开发者打交道。

去年,他们做了一份《 开源维护者现状调查 》报告,有 400 人参与了调查。调查发现,46% 的开源维护者在开源项目里赚不到 1 分钱。

我们假设 1 万美元可以供一个人吃住行 1 年,那只有 13% ( 7%+1%+5% )的开发者能达标。

也就是说,10 个开发者中,仅有 1 个人能靠开源生活。真实情况可能更惨。

差评君写文章时采访了一个 7 年程序员同学,他说开源是好的,利于互联网发展。但当我问到他,开源就是用爱发电吗,如何赚钱呢。他说:我不太懂其中的商业模式。

事实上,大部分开发者和他一样。他们没有商业思维,开源时就没太考虑要怎么赚钱。关于开源带给自己的物质利益,他们能想到的,除了是把它作为个人简历,好找一份得当的工作,最多也就是放上一个收款码赚点零花钱( 收入全靠他人自愿 )。

他们想法都很纯粹,就是要促进技术发展。当然,大家都是普通人,谁会不爱钱呢?如果开源能多赚点钱,那肯定开心。

但,赚不到钱,他们也不会怎么样。当初选择开源,就已经决定用爱发电了,该更新的还会更新,该修补的漏洞还会去修补。

前段时间 log4J2 漏洞事件大家都知道吧。出事之后,有人追责甩锅,有人担心漏洞影响,却很少有人关心 log4J2 的维护者。

说出来你不信,Log4J2 这么大一个开源项目,只有 3、4 个程序员在业余时间来管理和维护。曝出漏洞后,他们第一时间就在努力修复,他们有问别人要过回报么?

虽然吃力不讨好,但他们依然坚持着。。这样的事情,这样的开源维护者,还有很多很多。我知道,我们没有赞助他们的义务,但差评君还是希望,大家可以在力所能及的地方,多给给这些人一些关注和支持。

他们把工具和知识分享出来,为别人带来便利,也加快了技术进步。他们为互联网发展带来了很大的贡献,他们在做一件非常有意义的事。

如果真要问,是什么让他们选择开源,是什么让他们坚持下来。也许 Tidelift 上的投票会给你答案。

71% 的开发者选择了 Making a positive impact on the world。——为世界创造积极的影响。

学术界“白嫖党”的女神,就是这位招手的大妹子

略带婴儿肥的脸庞、庄重而又不失亲和力的微笑,图片中这位不停招手的大妹子虽然看起来很普通。然而说起来大伙们可能不信,她却是无数学子眼中的女神。当然,她也是那些垄断出版商的眼中钉、肉中刺。

image.png

在不久之前,这位女神还开通了支付宝,接受来自中国用户的捐款。

有同事就立马捐了一笔小钱,说是要请女神喝几杯奶茶。

看到这儿,相信很多差友是一头雾水,她是到底怎么就女神了,还有捐款到底是咋回事儿啊,确定不是网络诈骗吗?

别急别急,今天和大伙们好好讲这位名叫 Alexandra Elbakyan 的女神,和世界最大论文盗版网站 Sci-Hub 的故事。

首先一说到国内某知 ~ 名学术网站,大伙们肯定都不会陌生。

它凭借对学术论文的垄断和高昂的查重费用,年收入近 10 亿,并且还以每年超过 10% 的涨幅向学校报价。

而国内这些机构可以说就是依葫芦画瓢,向国外的学术出版机构学的。

在世界范围内,大的期刊几乎都被 Elsevier 和 JSTOR 这样的巨头垄断。

就拿 Elsevier 为例吧,不提它四五百年的历史,光是作为一个现代公司,它就已经历经 140 多年了。

手上攒了不少顶级期刊的它,手握《 柳叶刀 》、《 细胞 》、《 四面体 》等顶级期刊。每年就有超过 250 万篇论文的发表在 Elsevier 系上。

在这一套体系下,学者不得不在这些期刊上发文,读者们别处也找不到更优质的内容,手握优质资源的 Elsevier 也因此有恃无恐,在巨人的肩膀旁建起了收费站。

它们在收着作者版面费的同时,又把论文以 8-19 美元的价格向读者出售( 这笔钱不会给作者 ),并且还向世界各地的学校收取高额的学刊订阅费。

最离谱的是,原作者下载自己的论文,也还要向出版方交钱。

多头赚钱的它们也因此拿着 30% 的利润率( 比苹果都高 ),坐拥百亿美元市值。

总得来说,把学术基础设施变成了的摇钱树的它们,让世界各地的读者还有学校都有苦说不出。

而咱们的主角,出生于哈萨克斯坦的大妹子 Alexandra Elbakyan 也曾遇到类似的问题。

当时年仅 21 岁的她正准备毕业论文,但是学校却穷到付不起学刊订阅费。

对于一个穷国家的穷学生来说,这可难坏了她。

好在有些计算机编程基础的她,很快写了个脚本,用网友分享的麻省理工的学生账号登录各大期刊网站,然后免费下载论文阅读。

虽然解决了问题,但 Alexandra Elbakyan 却渐渐发现,自己只是知识壁垒这座高墙下的一个缩影罢了。

她意识到哈萨克斯坦等发展中国家的科技落后,就和知识的资本运作相关。

因为没钱交订阅费,就等于无法获得最前沿的科技成果,没有前沿的科技经济发展就不好,经济发展不好就更交不起订阅费。

于是乎,为了让发展中国家走出这个怪圈,为了大伙们能够容易得获取知识,Alexandra Elbakyan 开始了一个伟大却又不那么符合“ 法律 ”的项目 —— Sci-Hub 网站。

2011 年,Sci-Hub 正式成立。

简单地说,它是一个论文盗版网站。上面都是她未经出版方的版权许可,用脚本下载到的论文期刊。

时至今日,你能够在上面免费下载到超过八千四百多万篇盗版论文。

虽然是盗版,但这网站却又是不少学者心目中的天堂,因为在这里,你和最前的沿知识之间只相差一个回车。

就像 Sci-Hub 向大众传达的三条理念那样:

1.无论你贫穷还是富有,社会地位高或低,所有人应该能平等的获取知识。

2.科学和教育资源,就不应该有所谓的知识产权和资本运作的存在。

3.科学成果应该以公开的方式发表,好让大伙们能免费阅读。

由于简单、好用、内容多, Sci-Hub 也迅速爆火,从第一年的日活 2000 人,暴涨到了如今每天有 50 多万用户在 Sci-Hub 上阅读下载文章。

甚至据说还有不少大学老师和学生,会主动捐赠出自己学校的账号( 已经交过订阅费的那种 ),好让 Sci-Hub 的脚本多爬一些论文。

而且这位自信开朗的大妹子,有时还魔性地把自己的照片放在 Sci-Hub 官网,陪伴各位学术狗度过一个又一个脱发的夜晚。

免费下论文,还陪你写论文,因此她也成为了不少人心中的女神和英雄。

就像这位老哥说的一样:如果没有 Sci-Hub——我将无法完成我的材料科学论文( 与铝合金结构形成相关的研究 )。

作为感谢,大家也常常把她写在论文的致谢中。

而就在改变了不少穷学生和穷学校的命运同时,这位大妹子的人生,却也因为 Sci-Hub 发生了巨变。

由于动了那些出版巨头们的蛋糕,2015 年,出版巨头 Elsevier 对 Sci-Hub 发起诉讼,并索赔 1500 万美元。

两年后,美国化学学会质控 Sci-Hub 侵犯版权,要求赔偿 480 万美元。

2018 年,Elsevier 又在瑞士提起诉讼。

除此之外,在瑞典、法国、俄罗斯、比利时。垄断巨头们在全球各地起诉 Sci-Hub,并且 Sci-Hub 也一一败诉。

为了逃避各国的引渡风险,女神也只好世界各地地躲藏。

而在此期间, Sci-Hub 网址虽然多次换马甲,网站却依然正常运转,储存的论文也越来越多。

但俗话说得好,断人钱财如杀人父母,看着 Sci-Hub 丝毫不收敛,垄断巨头们也不再各自为战。

在今年年初, Elesvier、美国化学学会、Wiley 等出版巨头就联合了起来,又在印度对 Sci-Hub 提起了诉讼。

或许知道了要钱指定是要不到,巨头们这次换了个要求,希望全球多国发运营商能对 Sci-Hub 发出封禁令,禁止用户访问 Sci-Hub。

在多方的施压下,网站至今也还没更新 2021 年的新论文、Sci-Hub 的推特账号也在年初被封禁。

就连女神自己也收到了邮件,说是 FBI 正在收集她的数据。

这个女人 被无数“白嫖党”称为女神

由于网站的运营开销大都来自捐款,他们还相当针对,把女神用于筹款的 PayPal 账户也被封禁了。

好在数字货币的捐款账户不受监管,而支付宝的捐款通道也在不久前上线。

看着女神一人单挑众巨头,女神有难、八分志愿!大伙们也都是慷慨相助。

她支付宝收了多少钱我们不懂,但是数字货币的交易一般都是公开的,Sci-Hub 其中一个收款地址就共收到过 5.8 个比特币,换成现在的币价,也值一百多万人民币了。

有钱的出钱,而还有一群人选择了出力。

面对着 Sci-Hub 可能被一夜封杀、八千多万篇免费论文可能消失的风险。Reddit 网友还发起了拯救 Sci-Hub 救援行动,同女神一同作战。

而这群网友的来头可不小,身经百战的他们可为知识自由打过不少胜仗。

其中最有名的,就要数“ 新冠论文免费之战 ”。

在去年年初,他们就在 Sci-Hub 上整理下载了 5000 多篇的新冠病毒的“ 盗版 ”论文,并且还到处免费分享。

因为在他们看来,对于新冠的研究是全人类的事情,是拯救生命。用这些论文收费赚钱和恰人血馒头没区别。

他们还发起了情愿,希望出版方们能自发地公开所有新冠论文,以方便学者们研究。

最后,在舆论和多方的帮助下,有 3 万多篇的新冠研究论文被免费公开。

除出之外,拯救在线图书馆网站 Library Genesis、让 Library Genesis 完全去中心化活动的背后,也都有这群老哥的身影。

而这一次,他们选择帮助女神和 Sci-Hub。

如果要用一句话来形容他们的拯救计划的话,那就是:或许世上根本就没有 Sci-Hub,又或许人人都是 Sci-Hub。

简单地说,他们把 Sci-Hub 上的文章做成了 850 份种子,每个种子包含了 10 万篇论文。

并且通过让网友下载做种的方式,让这些资料得以保存。

为了不让女神引火烧身,他们还特别声明:这次活动都是网友们乐意,和 Sci-Hub 没有半毛钱的关系,你们别误会啊。

目前这些老哥们的初步计划已经完成,接下来,他们准备把 Sci-Hub 开源,并且完全地去中心化。

当然啦,目前 Sci-Hub 事件已经暂时告一段落,但女神、免费论文主义者,还有垄断巨头们的故事肯定依旧会继续。

最后想说的是,或许你会觉得女神和 Sci-Hub 太过极端,因为盗版的就是犯罪,盗版并不是解决问题的方式。

但我却觉得,我们的世界往往需要这样“ 极端 ”的人,因为是他们让我们看到了世界的另外一种可能。

当我们下载一篇学术文章还是要支付几十甚至上百的费用的时候,当我们看到现在的互联网的封闭、垄断的时候,有时候我会想,也许我们需要这样极致的理想主义者。

就像《 Nature 》对她的评论那样:这是一位可敬的无私的利他主义者,但同时她也是一个罪犯,这取决于你站在哪边。

中式设计=堆积中国风元素吗?

1.为什么中国没有出名的汽车设计师?

2.为什么中国设计师设计不出一款漂亮的车?

3.为什么中国没有自己代表性的“中式设计”?

这三个问题伴随着中国汽车设计发展,被逐一攻克。

前两个问题,四五年前就被由中国设计师主导的像广汽、上汽等国产品牌攻克,而第三个问题似乎是一个老大难。中国从拥有第一辆轿车时就开始追求“中式设计“,从0开始,经过元素“型”上的累积,直到最近才解决“文化”上的突破。

“X式设计”填词游戏…….无论你填什么词,这都是一个很大的话题,比如“日式设计、美式设计、韩式设计”,“X式设计”是一个体系。目前在中国找出四五位世界级优秀设计师不难,让他们画出五张世界一流的草图也不难。但是,如果这5张图需要有明显区别于西方设计风格,而且需要有明显的中式设计元素,可就难了。

之前认识的一些国内设计师,不得不说他们的能力和国际一线品牌设计师差不多,甚至有些是在一线品牌功成名就后回国的。但是几个人的辉煌无法瞬间扭转“中国汽车设计起步晚”的事实,好在越来越多的人开始关注学习汽车设计,越来越多优秀设计师开始回国发展。

“中式设计”的形成不是一蹴而就的。一种设计形式的形成需要文化的积累和工业链的产生。文化积累对于中国来说当然是不缺的,毕竟有五千年的底蕴在,但是形成链条,并由此去影响其他设计行业就有点儿麻烦了。

比如,在美国Shelby元素可以出现在除了Mustang 之外的任何一款福特汽车上,甚至Shelby元素还影响了除了汽车行业之外的产品。日本受GTR、Supra等一代神车设计元素影响的周边产品也不在少数。反观国内呢?更多的还是汽车设计行业被其他行业带动或影响。

大家尝试“中式设计”的第一步是从“嵌入中国形象”开始的,也就是大家俗称的“中国风”。

但是中国风等同于中式设计么?举个例子:像设计灵感来自“龙马”的法拉利458italia、到处龙图腾的牧马人Dragon特别版、法拉利599GTB陶瓷艺术典藏版、布加迪威龙Grand Sport L’Or Blanc陶瓷限量版。这些名车都采用了“中国风”设计,但是它们连中国车都不是,更代表不了“中式设计”了。

1958年,我国国产的第一辆小轿车,编号CA71,是红旗轿车的前身。这款车车身上就充满了中国熟悉的元素,车头有龙的立标,尾灯还采用了灯笼造型,但更多的还是元素的堆积。

1960年,具有强烈时代精神的红旗CA72蜚声海外,被意大利国际著名造型大师平宁.法里纳誉为“东方艺术与汽车工业技术结合的典范”,并于1960年3月在德国来比锡博览会展出,“红旗”被编入《世界汽车年鉴》,成为世界名车。

1973年的红旗CA774轿车设计效果图的绘制水平并不低,而且整体设计都是自主完成。最终的试装车外观也和效果图相差无几。外形设计完全区别于CA71这种用已有车型加入中国元素。我们试想,如果这辆车量产那就意味着中国的外形设计在1973年就开始摆脱抄袭,拥有自己的风格,那么“中式设计”的形成将会比现在早二十年甚至三十年。但是很可惜CA774轿车没有最终量产。

吉利在2009年推出的跑车-中国龙。可能设计师认为前脸的怪异设计和车尾生硬的几何图案拼接和龙产生了某种关系吧。但不管怎么说,这是中国汽车设计最早期走“中国风”设计路线具有代表性的产品。

近几年,吉利的产品对于中国已有的形状搬运越来越自然了。比如借鉴如意和西湖断桥的形状以及苏州窗格花纹造型,看起来自然大气。这种设计把“中国风”玩儿的越来越熟练了,仍在型上下功夫。

中华H3是首次采用太极的理念设计的汽车,但是最终的呈现依然是以“弓”为设计元素的下格栅,配合“中”字格栅,依然是型的产物。

此前一位自主品牌设计师在宣讲会上说:“我非常讨厌形状的搬运,即使中国传统文化中有很多值得借鉴的形状,但是设计终究不是搬运,如果中国设计要在世界上有位置,必须要建立在传统汽车设计基础之上产生新的定义。”

什么是传统汽车设计基础?首先就是比例–“黄金比例”。把一条线段分割为两部分,较短部分与较长部分长度之比等于较长部分与整体长度之比,其比值是一个无理数,取其前三位数字的近似值是0.618。所以,也可以简单地理解为“汽车车身的局部或整体比例充满了0.618这个数字”。

难道西方人已经把“汽车设计理论”完善到一种无缝可乘的程度了么?—NO!

不可否认,长期以来,汽车设计一直受西方主导,制约了中国设计创新能力,甚至导致“世界设计,中国制造”困局。中国五千年文化创造了很多“东方设计理念”只是这种设计理念没有应用到汽车设计之中。

其实,黄金比例只是“贵金属比例”之中的一种。熟悉设计的人都知道还有一种偏东方的比例—“白银比例”。东方人喜欢白银比例,与我们的生活息息相关。一直以来我们的建筑主要都是木质结构,当木材的圆形被切成能用的长方体木材时,圆木直径与方木界面的边长就构成了白银比例。

白银比例和黄金比例的差异导致了东西方人对五官以及发型的审美评判标准。白银比例比黄金比例更接近1:1,在很多形体的表达上就更靠近“沉稳、端庄、平衡”这类视觉效果。而黄金比例相比白银比例要更加“奔放、自由”一些。

在建筑设计中白银比例的运用也十分广泛,例如中国长江以南现存最古老的木结构建筑—“福州华林寺大殿”的外形设计就运用了白银比例。大殿的四檐和内柱头上均施斗栱,用材尺寸31.5乘16cm,横断面比例为2:1。这是同时代实物中罕见的断面比例。斗栱的配置,只在前檐用了补间铺作,当心间2朵,两次间各1朵。大殿在构造和艺术处理上带有明显的特征,如柱子的上下卷杀做法,云形驼峰,昂面的双枭双混曲线,圆形断面的月梁,柱头方、罗汉方和撩檐方上镌刻团窠等。

除了中国之外,深受东方文化熏陶的日本也大量的采用了白银比例。比如日本天空树塔,观光层和整体高度的比例就恰好是白银比例1:1.414。还有日本的动漫人物哆啦A梦,和一些广告的排版设计也都是遵循着白银比例。

红旗在之前的发布会上提出了“尚·致·意”这样的品牌造型理念。在发布红旗E·境GT概念车时,又提出了设计逻辑三个关键词:风起、雅正和颂致。如果深入理解了品牌理念和设计逻辑之后,你会发现它和上文中我们提到白银比例善于表达的“沉稳、庄重、平衡”是相得益彰的。

大量白银比例的运用让红旗H9和目前市面上几款销量不错的红旗车外观有了很大的改变。比如车头旗标、中网、侧面腰线、双色车身、尾灯;总体看起来要更加庄重。

除此之外,红旗H9的进气格栅更加突出,沿用了一些传统豪华车的车身姿态和比例。比如在第一次红旗Coupe发布时就提及到的车头前倾,车尾下滑前低后高的车身样式。

传统的豪华车除了前低后高之外会更多的考虑车身曲面的营造,主要目的是突出四轮的站立感,以及曲面的起伏层次。一辆成功的传统豪华车曲面看起来都会像运动员的肌肉一样,饱满并充满力量感。

这个不仅是汽车造型,也贯彻了西方的艺术史,从希腊的掷饼者大卫,一直是肌肉感的线条,这样的曲线有重量感侵略感。反观红旗H9的车身姿态,在传统的前低后高车身姿态之外还沿用了传承自红旗经典车型CA72、CA770独有的“旗”式车身设计。在传统豪华车设计的基础之上加入了更多红旗独有的文化底蕴。车身曲面的呈现上,红旗也有别于传统豪华品牌,向中国传统文化中飞天到关羽都不太有大块夸张的肌肉,红旗设计师追求的便是这种既轻盈又有速度的力量感。

除了一些大框大条的设计理念之外,一些形态的搬运和点缀也是最终形成“中式设计”不可或缺的一笔。

红旗CA72、CA770独有的纵向尾灯,加上E·境GT的北斗七星形状相结合,形成了目前红旗H9的尾灯轮廓。贯穿灯带在中间位置微微凸起,而两边的纵向车灯内部有四个如同“小旗子”造型的灯带。我想不用多说,大家也都能猜到灯内造型的来源了吧。

类似的“小旗子”形状也出现在轮毂造型设计中。

内饰设计中贯穿始终的“红旗”,和中国建筑中“中轴线”的理论类似。

音箱饰板上若隐若现的山水,通过浓淡的调和营造出山峦叠嶂的层次感,致敬华夏千年的壮美山河以及国画中浓转淡的技法。

最后给大家对比一下,红旗H9和奥迪A6的外形设计。很明显的能够感受到“端庄,正气,制衡”。

对于中式设计,等待已久。从国内汽车没有设计,到借鉴国外设计,到中国风,再到中式设计,经历过很多非常优秀的设计师的努力。中式设计不是简单狭隘的地域文化概念,而是在保持东方本土文化基因的同时,最大限度地彰显其世界性,使之成为一种具有文化沟通性和共享性的国际设计语言。

而无论是红旗,还是广汽、上汽、长城,中国汽车设计已经越来越未来可期。

QCC514X蓝牙音频片上系统引入自适应主动降噪技术

虽然以 AirPods 为代表的无线耳机已经提供了相对舒适的佩戴感受,但其在嘈杂环境中的降噪体验仍不尽如人意,此外不是所有用户都喜欢那种纯粹的开放式、或完全与环境声隔绝的降噪效果。 好消息是,得益于高通为 QCC514X 蓝牙音频片上系统引入的“自适应主动降噪”技术,不久后的入耳式无线耳机或可带来媲美开放式耳机的智能降噪体验。

想要获得良好的降噪效果,最简单粗暴的方法,就是增强耳塞的密封性、其次是引入 ANC 算法,这也是许多用户从 AirPods 转投 AirPods Pro 的一个主要原因。

然而耳机的完全开放与高度密封,也会带来两难的局面。庆幸的是,高通即将为高端 QCC514X 超低功耗蓝牙音频片上系统带来了一项软件升级,就宣称可以做到鱼与熊掌兼得。

尽管这项“自适应主动降噪”功能与密封式耳机的配合效果更佳,但高通宣称它可与任何形式的耳机配合使用。芯片支持智能、动态地调节耳机的性能,从而带来更加一致的音频体验。

搭载今年 3 月发布的 QCC514X 芯片的耳机产品,有望于未来几个月内上市。不过最新的“自适应主动式降噪”(Adaptive ANC)功能,或许要等到 2021 年。