开源日报 | 通用端到端OCR模型开源;Cassandra 5.0正式GA;NGINX迁移到GitHub;iPhone 16全系列配备8GB RAM;国产数据库100%替代走到哪了?

来源: OSCHINA
编辑:
2024-09-10 19:00:23

欢迎阅读 OSCHINA 编辑部出品的开源日报,每天更新一期。

# 2024.9.10

今日要闻

NGINX 项目迁移到 GitHub

NGINX 项目宣布将开源的代码仓库从 Mercurial 迁移到 Github (https://github.com/nginx/nginx)。

从现在开始,NGINX 项目将以 Pull Requests 形式接受贡献,通过 Github 问题页接受 bug 报告、功能请求和功能增强建议,将 GitHub 的讨论页面成为社区论坛。

NGINX 项目表示将给予开发者们过渡时间,在 2024 年 12 月 31 日前继续通过邮件列表接受补丁和社区支持。

Apple Intelligence 将于下月起登陆 iPhone、iPad 与 Mac

Apple 今日宣布 Apple 智能 (Apple Intelligence) 将于下月起随 iOS 18.1、iPadOS 18.1 和 macOS Sequoia 15.1 发布,更多相关功能将于未来几个月内陆续推出。

「Apple 智能」发布时支持美国英语,将于 12 月拓展至澳大利亚、加拿大、新西兰、南非和英国的本土化英语。明年,「Apple 智能」将支持中文、法语、日语、西班牙语等更多语言。

Apple 还表示,中国大陆的用户需在稍后经过监管部门批准后才能使用该功能。

Apache Cassandra 5.0 正式 GA

Cassandra 5.0 标志着 Cassandra 3.x 的终结。几个亮点:

1. 存储附加索引(SAI)
2. Trie memtables 和 trie SSTables
3. JDK 17 支持
4. 统一压缩策略(UCS)
5. 向量搜索

字节云原生开源数仓 ByConity 1.0 发布

从 ByConity 开源之初,我们一直将产品定位为开源云原生数据仓库。区别于传统 OLAP 产品,ByConity 采用存算分离的云原生架构,通过这种架构获得了弹性和降低资源浪费的优势,但与此同时也在一定程度上提高了产品的复杂度。定位为云原生数据仓库,是希望能够承担更多类型、更复杂的分析任务负载,无论是在线的实时分析还是离线数据的清洗 / 加工任务都能够胜任。更全面的能力能够帮助用户降低数据分析平台的整体复杂度。


今日观察

社交观察

开源嵌入式编译器,没想象中那么好?

对嵌入式工程师来说,嵌入式编译器是不可或缺的神兵利器,它被人冠以“C语言翻译官”的名号。 由于C语言历史悠久,早期没有规范,整个计算机产业也都处于拓荒的年代,所以就涌现了很多款C语言编译器。

根据EEWorld的调研,嵌入式工程师比较青睐的嵌入式编译器主要包括Keil(ArmCC)、IAR、GCC、AVR GCC、CLion、Clang、green hills、TI的CSS、ADI的Visual DSP++。不过,随着嵌入式开发格局逐渐稳固,Keil、IAR、GCC成为嵌入式编译器三巨头,基本大部分嵌入式产品都有其身影。

尤其是GCC,作为一个完全开源的编译器,很多MCU厂商的IDE都由它改写而来。但最近一段时间,业界出现不同的声音,表示“开源才是最贵的”,这些编译器在开源背后潜藏许多隐形成本。

- 电子工程世界

通用端到端OCR模型开源,拒绝多模态大模型降维打击

在AI-2.0时代,OCR模型的研究难道到头了吗!?(OCR:一种将图像中的文字转换为可编辑和可搜索文本的技术)

Vary作者团队开源了第一个迈向OCR-2.0的通用端到端模型GOT。用实验结果向人们证明:No~No~No~

- 微博 量子位

某E的工程师和研发使用期到50岁,某H到35岁

我和朋友聊过,某E的工程师和研发使用期到50岁,某H到35岁。某H刚开始是真不行,但现场铺人,20多岁一周可以上五到六个夜班,出问题现场解决。后端研发住公司可以每月出一个版本。某E除了被活活打死,没有任何选择。

是不是民族骄傲?我觉得是。因为作为后来者,靠慢慢研发三五十年也赶不上。但如果全社会用工企业都认可甘蔗只有中间甜,抛弃两端合理合法,而且在道德上还要觉得是因为两端没有广泛进化出新的开花结果能力。那个体唯一合理的办法,就是在自己还“甜”的时候,996榨取储存糖分,之后全生命周期压制消费。

没有人永远年轻,但永远有年轻人。所以积极的一面是,只要有源源不断的年轻人,不需要做出改变,也可以继续赢下去。

- 微博 落魄的三叔

现在的大模型榜单,真就没一个可信的。

上周,AI圈有个很炸裂的大模型发布,在全网引起了山呼海啸,一众从业者和媒体尊称它为开源新王。

就是Reflection 70B。在每项基准测试上都超过了 GPT-4o,还只用70B的参数,就击败了405B的Llama 3.1,模型中还有一个叫「Reflection-Tuning」的技术,能让模型能够在最终回复之前,先识别自己有没有错误,如果有,纠正以后再回答。

其实这个东西当时我就很存疑,因为在我的理解里,这玩意,就是个CoT,就是个纯Prompt,一个Prompt把70B模型直接带的螺旋升天?
你这玩意,真要是能做到,奥特曼就真的直接原地给你磕头了。。。

最关键的是,还有一个很离谱的点,这个模型就两个人做,而且,从一拍即合、到找数据集、到模型微调完成并正式发布,一共就花了3周。
这效率,这速度,直接卷的螺旋升天,国内大厂速度没卷到这个地步...

- 微信 数字生命卡兹克

媒体观察

倒计时三年:国产数据库100%替代走到哪了?

上世纪80年代,中国数据库开始萌芽;90年代,IBM、Oracle垄断国内数据库市场;本世纪初,“四朵金花”陆续成立;10年代,互联网公司开启“去O”浪潮;到了20年代,国产数据库已然呈现出“百花齐放”的态势。当前,国产数据库仍在不断追赶与超越。

据国资委2022年发布的文件,截止到2027年,“2+8+N”党政与八大行业要实现数据库的100%国产替代。

如今2024年接近尾声,但面对国产数据库去“IOE”的口号和替换时间表,行业的态度却各有不同,有的企业已经在分享核心系统替换经验,也有企业依然认为替代难度太大,不敢轻易尝试……

 

- 蓝鲸新闻

小企业大模型——法国人工智能初创公司的“开源”之道

如果说2023年的人工智能(AI)叙事始于ChatGPT引爆网络,那么2024年法国科技初创企业米斯特拉尔人工智能公司(Mistral AI)则以不俗表现引人注目。

米斯特拉尔人工智能公司2023年4月诞生于巴黎,创始人是三名曾在硅谷工作的“90后”。首席执行官兼创始人阿瑟·门施曾是谷歌旗下“深层思维”公司的研究员,主要研究语言模型。另两名创始人——纪尧姆·朗普勒和蒂莫泰·拉克鲁瓦此前任职于脸书母公司“元”的AI团队。三人曾是大学同窗。

- 新华网

英伟达CUDA将受到冲击?AMD将推出统一UDNA GPU架构

在德国柏林举行的IFA 2024上,AMD计算和图形业务集团高级副总裁兼总经理Jack Huynh宣布,公司将把以消费者为中心的RDNA和以数据中心为中心CDNA架构统一为UDNA架构,这将为公司更有效地应对英伟达根深蒂固CUDA生态系统奠定基础。

在2019年,AMD决定摒弃其GCN微架构,转而采取新的战略方向,将图形微架构一分为二:RDNA架构专注于服务消费市场的游戏图形产品,而CDNA架构则专为数据中心打造,旨在满足人工智能(AI)和高性能计算(HPC)的工作负载需求。AMD展望未来,计划将这些架构统一为UDNA架构,这一变革旨在为开发人员带来更加便捷的使用体验。

- 芯榜

网安标委发布《人工智能安全治理框架(1.0版)》

9月9日,全国网络安全标准化技术委员会制定的《人工智能安全治理框架(1.0版)》对外公开发布。

人工智能安全治理原则指出,秉持共同、综合、合作、可持续的安全观,坚持发展和安全并重,以促进人工智能创新发展为第一要务,以有效防范化解人工智能安全风险为出发点和落脚点,构建各方共同参与、技管结合、分工协作的治理机制,压实相关主体安全责任,打造全过程全要素治理链条,培育安全、可靠、公平、透明的人工智能技术研发和应用生态,推动人工智能健康发展和规范应用,切实维护国家主权、安全和发展利益,保障公民、法人和其他组织的合法权益,确保人工智能技术造福于人类。

- C114通信网

面向下一代互联网的开源底层软硬件技术平台发布

昨天(9月9日)举行的2024浦江创新论坛Web3.0创新论坛上,上海浦芯未来互联网技术研究院正式发布下一代互联网Web3.0底层开源技术平台“ChainWeaver”,它将作为底层核心技术,支撑上海城市级区块链基础设施的建设。

该平台融合区块链、隐私计算等前沿技术,同时具备提供分层多链扩展和零信任隐私安全保障的能力,在超异构融合芯片等专用硬件的加持下,未来可满足在全球布局千万级节点,支撑每秒千万笔数据可信、安全流通,并且具备硬件级隐私安全保护能力,性能国际领先。据悉,该平台将面向政务、金融、能源、航运贸易等一批国家级重大应用场景,支撑我国超大规模数字基础设施的建设。

- 文汇报

对话复旦大学教授肖仰华:这轮生成式AI泡沫早晚会破,天花板一定会到来

肖仰华教授认为,AI 大模型落地的本质仍然是数据工程。但当前,大模型发展过程中,其对数据的消耗和使用极为 " 粗放 ",对数据的使用效率极为 " 低下 ",和人类相比远远不足,同时,千亿大模型的数据可能存在极大 " 水分 ",现在已经处于 " 大模型数据耗光 " 这一状态。因此,发展合成数据、私域数据、个人数据训练,可以进一步提升大模型的技术能力。

- 钛媒体


今日推荐

每日一博

说说唯一 ID 与 CAS

数据和算法组成了我们现有的应用软件,当然互联网应用也不例外。为了区分应用系统收集和运行所必要的这些数据,我们通过各种方法,来组织其存储形式,方便其为我们所用。从数据结构、文件、到专业数据库等工具,无一不是方便数据存储和访问的利器。

但无论如何,我们对数据存储,都要通过唯一的标识来对其进行区分,以确保我们根据这个标识来定位到它。

在不同的系统中,这个标识的表现也各不相同:

  • 在编程语言中,它表现为变量名称、常量名称等;

  • 在文件系统中,它表现为目录以及目录下的文件名等;

  • 在数据库表中,它表现为库名、表名、主键或唯一索引;

  • 在网络通信中,它表现为 IP 地址、MAC 地址等;

  • 在计算机内存中,它表现为物理内存地址等。


开源之声

用户观点

iPhone 16全系列配备8GB RAM

  • 观点 1:标准版性价比最高的一次
  • 观点 2:这下没理由买pro了
  • 观点 3:修手机的看了都要笑醒 边赚钱边骂苹果不是人 笑着把钱赚了

---END---

最后,欢迎扫码下载「开源中国 APP」,阅读海量技术报告、程序员极客分享!

 

展开阅读全文
点击引领话题📣 发布并加入讨论🔥
0 评论
2 收藏
分享
返回顶部
顶部