AI & 大数据

Artificial Intelligence 人工智能是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。大数据(big data),是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。AI 研究通常需要大量数据支撑。

加载中
置顶
架构师
发表了博客
前天 14:06

Apache DolphinScheduler 跨工作流复杂依赖功能详解

大家好,我叫高楚枫,来自阿里云 EMR 团队的开发工程师,同时也是 Apache DolphinScheduler 的 PMC 成员之一。 ![](static/picture/up-590d78f4b129533053cb73f55741738c073.jpg) 今天非常高兴能在这里和大家分享关于跨工作流复杂依赖的功能详解。 引言 --- 在现代的数据处理和调度过程中,工作流的依赖管理变得越来越复杂,尤其是当涉及多个工作流的依赖关系时。Apache DolphinScheduler 为此提供了强大的跨... 展开更多

收藏 0
0
置顶
产品经理
发表了博客
09/09 10:30

社区供稿 | 全球首个多语言 ColBERT: Jina ColBERT V2 和它的“俄罗斯套娃”技术

在 RAG 领域,多向量模型 ColBERT 通过为文档的每个 token 生成独立的向量,带来了检索精度的提升。但同样也带来了存储需求的剧增,并且仅支持英文,限制了其应用范围。 为解决这些问题,我们改进了 ColBERT 的架构和训练流程,特别是在多语言处理方面取得了突破。最新的 Jina-ColBERT-v2 支持 89 种语言,并引入了自定义输出维度选项,显著减少存储需求,提升了多语言检索的效率和准确性。 新版本的核心亮点 性能增强:与原始 ... 展开更多

收藏 0
0
置顶
发表了博客
09/13 11:09

集成 Sermant,ServiceStage 带你实现应用上下线平滑过渡

摘要:为了保证应用正确上下线、流量不丢失,ServiceStage 基于 Sermant 提供了一套优雅上下线的方案,包括预热、延迟下线等,避免了请求超时、连接拒绝、流量丢失等问题的发生。 本文分享自华为云社区《ServiceStage 集成 Sermant 实现应用的优雅上下线》,作者:华为云开源。 优雅上下线旨在确保服务在进行上下线操作时,能够平滑过渡,避免对业务造成影响,保证资源的高效利用。Sermant 基于字节码增强的技术实现了应用优雅上... 展开更多

收藏 0
0
置顶
发表了博客
08/31 13:54

谈谈Function Calling

> 👻 [大模型分发助手](https://www.llm-hub.cn?s=EGF0),分发你的Prompt,助你学习AIGC > 👻 [LLM-HUB](https://www.llm-hub.net?s=EGF0): Distribute Your Prompt, Unlock AIGC's Power **Function Calling**,这个让大语言模型 (LLM) 如虎添翼的利器,正逐渐成为人工智能领域的一大热点。它究竟是什么?如何运作?又能为我们带来哪些改变?让我们一起深入探索 Function Calling 的奥秘,揭开其背后的"魔法",并展望其无限... 展开更多

收藏 3
0
置顶
发表了博客
09/13 10:43

NPU 与 GPU 相比,有什么差别?| 技术速览

> **编者按:** 随着2024年被业界誉为"AI PC元年",各大笔记本电脑厂商纷纷推出搭载NPU的全新AI PC,而在介绍产品性能时,"NPU"一词频频被提及。但NPU和我们所熟知的GPU之间的区别究竟是什么? > > 我们今天为大家分享的这篇文章将和大家一起初探NPU vs GPU。简而言之,NPU专为加速AI任务而设计,包括深度学习和推理,能够高效地处理大量数据,并利用专用存储器快速执行复杂的AI算法。与GPU相比,NPU体积更小、成本更低、能耗更... 展开更多

收藏 5
0
置顶
高级程序员
发表了博客
09/11 08:00

开发者实战丨如何利用 OpenVINO™ 部署 Phi-3.5 全家桶

点击蓝字 关注我们,让开发变得更有趣 作者 | 杨亦诚 英特尔 AI 软件工程师 卢建晖 微软高级云技术布道师 排版 | 吴紫琴 OpenVINO™ 近期微软发布其最新的 Phi-3.5 系列 SLM 模型, Phi-3.5-mini, Phi-3.5-vision, 以及 Phi-3.5-MoE,其中 Phi-3.5-mini 增加了多语种以及128k上下文长度的支持,提升中文输入的使用体验;Phi-3.5-vision 全面支持多图片理解任务,拓宽了其在视频理解任务类中的应用场景。 英特尔 AI PC 可以帮助用... 展开更多

收藏 0
0
置顶
发表了博客
09/12 17:50

分享一个AI开发者的强力助手:openMind Library

在人工智能的浪潮中,深度学习开发套件 openMind Library,以其强大的功能和易用性,逐步成为AI开发者们的强力助手。本文将通过魔乐社区近期关注挺高的大模型平台魔乐社区,深入了解openMind Library。 openMind Library是什么? -------------------- openMind Library 是一个深度学习开发套件,它通过简单易用的API接口,支持模型预训练、微调、推理、部署等流程。同时,它兼容PyTorch和MindSpore等主流框架,原生支持昇腾NPU... 展开更多

收藏 0
0
置顶
发表了博客
09/11 17:31

数据资产入表全流程解析,助力企业数据要素价值释放

[数据资产入表](https://www.dtstack.com/resources/1073/?src=szsm)即数据资产会计核算,指的是把有价值的数据编制进资产负债表,作为企业沉淀的无形资产,让数据要素的交易流通变得合规,数据价值可计算。 2023年8月21日,财政部发布《企业数据资源相关会计处理暂行规定》,并于2024年1月1日开始实施,首次将数据资源纳入企业会计核算体系,明确了数据资产入表的标准和要求,标志着数据资产在会计领域的正式确认,并开启了数据... 展开更多

收藏 1
0
置顶
发表了博客
09/11 10:25

化“腐朽”为“神奇”:5 种 RAG 优化技术应对千奇百怪的 Query

> **编者按**:您是否曾经遇到这样的情况:明明构建了一个功能强大的 RAG 系统,但用户却频繁抱怨"找不到想要的信息"或"返回的结果不够准确"?这是许多 RAG 应用开发者面临的共同挑战。 > > 这个问题不仅会导致用户体验下降,更可能直接影响 RAG 系统的使用率和实际价值。如果未能得到妥善解决,之前的辛苦工作恐将付之东流,甚至影响整个项目的成功。 > > 这篇文章并非纸上谈兵,而是源自作者在实际项目中的第一手经验。文章详... 展开更多

收藏 11
0
置顶
发表了博客
09/11 11:42

Apache SeaTunnel Zeta 引擎源码解析(二) Client端的任务提交流程

作者:刘乃杰 编辑整理:曾辉 引入 --- 本系列文章是基于 Apache SeaTunnel 2.3.6版本,围绕`Zeta`引擎给大家介绍其任务是**如何从提交到运行的全流程**,希望通过这篇文档,对刚刚上手SeaTunnel的朋友提供一些帮助。 ![](static/picture/up-b51553be442353f0bc4d239eebd4f741cc6.png) 我们整体的文章将会分成三篇,从以下方向给大家介绍: 1. SeaTunnel Server端的初始化 2. **Client端的任务提交流程** 3.... 展开更多

收藏 0
0
置顶
产品经理
发表了博客
09/05 10:30

Falcon Mamba: 首个高效的无注意力机制 7B 模型

Falcon Mamba是由阿布扎比的Technology Innovation Institute (TII)开发并基于TII Falcon Mamba 7B License 1.0的开放获取模型。该模型是开放获取的,所以任何人都可以在 Hugging Face 生态系统中这里使用它进行研究或应用。 Falcon Mambahttps://falconllm.tii.ae/tii-releases-first-sslm-with-falcon-mamba-7b.html Technology Innovation Institute (TII)https://www.tii.ae/ai-and-digital-science TII Falcon Mamba 7B Li... 展开更多

收藏 0
0
置顶
发表了博客
09/05 10:32

基于云原生向量数据库 PieCloudVector 的 RAG 实践

近年来,人工智能生成内容(AIGC)已然成为最热门的话题之一。工业界出现了各种内容生成工具,能够跨多种模态产生多样化的内容。这些主流的模型能够取得卓越表现,归功于创新的算法、模型规模的大幅扩展,以及海量的高质量数据集。然而 AIGC 依然面临一系列挑战,检索增强生成(RAG)技术作为 LLM 的一项重要补充被提出。本文将结合实例演示,和大家一起探索基于 PieCloudVector 的 RAG 实践。 AIGC 强调内容是通过先进的生成模... 展开更多

收藏 0
0
置顶
发表了博客
09/05 17:08

深度解析:基于离线开发的数据仓库转型落地案例

在当今这个数据驱动的时代,各行各业都正经历着前所未有的变革。伴随技术的飞速发展,[数据仓库](https://www.dtstack.com/dtinsight/batchworks/?src=szsm)作为企业数据管理与分析的核心,如何更好地发挥作用,助力企业保持业务的敏捷性与成本效益,成为大家关心的焦点问题。本文将通过具体案例分析,展现基于[离线开发](https://www.dtstack.com/dtinsight/batchworks/?src=szsm)的数据仓库转型落地中的关键步骤与实施策略。 ... 展开更多

收藏 1
0
置顶
发表了博客
09/05 17:19

数据资产入表元年,企业如何抓住数据资产增值的机遇?

近年来,政府将数据要素纳入了经济发展的重要指示性文件当中,希望利用数据驱动。[《全国数据资源调查报告(2023年)》](https://www.dtstack.com/resources/1073/?src=szsm)显示,2024年以来不少地方纷纷成立"数据集团",[加快盘活数据资产](https://www.dtstack.com/resources/1073/?src=szsm)。作为数字经济时代的首要生产要素,数据将有望成为政府和企业财务报表以及财政收入的重要支持。 一、数据资产定义 ======== 数据资... 展开更多

收藏 0
0
置顶
发表了问答
09/07 16:07

dolphinscheduler 1.3.6版本 出现随机的ava.util.ConcurrentModificationException: null

dolphinscheduler 1.3.6版本在执行并行调度时随机出现java.util.ConcurrentModificationException: null,信息如下: Please set $HCAT_HOME to the root of your HCatalog installation. Warning: /opt/module/sqoop-1.4.7.bin__hadoop-2.6.0/bin/../../accumulo does not exist! Accumulo imports will fail. Please set $ACCUMULO_HOME to the root of your Accumulo installation. Warning: /opt/module/sqoop-1.4.7.bin__... 展开更多

收藏 0
置顶
发表了博客
09/06 10:39

LLM 工程师入门:生成式AI的简易指南

> **编者按:** 大模型发展了近两年,Baihai IDP 也分享了近百篇LLM各环节的技术洞察,有前沿探讨、有落地实践、有应用经验。但回头来看,我们似乎从来没有认真、从0开始探讨过LLM的基本原理。 > > 最近,一些企业客户和伙伴来询问,是否有LLM的从0到1的科普贴。他们说: > > "虽然在很多场景中,LLM都已经渗透入我们的工作生活,但对其内部的运作机制,仍有很多谜团待解决。 > > 在应用落地时,LLMs 这种"黑箱式"的运作模式,不... 展开更多

收藏 4
1
置顶
产品经理
发表了博客
08/30 10:30

一次失败的实验 - 无限注意力,我们为什么坚持实验

总结: 随着我们增加内存压缩次数的次数,Infini-attention 的性能会变得越来越差。据我们所知,ring attention、YaRN和rope scaling这三种方法仍是将预训练模型拓展更长上下文的最佳方式。 ring attentionhttps://x.com/Haojun_Zhao14/status/1815419356408336738 YaRNhttps://arxiv.org/abs/2309.00071 rope scalinghttps://arxiv.org/abs/2309.16039 引言: 语言模型的上下文长度也是除模型性能之外的重要属性之一。自 in-con... 展开更多

收藏 0
0
置顶
发表了博客
09/05 11:43

RWKV 已部署到 5 亿台 Windows 电脑?真正开源的新一代 AI 架构

2024 年 9 月 ,RWKV 社区成员发现:Office 系统在自动更新后(版本 2407 及以后)已自带 RWKV 运行库。 在 Windows 系统的 C:\Program Files\Microsoft Office\root\vfs\ProgramFilesCommonX64\Microsoft Shared\OFFICE16 目录,可以找到一系列 rwkv dll(动态链接库) 文件。 由于正版 Windows 大多预装了 Office 365,因此,全球大多数 Windows 10 和 11 机器现已搭载 RWKV,包括线下商店中售卖的 Windows 机器。这意味着 RW... 展开更多

收藏 0
0
置顶
发表了博客
08/31 00:36

实操经验 | Apache 基金会顶级项目版本管理和发布流程

前言 --- 前段时间,Apache SeaTunnel经过几个月的迭代和架构升级,终于迎来第一个正式2.3.0版本,我也有幸作为本次的Release Manager,体验了一把从0到1的Apache发版流程,不得不说Apache基金会在项目的版本管理这块有着完善的规范和严谨的流程,整个发版过程周期很长,其中也踩了不少的坑,俗话说好记性不如烂笔头,所以笔者写了一篇文章来记录整个过程(以Apache SeaTunnel为例),希望这篇文章能够让小白快速入门Apache项目... 展开更多

收藏 3
1
置顶
产品经理
发表了博客
08/23 10:30

社区供稿 | 如何让大模型输出 10k+ 字长文?

随着大语言模型的发展,许多模型已经能够处理超过100k+ tokens的输入上下文。然而,这些模型在生成长文本时,普遍存在输出长度受限的问题。 在实际应用中,为了克服这个问题,人们普遍采用「分而治之」的方法,让模型一段一段地写。这种方法在一定程度上似乎能够解决长文本输出的问题,但往往会导致 1)消耗 tokens 量成倍甚至指数增加;2)前后内容不连贯。 如何才能让模型拥有更强的长文本输出能力呢?我们发现,模型输出长度... 展开更多

收藏 6
1
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
返回顶部
顶部