2024年01月数据月报
大数据与AI技术在现代业务中的应用与优化
随着技术的快速发展,大数据与人工智能技术在多个行业中的应用逐渐深化,为企业了当前大数据与AI技术在多个领域的应用与优化实践。
首先,流处理技术如Flink、RisingWave等在实时数据分析中的应用逐渐普及。Flink通过高效处理流数据,支持在线计算和实时数仓建设,为企业提供了快速响应数据需求的能力。RisingWave框架通过优化Kafka、Flink和Hologres的结合,提升了流处理的效率和性能,适用于金融、物流等行业的实时数据分析场景。
其次,模型优化与剪枝技术在AI模型中的应用逐渐深化。通过量化、剪枝、复用和JIT加速等技术,显著提升了模型的训练效率和推理性能。例如,量化技术将模型参数压缩至8位,减少了内存占用,同时保持了模型的推理能力。剪枝技术通过移除不必要的模型组件,进一步优化了模型的计算效率。
此外,分布式架构在大数据处理中的应用也逐渐普及。分布式计算框架如Hadoop、Flink和RisingWave等,通过将数据处理任务分解为多个子任务并行执行,显著提升了处理效率和性能。分布式架构还被广泛应用于云原生数仓建设中,如StarRocks和Hologres,通过结合Hadoop和Flink,实现了高效的数据存储和处理能力。
在金融领域,大模型技术的应用逐渐深化。通过模型插件功能和量化技术,金融行业实现了对复杂场景的高效处理。例如,大模型在金融风控、投贷业务中的应用,通过实时计算和预测,提升了风险控制和业务效率。
在零售和直播行业,流处理技术如RisingWave和Hologres被广泛应用于场景分析和实时数仓建设。通过分析直播数据,优化业务流程和用户体验。例如,直播行业的因果推断和实时数仓建设,通过数据分析和预测,提升了业务增长和运营效率。
最后,云原生技术在大数据处理中的应用逐渐普及。通过云原生架构和容器化技术,企业可以更灵活地部署和管理大数据和AI服务。例如,云原生大数据平台通过弹性伸缩和资源优化,提升了服务的稳定性和性能。
综上所述,大数据与AI技术在现代业务中的应用涵盖了流处理、模型优化、分布式架构、行业应用等多个方面。这些技术的结合与优化,为企业提供了强大的数据处理和分析能力,助力业务的高效运营和增长。

- 作业帮服务观测体系建设与实践
- 数据产品经理应对B端用户增长方法论
- Redis成本优化-合适的数据结构-1.粉丝关注
- mnn-llm: 大语言模型端侧CPU推理优化
- 云原生离线工作流编排利器 – 分布式工作流 Argo 集群
- 多态大模型平台的应用研发与思考
- 保障安全交易的背后:探究eBay风控数据实时监控平台
- 货运双边市场因果推断系列(第十一期)
- ArcNeural: AI 时代的多模数据库丨技术专栏
- Amoro 社区 2023 年度总结
- 今年向量数据库“杀疯了”,但纯向量数据库“凉”了?| 盘点
- Apache SeaTunnel:探索下一代高性能分布式数据集成工具
- 版本动态 | Apache Linkis 1.5.0 版本发布
- 货拉拉大数据异构计算实践
- 重新定义流计算:第三代流处理系统 RisingWave 的 2024 年展望
- YY 直播业务指标治理实践
- 字节跳动 Spark 支持万卡模型推理实践
- 案例分析|线程池相关故障梳理&总结
- 空间索引技术在58搜索中的落地实践 – BKD技术原理深入剖析
- 流式湖仓增强,Hologres + Flink构建企业级实时数仓(下)
- 流式湖仓增强,Hologres + Flink构建企业级实时数仓(上)
- 蚂蚁营销推荐场景上的因果纠偏方法
- 使用 OpenLLM 构建和部署大模型应用
- OLAP 的技术研发与思考–ClickHouse 2023 总结和 2024 展望
- 肖仰华:走向千行百业的大模型
- 阿里云MaxCompute半结构化数据思考与创新
- StarRocks 在小红书自助分析场景的应用与实践
- 干货|解析开源OLAP引擎基于共享存储的选主方式
- 云原生架构升级之平台化服务治理
- 记录业务系统操作日志方案实践
- 金融业采用大模型,是“用大炮轰蚊子”吗?| 盘点
- 今年向量数据库“杀疯了”,但纯向量数据库“凉”了?| 盘点
- OpenAI 的超级对齐团队是在做什么
- OpenAI 发布 GPT 提示词工程指南
- Expedia 使用 WebSocket 和 Kafka 实现近实时的数据流查询
- 一篇关于大模型在信息抽取(实体识别、关系抽取、事件抽取)的研究进展综述
- CloudCanal x Redis 数据同步指令集丰富与细节优化
- 大模型应用实践:AIGC探索之旅
- MySQL 索引的底层逻辑
- 数据传输同构异源表批量抽取实践
- 深入探讨GPTs和AI Assistant
- 全链路追踪在腾讯云的落地思考与实践
- 智算让大模型触手可及
- Apache DolphinScheduler 社区 2023 年度工作报告
- 弥补大语言模型的短板,一文读懂LangChain框架
- 银行业运维大数据智能分析平台建设实践
- 中原银行Redis云原生改造实践
- AI基础软件自主构建大+小模型的最佳实践
- 模型与算法在石油产业链的优化应用实践
- 腾讯数据采集治理之质量篇-从合规到合理
- 字节跳动百万级Metrics Agent性能优化的探索与实践
- 大语言模型系列—预训练数据集及其清洗框架|得物技术
- Spark SQL 查询计划是如何执行的,深入探究Spark QueryExecution执行过程
- LLM RAG在Text2SQL上的应用实践
- 作业帮基于 DolphinScheduler 的数据开发平台实践
- 阿里云湖仓存储系统设计剖析和性能优化
- 重塑数据架构:云器Lakehouse如何简化组装式架构实现性能与成本的精益平衡
- 翼支付云原生数据开发与治理平台实践
- LangChain 0.1.0版本正式发布,One More Thing将成了Agent落地生产的福音
- 当 AI 遇到流计算:如何在 RisingWave 的数据上训练 AI 模型
- 不要让Apache Kafka成为你的数据库
- 论文《TiDB:A Raft-based HTAP Database》阅读感悟(一)
- 阿里云实时计算企业级状态存储引擎 Gemini 技术解读
- 终于可以放心使用langchain了
- ES分片均衡策略分析与改进
- 基于Hologres+Flink的曹操出行实时数仓建设
- Apache Pulsar 为滴滴大数据运维带来了哪些收益?
- 针对大规模服务日志敏感信息的长效治理实践
- ES和SSG在得物软广业务上的实践
- 腾讯实验平台基于 StarRocks 构建湖仓底座
- 构建数据纽带:全链路血缘
- 重新认识Elasticsearch-一体化矢量搜索引擎
- 货运双边市场因果推断系列(第十二期)
- 流式湖仓增强,Hologres + Flink 构建企业级实时数仓
- 大模型推理优化实践:KV cache复用与投机采样
- 干货 | 携程代码分析平台,快速实现精准测试与应用瘦身
- Apache Paimon 表模式最佳实践
- OPPO基于图神经网络的搜索推荐算法与实践
- 大模型在新能源汽车行业的应用与最佳实践
- 百度商业多模态理解及 AIGC 创新实践
- 分布式因果推断在美团履约平台的探索与实践
- 干货 | 大语言模型插件功能在携程的python实践
- 干货|一文读懂字节跳动埋点数据治理
- 申万宏源基于 StarRocks 构建实时数仓
- StarRocks 生成列:百倍提速半结构化数据分析
- RisingWave 存储引擎优化:更高的性能与更低的成本
- RisingWave 多流 Join 实现高效实时数据打宽
- 用 Rust 过程宏魔法简化 SQL 函数实现
- RisingWave 1.6 发布!新增多种连接器、新 SQL 语句等多个功能特性
- RisingWave 在超百亿管理规模对冲基金公司中的应用
- 动手教程 | 使用 RisingWave 秒级实时分析消息队列流数据
- 流数据库是否可以被认为是计算理引擎+数据库组合?
- 基于大语言模型LangChain框架:知识库问答系统实践
- Qualitis使用说明
- 滴滴基于 Ray 的 XGBoost 大规模分布式训练实践
- 文本检索性能提升 40 倍,Apache Doris 倒排索引深度解读 |Deep Dive 系列
- Apache Doris 2.0.4 版本正式发布!
- 百川终入海 ,一站式海量数据迁移工具 X2Doris 正式发布
- Apache Doris 聚合函数源码阅读与解析|源码解读系列
- 银联商务:Apache Doris 赋能“科技银商”,助力金融机构挖掘增长新机遇
- Flink 2.0 状态管理存算分离架构演进
- 阿里云 Flink 原理分析与应用:深入探索 MongoDB Schema Inference
- 基于 Flink 的实时数仓在曹操出行运营中的应用
- 基于 Hologres+Flink 的曹操出行实时数仓建设
- 货运双边市场因果推断系列(第十四期)
- 风控特征质量保障的探索和实践
- 货运双边市场因果推断系列(第十三期)
- 深度解析:大对象分配引发的GC问题案例研究
- 云音乐服务端可视化编排平台 TangoFlow 设计与实现
- 一文搞懂 NVIDIA 在 GPU 上高效部署语音 AI 模型的最新应用
- 强化学习和世界模型中的因果推断
- 深入浅出快手图数据库:看架构如何让推荐召回更高效
- 小米数据开发平台架构实践
- B站大数据开发治理平台的产品设计心得
- 如何建设一个良好的可观测性数据平台直击企业痛点?
- 在大型项目中,抖音集团如何“用活”数据?
- 【他山之石】360 多兴趣召回 Mind 实战优化
- 快手3D数字人直播互动解决方案-元宇宙的应用探索
- 蚂蚁 TuGraph-DB 数据库查询引擎技术
- 如何将知识图谱与AIGC结合?京东是这么做的
- 如何使用 JIT 技术实现高效的数据库表达式求值
- 数据集成产品的技术演进与实际应用-FastData DCT
- 当图模型算法搭上推荐系统,百度是这样应用的
- ClickHouse在B站直播公会业务分析场景的应用实践
- 百万并发场景中倒排索引与位图计算的实践
- 架构探索之ClickHouse
- 得物大模型平台接入最佳实践
- SpEL应用实战|得物技术
- 解密得物Trace2.0:日PB级数据量下的计算与存储性能优化实战
- 阿里云 EMR 基于 Paimon 和 Hudi 构建 Streaming Lakehouse
- Apache SeaTunnel 插件开发最新经验总结,手慢无!
- 揭秘NVIDIA大模型推理框架:TensorRT-LLM
- 快手指标体系的管理驾驶舱场景应用实践
- PAI-ChatLearn :灵活易用、大规模 RLHF 高效训练框架(阿里云最新实践)
- 滴滴OLAP的技术实践与发展方向
- 大数据开发的存储技术探索与实践
- 爱奇艺大数据平台的技术演进与功能实践
- 基于“数据-模型-策略-实验”生态闭环的智能风控实践
- B站数据服务中台的建设实践
- 因果推断在蚂蚁风控场景中的应用
- 大语言模型在开放世界中的推理能力探索实践
- 字节在电商领域的数据治理体系和实践
- 大数据分析平台之 OLAP 架构的最佳实践
- 数据分析及指标中台核心能力建设实践
- 腾讯TRS之元学习与跨域推荐的工业实战
- 大模型的高效训练和部署技术卷出新高度!
- 小米数据中台建设实践赋能业务增长!
- 360跨模态视频开放式标签挖掘技术实践分享
- 当因果推断遇上了医学研究
- 大模型在知乎舰桥平台的应用和实践
- 企业如何构建指标平台并实现智能分析?
- 业务理解和逻辑推理是金融大模型运转的动力
- 度小满金融大模型技术创新与应用探索
- 大模型在新能源汽车行业的应用与最佳实践
- OPPO基于图神经网络的搜索推荐算法与实践
- 百度商业多模态理解及 AIGC 创新实践
- 重塑数据架构:云器Lakehouse如何简化组装式架构实现性能与成本的精益平衡
- 阿里巴巴长文档推荐系统在企业数字化中的应用
- 京东零售数据可视化平台产品实践与思考
- 申万宏源基于 StarRocks 构建实时数仓
- 云音乐RTA投放与承接系统建设实践
- 初探分布式链路追踪
- 开发Java应用时如何用好Log
- 淘宝信息流融合混排服务升级
- LakeHouse 还是 Warehouse?(2/2)
- LakeHouse 还是 Warehouse?(1/2)
- 通用数据湖仓一体架构正当时
- Apache Hudi从零到一:深入研究读取流程和查询类型(二)
- ClickHouse在B站直播公会业务分析场景的应用实践
- 面向平台的智能客服系统之实践演进之路
- 深入eBay推荐系统:如何利用多模态理解和GNN技术提升用户体验
- 大模型时代下的视觉识别任务
- RisingWave 物化视图使用场景:订单数据看板
- 干货|优化推荐系统:如何利用A/B实验找到最佳策略
- 转转基于MQ的分布式重试框架设计方案
- 转转流量录制与回放的原理及实践
- Redis Cluster基于客户端对mget的性能优化
- Flink+Paimon在阿里云大数据云原生运维数仓的实践
- 数据库运维工作量直接减少 50%,基于大模型构建智能问答系统的技术分享
- Kubernetes Informer基本原理
- 政采云大数据权限系统设计和实现
- 自助取数平台探索与实践
- 技术分享|基于图实现 Kubernetes 异常权限检测
- vivo 海量基础数据计算架构应用实践
- vivo智能活动中台-悟空系统建设之路
