Kyligence AI 服务 - 让大模型完成准确、可靠的数值计算和回答! 立即了解更多
AI 数智助理
Kyligence Zen Kyligence Zen
Kyligence Enterprise Kyligence Enterprise
Kyligence Turbo Kyligence Turbo
指标平台解决方案
OLAP 解决方案
行业解决方案
客户总览
金融
零售
制造
医药
其他
云平台
BI
寻求合作
资源
Kyligence Enterprise
Kyligence Zen
培训
Apache Kylin
Byzer
Gluten
博客
关于
市场活动
长虹创始于 1958 年,公司前身国营长虹机器厂是我国“一五”期间的 156 项重点工程之一,是当时国内唯一的机载火控雷达生产基地。
从军工立业、彩电兴业,到信息电子的多元拓展,长虹已成为集军工、消费电子、核心器件研发与制造为一体的综合型跨国企业集团,并正向具有全球竞争力的信息家电内容与服务提供商挺进。
历经三个阶段、50 余年的发展,长虹的销售额在近两年,连续突破 1000 亿,成为四川第一大企业。
长虹的大数据研究始于 2009 年开始启用的 ERP 企业管理系统。
当时,刚刚开始布局数据化的长虹业务数据量不大,用户并发数也比较少。随着企业发展,长虹开展了多元化业务,围绕智能终端,通过更多的渠道和更多的手段,大幅提升数据采样的量级和多样化,进而掀起长虹在大数据浪潮下的变革和创新。
2014年,我们紧跟时代步伐,选择走 Hadoop 这条路,自建公司的大数据存储和计算平台,并依托大数据平台进行整个公司的数据业务开发。
有了大数据处理平台,智能化转型核心总结而言就是企业上云、业务上云以及设备要上云,实现公司行政流程、业务流程、生产流程、财务流程的高度信息化、智能化。
上云之后,业务的行为会以数据的形式沉淀到各个数据库,然后汇聚到企业数据仓库,通过对数据的加工,形成相应的数据服务能力,也就是今天所说的数据中台,最终服务于长虹的新兴业务,提升企业的竞争力。
为了响应不断变化的业务需求,长虹大数据的技术发展栈主要如这里展示的 Hadoop 这条路的发展历程,主流的开源软件我们都使用。
2016 年,我们在总结长虹的数据特性以及业务需求后开始分析,在我们 2000 多万智能终端、8000 多万亿条数据集的场景下如何做到快速交互式的查询分析?经典的 Hive 已经没法满足快速查询的需求,因此我们开始调研 Apache Kylin 及其商业版 Kyligence Enterprise,并将其作为一个重要的组件工具纳入平台。
围绕着我们整个数据的特点,我们在当时确定整体的进化方向,使用 Kylin 加 Druid 的联合方式做整体的业务分析。
依托扎实的技术平台,我们总结形成了长虹的大数据业务架构,底层是一个 TinyVoice 平台及大数据基础平台,做数据采集、数据存储、数据管理等。过程中建立公司的整个数据标准体系,而且我们的数据标准体系过审了国家 DCMM 的认证,是四川省首家拿到三级认证的企业。基于标准化之后的数据,搭建了个性化推荐、精准营销、供应链评级等服务于研发、生产、制造等各个方向的系统,最终服务于公司的经营业务。
光说数据或者光说大数据都是不行的。数据如果脱离了业务,其实没什么价值,下面介绍一下我们应用大数据技术做的真正有业务价值的案例。
端子分析
原来电视机上有很多不同接口,当时我们就想了解下我们用户到底会接哪些接口。于是我们在 2014 年 10 月,对 6 万多个有效联网智能电视终端样本数据的输入端做了一个统计分析。
根据统计我们发现,长虹 CHiQ 电视高端用户用 HDMI 接口的数量最大,传统 CVBS 和 ATV 接口需求量仍然很大,VGA 、YPBPR 使用占比很少。针对 VGA 的用户我们深入分析其 IP 来源,我们发现大部分来自于 CBD 等办公场地,故判断这部分用户应该是企业拿来做投影的,且量特别大,当时就我们建议裁剪。裁剪之后,电视机不仅节省了硬件成本,还节约出了硬件空间,多的硬件空间可以用于其他部件的摆放,从而提升了产品竞争力。
个性化推荐
电视的个性化推荐和视频网站的个性化推荐不太一样,我们是没有做内容的,所以我们做推荐,依托自建的媒体库推荐对应的视频软件。
另一个和视频网站不同的是,电视机实际是以家庭的方式存在的,在用户家里有不同的人在用,老人、孩子、家庭主妇等不同的角色可能都在用这个电视机,但是每个人的喜好不同,这就给我们的精准推荐带来了挑战:我们如何确定这个时间点背后的是个什么样的角色呢?
最终我们通过声纹识别、行为训练和分析,形成了家庭 ID 识别的深度模型,它能识别你是男性女性老人小孩,然后整体形成家庭画像,再以家庭画像为依托,对用户进行千人千面的精准推荐。
智能财务 OCR(光学字符识别)识别
我们公司在做财务上云的过程中,进行了财务的集中化处理,集中化之后就累计了大量的数据需要进行精细化的采集和分析,所以我们开发了一套 OCR 系统来做票据数据的采集。
实际业务开展过程我们会在 A4 纸上贴很多票,所以 OCR 系统需要首先对票据进行切割,切割完成后票据有些是歪的,我们需要把它旋转。由于我们的票据种类有很多,所以预处理做完之后,系统需要对它进行自动分类,也就是自动分捡的系统所要做的事情。分捡完之后我们会进行票据字符识别,字符识别完成后会进行字段的匹配,我们在字段这里加了语义纠偏的处理方式。
举一个例子,比如成都东站或者成都站,我们会根据爬取的信息,它会有车次信息,图谱会进行检索,检索这个车到底有没有经过成都站还是成都东站,以这个信息辅助我做整个字段识别的纠偏,从而提升整体的票面识别率。
目前,我们的 OCR 图像字符串识别率在国内、国际都属于领先地位,识别率达到97.9%,支持的票据类别 50 类,行业第一,形成 80.5 万条的标注数据集,改善了文字识别领域的一些核心算法,并成功形成了发票识别领域的语义库。
在这个项目过程中我们也实现了 20 多个自系统的数据统一归集,归集到一个数据中。在此之上,我们使用 Kyligence 构建了我们的数据仓库和数据集市,在解决构建非实时这个问题时,还用了 Hive 外表和查询下压相结合的方式来满足业务查询联动的需求。
除此之外还做很多数据相关的应用比如工业大数据、舆情监控分析、战略营销地图、供应链管理、外汇金融、语义云等等。
作者简介:蒲文龙,长虹集团数据服务部技术总监,擅长 Hadoop Eco 的大数据系统架构设计和海量数据下的高并发、高可用应用系统架构设计;主导建设了长虹 Matrix Cloud 基础云平台、长虹大数据基础平台、长虹标签画像体系、长虹个性化推荐体系、长虹工业大数据平台以及长虹大数据平台数据标准体系。目前致力于 Cloud Native 技术和大数据技术在长虹海量物联网设备上的应用和实现。
近年来,随着商业环境的竞争日益激烈,企业对于实时数据服务的需求急剧增加。Kyligence 在服务众多客户的过
数据要素在银行各业务领域和流程中发挥着至关重要的作用,面对激烈的市场竞争和客户需求,银行越来越注重从数据管理中
作为一名消费者,炎热的夏天我们会走进一家便利店,从冰柜中选出一瓶汽水;下午工作有点累了,我们会在公司的自动贩卖
2024 年伊始,Kyligence 联合创始人兼 CEO 韩卿(Luke)分享了对 AI 与数据行业的一些战
房地产行业是我国国民经济中的重要支柱产业之一,在房地产市场供求关系发生重大变化的当下,房企面临多重挑战。Kyl
今年年初,Kyligence 高级副总裁兼合伙人葛双寅(Silas Ge)受邀在阿斯利康“跃行致远三十周年年会
2024 年伊始,Kyligence 联合创始人兼 CEO 韩卿在公司内部的飞书订阅号发表了多篇 Rethin
400 8658 757
工作日:10:00 - 18:00
已有账号? 点此登陆
预约演示,您将获得
完整的产品体验
从数据导入、建模到分析的全流程操作演示。
行业专家解惑
与资深行业专家的交流机会,解答您的个性化问题。
请填写真实信息,我们会在 1-2 个工作日内电话与您联系。
全行业落地场景演示
涵盖金融、零售、餐饮、医药、制造等多个行业,最贴合您的业务需求与场景。
Data + AI 应用落地咨询
与资深技术专家深入交流,助您的企业快速落地 AI 场景应用。
立即预约,您将获得
精准数据计算能力:
接入高精度数值计算大模型服务,为您的企业级AI应用提供强大支持。
个性化业务场景解决方案:
量身定制的计算模型和数据分析服务,切实贴合您的业务需求和应用场景。
Data + AI 落地应用咨询:
与资深专家深入探讨数据和 AI 如何帮助您的企业加速实现应用落地,构建更智能的数据驱动未来。
申请体验,您将获得
体验数据处理性能 2x 加速
同等规模资源、同等量级数据、同一套数据处理逻辑,处理耗时下降一半
专家支持
试用部署、生成数据、性能对比各操作环节在线支持