博客 > 技术博客

为啥大家都在聊用户画像

彭政帅

2021年 7月 23日

最近产品经理小彭在拜访一些客户时，常常被问到这些问题

“最近老板给了我一个 KPI，让我做一个基于用户画像的场景，找出高净值的人群，然后给他们推送合适的产品，这个你有什么建议么?”

“我们领导最近总让我想办法利用数据做精准营销，提高获客率和提高留存率，但现在我们的用户数已经过亿了，你可以帮我吗?”

“我们的用户画像体系目前已经发展到上千个标签了，眼看着这个发展速度，年底就要超过2000个了，但是我们现在用的架构已经无法支撑业务了，你们有什么方案吗?”

海量数据下，如何基于用户画像通过标签筛选人群进行分析？

这个话题最近越来越热，而且往往是用户体量越大、业务越复杂的公司，就越喜欢谈论这个话题。

为啥呢？

在过去的十年里,随着经济的快速发展和移动互联网的崛起，网民的数量以及消费能力都在迅速增长。大多数企业在业务开始时，关注点在如何能够从广大网民中获取足够多的用户和流量来进行变现，这个阶段是互联网时代的业务野蛮增长期。

但随着业务的发展，获客以及流量的增长逐渐进入平稳期，获客成本、运营成本会变得越来越高，企业的重心就变成了用更低的成本来提高效率，以获取更高的利润。

那么企业如何在提高效率的同时，达到降低成本和提升利润的目的呢？

答案都藏在数据里，在企业数据化转型的过程中的精细化运营、数据驱动都是基于大数据分析来进行的。

首先对用户的信息数据和行为数据进行分析和分类，将用户的信息以及不同的行为定义为一个个属性标签，来对用户进行标记。再通过不同属性组合的标签对用户进行筛选，筛选出来的结果，就是一群拥有相同特征的用户，也可以叫做「人群包」。

通过对这些用户的数据的进一步分析，我们可以得到用户的偏好、消费能力、消费频率等特征，之后再通过标签将用户群体进行形象的具象化，这就是我们常说的用户画像。

用户画像就是通过用户特征、业务场景和用户行为等信息，构建一个标签化的用户模型。用简单的话来说，用户画像就是将用户信息标签化，得到用户画像数据后，根据这些特征来给这个用户群做针对性的推广，提高推广效率的同时，也降低了推广成本。

基于用户画像来做用户粒度的标签分析，可以极大地提高企业在内容推送以及产品精准营销的效率，并且显著地降低了成本。这就是为什么越来越多企业都想构建出自己的用户画像系统，搭建起相应的数据平台来进行分析的原因。

那么如何搭建这样的数据分析平台来进行基于画像的分析呢？

首先是数据准备和处理阶段，企业需要有数据处理系统，根据用户属性、或埋点数据分析出的用户行为数据会生成用户的标签属性，处理成一张或者多张标签表；然后将需要进行分析的表（比如交易表）从业务系统中进行 ETL 处理，生成一张事实表。

当数据准备完毕后，这时的处理方式就不一样了，在标签列数量比较少的情况下，一般会将事实表和标签表通过关联打平成一张大宽表，然后将大宽表导入到一个性能强劲的 MPP 引擎中提供数据服务，典型 MPP 引擎代表有 ClickHouse。

除了性能强劲的 MPP 引擎外，还有其他的解决方案，比如基于 ElasticSearch 的方案，或者是一些公司自研的系统等，但这些系统不仅复杂性要高于 MPP 引擎的这种方案，且性能往往也比不上这些 MPP 引擎。

使用上述解决方案，业务分析师在进行分析时，就可以先基于不同标签属性的组合，筛选出特定的人群，再根据筛选出的人群进行一些指标的分析。

但平台在落地和使用的过程中，往往有些不太让人满意的地方

首先，基于画像系统的分析粒度是用户级别，比传统 OLAP 分析领域的分析粒度要细，所以往往用户数越多的业务，数据量带来的压力就越大。

其次，用户的标签属性数量是一直在膨胀的，当分析需求越精细，其需要的标签数量就越多，对应到数据上的表现就是列的数量越来越多，部分业务的标签数量已经达到了千级别。

第三， BI 连通性存在一些问题，大多数分析人员习惯使用 Excel 或是 BI 工具如 Tableau， PowerBI 等来进行数据可视化分析，而 ClickHouse 目前和主流 BI 的兼容性还不是很好，经常会遇到一些无法支持的情况，这对于业务分析人员来讲，是非常痛苦的。

第四，并发度相对不高，基于 MPP 架构的系统方案，系统响应的并发度相比其他解决方案比较低， MPP 引擎如 ClickHouse 会追求单个查询的极致响应来最大程度地提高硬件的资源使用率，相应其并发度就不会很高。

最后，运维管理难度较大，如果想要基于这些 MPP 引擎做一些简单易用运维管理，比如部署、监控、数据导入/恢复等，对于运维人员来讲，开发的成本是非常高的。

聊完关于标签化分析的单一系统，我们来聊聊数据分析平台搭建的完整过程。

企业在刚开始搭建数据分析平台时，业务分析需求比较简单，数据量也比较少， IT 团队只需要用单一分析引擎就可以搭建起一个数据分析平台。

但随着业务数据量的增长，以及数据分析需求场景越来越丰富，复杂度越来越高，单一引擎就无法支撑起新的分析场景，那么 IT 团队往往需要在数据平台中引入不同的引擎来应对不同的分析需求，再将数据平台进行封装，交给业务团队进行使用。这样一来企业的数据平台就要面临下面几个问题：

部分数据需要在不同的系统中进行同步，增加了学习、开发和维护的成本
数据分布在不同的系统容易造成数据孤岛
不同系统之间可能存在口径不一致的问题，容易出现数据查询结果不正确的情况
一旦出现数据准确性问题，数据的排查链路比较长，排查过程比较复杂

这些问题也给企业数字化转型的道路带来了重重阻碍，那怎么解决呢？

目前市场上有许多平台和产品在解决这些问题，比如各大公有云平台会提供完整的打包解决方案，以及第三方提供的基于云平台或本地的解决方案等。产品和方案林林总总，企业又该如何选择符合自身现状的方案呢？

我们不妨来看看大数据领域的头部玩家 Kyligence 是如何在云上和本地助力企业进行降本增效、快速完成数字化转型的吧！

7月30日 Kyligence 将发布下一代产品，能够显著提升超多维度灵活分析和明细查询分析的性能，搭配预计算和 AI 增强引擎，无论是数据中心还是多云部署，Kyligence 都能全面覆盖各类分析场景，用户无需维护复杂的数据平台，即可获得统一的查询分析体验，极大的降低了学习成本和维护成本。

想在现场了解并体验这些功能吗？快来报名参加 Data & Cloud Summit，一起聆听企业数字化转型最新实践，在「产品快速培训」分论坛，我们还会开放云上生产级环境，带您体验最新功能～参与互动，更有小礼品相送哦～点击这里，即刻报名！

更多精彩文章

为啥大家都在聊用户画像

创业7年复盘，中美企业服务市场差异浅析

AI 时代的数据与分析市场变化

想突破转化瓶颈？安排上 AI ，比漏斗图更高效、更实用！

大模型在数据分析场景下的能力评测｜进阶篇

大模型在数据分析场景下的能力评测

沉浸式体验与 AI 数智助理一起工作的一天

案例上榜 | Kyligence x 中国平安人寿北斗指标设计平台

“数智新应用”不再是口号，看汽车、医药、制造企业如何突出重围？

从 AI 增强到大模型，企业使用数据的方式又将如何变化？

为啥大家都在聊用户画像

您可能会感兴趣

阅读下一篇

创业7年复盘，中美企业服务市场差异浅析

AI 时代的数据与分析市场变化

想突破转化瓶颈？安排上 AI ，比漏斗图更高效、更实用！

大模型在数据分析场景下的能力评测｜进阶篇

大模型在数据分析场景下的能力评测

沉浸式体验与 AI 数智助理一起工作的一天

案例上榜 | Kyligence x 中国平安人寿北斗指标设计平台

“数智新应用”不再是口号，看汽车、医药、制造企业如何突出重围？

从 AI 增强到大模型，企业使用数据的方式又将如何变化？