ETL实验5
浏览器市场与用户画像分析实验报告一、实验目的本实验基于“用户-日-浏览器-小时”明细数据完成数据大屏所需的各项统计表加工并利用可视化工具制作可交互的数据大屏。通过实验掌握浏览器行为数据的分组聚合与指标统计覆盖率、活跃趋势、使用频率、竞品重叠等用户画像的多维度分布统计性别、年龄、学历、职业、收入、地域大屏布局设计原则与图表选型数据源接入与蓝图编辑器配置二、实验环境平台助睿在线实验平台https://lab.guilian.cn/工具助睿数智UniploreETL、AI平台、Max数据大屏数据规模1000用户800万行为记录约825MB三、实验数据数据表说明daily_browser_detail用户-日-浏览器-小时明细表本实验加工产出demographic.csv用户人口属性性别、出生年份、学历、职业、收入、省份、居住地类型已产出表browser_coverage、browser_hourly上实验输出四、业务分析框架4.1 核心业务问题问题对应维度哪个浏览器用户最多用得最久市场格局用户数、使用时长、人均时长用户活跃度趋势如何周活跃趋势用户何时最活跃时段偏好24小时分布重度用户还是轻度使用使用频率分布用户同时用几个浏览器浏览器使用数量工作日与周末习惯差异工作日vs周末对比核心用户画像性别、年龄、学历、职业、收入、地域4.2 目标表设计目标表用途browser_overview核心指标卡总时长、人均时长、活跃占比、重度占比browser_coverage市场格局用户数、使用时长、人均时长browser_weekly_active周活跃趋势browser_hourly24小时活跃分布browser_frequency_stats使用频率分布轻/中/重度browser_multi_usage浏览器使用数量分布1种/2种/3种browser_weekday_weekend工作日vs周末人均使用时长user_profile_stats用户画像按浏览器分组各维度用户数五、实验步骤数据加工5.1 创建明细表daily_browser_detailsqlCREATE TABLE daily_browser_detail ( user_id VARCHAR(50) NOT NULL, usage_date DATE NOT NULL, browser_name VARCHAR(50) NOT NULL, hour TINYINT NOT NULL, total_duration_sec INT NOT NULL, active_count INT NOT NULL );复制上实验的转换流修正排序字段与分组字段一致添加浏览器名称值映射iexplore.exe→IEchrome.exe→Google等输出到明细表。5.2 创建目标表结构执行SQL脚本创建8张目标表略详见原实验SQL。5.3 各浏览器周活跃趋势将usage_date映射为周区间如“5/7-5/13”按browser_name, week_range分组对user_id去重计数 →browser_weekly_active5.4 使用频率分布按user_id, browser_name分组求和total_duration_sec得到总秒数转为小时划分等级3h轻度3-10h中度10h重度按browser_name, usage_level分组统计用户数 →browser_frequency_stats5.5 浏览器使用数量分布按user_id分组对browser_name去重计数划分等级1种/2种/3种及以上按等级分组统计用户数 →browser_multi_usage5.6 工作日vs周末对比根据usage_date计算星期几1-5为工作日6-7为周末按browser_name, day_type分组计算人均时长、总时长、用户数 →browser_weekday_weekend5.7 核心指标概览一次性SQL计算总时长、人均时长、活跃占比最后一周活跃用户/总用户、重度占比30小时/四周用户占比列转行存入browser_overview。5.8 用户画像统计读取demographic.csv根据出生年份计算年龄并分段18,18-25,26-35,35关联明细表daily_browser_detail按 user_id 左连接按browser_name, gender, age_group, edu, job, income, province, city_type分组统计用户数 →user_profile_stats六、实验步骤大屏静态布局6.1 创建大屏新建空白大屏命名“市场分析”设置背景图、标题 banner、导航按钮市场分析/用户画像双屏跳转6.2 布局与组件放置按照“从上到下、从左到右”叙事顺序放置以下区域区域组件类型数据来源表顶部指标卡数据翻牌器 ×4browser_overview市场格局柱状图用户数、饼图使用时长、柱状图人均时长browser_coverage周活跃趋势折线图browser_weekly_active使用频率堆叠柱状图browser_frequency_stats时段偏好折线图24h、分组柱状图工作日vs周末browser_hourly、browser_weekday_weekend竞争关系饼图浏览器使用数量browser_multi_usage每个图表区域包含区域背景、标题背景、标题文字、具体图表组件。七、实验步骤蓝图数据接入7.1 创建数据源在“我的数据”中新建 MySQL 数据源连接团队私有数据库。7.2 导出组件到蓝图编辑器右键每个图表组件 → “导出到蓝图编辑器”。7.3 配置数据流核心示例1市场格局三图表共用SQLsqlselect browser_name as x, user_count as y1, round(total_duration_sec/3600,0) as y2, round((total_duration_sec/3600)/user_count,1) as y3 from labs.browser_coverage order by browser_name通过“并行数据处理”节点分别映射用户数柱状图{x, y: y1}使用时长饼图{name, value: y2}人均时长柱状图{x, y: y3}2指标卡共用SQLsqlselect metric_name, metric_value from labs.browser_overview并行处理按指标名称过滤输出[{value: ...}]给各翻牌器。3其他图表各自配置SQL查询工作日vs周末select browser_name as x, avg_duration_sec as y, day_type as s from ...24小时活跃select hour as x, active_user_count as y, browser_name as s from ... order by browser_name, hour周活跃趋势同上结构使用频率select browser_name as s, user_count as y, usage_level as x from ...使用数量分布select browser_count as name, user_count as value from ...7.4 样式微调饼图内外半径、标签显示折线图系列颜色统一IE蓝、Chrome红、360绿等柱子间距、边距等7.5 预览与发布点击“预览”验证数据正确性点击“发布”生成分享链接示例链接见原文档八、实验结果成功生成两张数据大屏市场分析大屏、用户画像大屏可交互展示浏览器市场格局、用户行为趋势、用户画像分布等核心指标。所有图表基于真实数据动态刷新支持筛选器可扩展。