从数据到洞察：如何用Python爬取大众点评评论做简单的竞品分析？

张

张建站

2026/6/2 9:31:25

10分钟阅读

从数据到洞察如何用Python爬取大众点评评论做竞品分析在餐饮行业了解竞争对手的优劣势是制定市场策略的关键。想象一下你刚开了一家日料店想知道同商圈其他日料店的顾客评价集中在哪些方面是服务态度好、食材新鲜还是上菜速度慢、价格偏高这些信息如果仅靠人工收集不仅效率低下还容易遗漏重要细节。Python爬虫技术为我们提供了一种高效的数据采集方式但真正的价值在于如何将这些原始数据转化为商业洞察。本文将带你从数据采集到分析全流程用技术手段解决商业问题。1. 数据采集构建稳定的爬虫系统1.1 爬虫基础架构设计一个健壮的爬虫系统需要考虑以下几个核心组件import requests import time import random from lxml import html import pandas as pd class DianPingSpider: def __init__(self): self.headers { User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36..., Cookie: your_cookie_here } self.base_url https://www.dianping.com self.request_interval random.uniform(1, 3)关键设计考虑请求间隔随机化避免被封禁使用真实浏览器头信息异常处理机制确保稳定性1.2 店铺信息提取技巧获取店铺列表后需要精准提取关键信息def parse_shop_list(self, html_content): tree html.fromstring(html_content) shops [] for item in tree.xpath(//div[classshop-list]/ul/li): try: name item.xpath(.//h4/text())[0].strip() url self.base_url item.xpath(.//a/href)[0] shops.append({name: name, url: url}) except: continue return shops提示大众点评的页面结构会不定期更新建议定期检查XPath表达式是否仍然有效。1.3 评论数据分页处理评论数据通常采用分页加载需要处理翻页逻辑参数名说明示例值start起始偏移量0, 15, 30...limit每页数量15shopId店铺唯一标识G8yE5sK9j7def get_comments(self, shop_id, max_pages10): comments [] for page in range(max_pages): url fhttps://mapi.dianping.com/comments?shopId{shop_id}start{page*15} response requests.get(url, headersself.headers) data response.json() comments.extend(data[list]) time.sleep(self.request_interval) return comments2. 数据清洗从杂乱到规整2.1 文本预处理流程原始评论数据往往包含大量噪声去除特殊字符和表情符号处理简繁体转换识别并过滤广告内容提取评分信息import re from zhconv import convert def clean_text(text): # 去除HTML标签 text re.sub(r[^], , text) # 简体转换 text convert(text, zh-cn) # 去除特殊字符 text re.sub(r[^\w\s], , text) return text.strip()2.2 关键信息提取从评论中提取有价值的结构化数据常见提取目标菜品提及频率服务评价关键词环境描述词价格敏感度表达def extract_keywords(comments): food_keywords [刺身, 寿司, 拉面, 新鲜, 口感] service_keywords [服务, 态度, 耐心, 热情, 冷漠] result { food_mentions: sum(1 for c in comments if any(k in c for k in food_keywords)), service_mentions: sum(1 for c in comments if any(k in c for k in service_keywords)) } return result3. 情感分析量化顾客满意度3.1 构建情感分析模型使用预训练模型进行情感倾向判断from transformers import pipeline sentiment_analyzer pipeline(sentiment-analysis, modeluer/roberta-base-finetuned-dianping-chinese) def analyze_sentiment(comments): results [] for comment in comments: try: result sentiment_analyzer(comment[:512]) # 限制长度 results.append(result[0][label]) except: continue return results3.2 情感分析结果可视化将分析结果转化为直观的图表import matplotlib.pyplot as plt def plot_sentiment(sentiments): counts { positive: sentiments.count(positive), negative: sentiments.count(negative), neutral: sentiments.count(neutral) } plt.bar(counts.keys(), counts.values()) plt.title(顾客情感分布) plt.show()分析维度建议按时间段对比不同店铺对比不同价格区间对比4. 竞品分析从数据到决策4.1 建立多维度评估体系构建全面的竞品评估指标评估维度权重数据来源菜品质量30%评论关键词频率服务质量25%情感分析结果环境体验20%图片分析价格接受度15%价格提及频率创新性10%新品提及次数4.2 生成分析报告将分析结果整理为结构化报告def generate_report(analysis_data): report f ## 竞品分析报告 - {analysis_data[date]} ### 1. 基本情况 - 分析店铺数量: {len(analysis_data[shops])} - 总评论数: {analysis_data[total_comments]} ### 2. 关键发现 {analysis_data[key_findings]} return report4.3 制定改进策略基于分析结果提出针对性建议常见改进方向优化高频投诉环节强化优势项目宣传调整价格策略改进服务流程在实际操作中我们发现中午时段的负面评价往往集中在上菜速度上而晚餐时段则更多关注环境嘈杂问题。这种时间维度的洞察可以帮助商家更有针对性地调整运营策略。

Legacy iOS Kit实战指南：旧款iOS设备系统降级与性能优化深度解析

Legacy iOS Kit实战指南：旧款iOS设备系统降级与性能优化深度解析【免费下载链接】Legacy-iOS-Kit An all-in-one tool to restore/downgrade, save SHSH blobs, jailbreak legacy iOS devices, and more 项目地址: https://gitcode.com/gh_mirrors/le/Legacy-iOS…...

2026/6/2 2:28:37 阅读更多 →

告别复杂配置！用Auto.js的Java Socket在手机上5分钟搭建一个简易HTTP服务

5分钟用Auto.js打造手机端轻量HTTP服务：零基础极简实践指南在移动自动化领域，Auto.js凭借其强大的JavaScript执行能力和Android系统集成度，已经成为许多开发者的首选工具。但你是否想过，只需5分钟就能让你的手机变身微型服务器&a…...

2026/5/28 21:33:54 阅读更多 →

2026年4月维普AI率工具盘点：嘎嘎降AI稳居第一

2026年4月维普AI率工具盘点：嘎嘎降AI稳居第一维普作为高校常用的论文检测平台，在2026年加大了AIGC识别力度。很多同学把初稿交到维普后，才发现AI率飙到了40%甚至60%，离学校要求的20%红线差一大截。面对"维普AI率高用哪个降A…...

2026/5/15 17:43:42 阅读更多 →

AI辅助创作的临界点已至（2024全球创意工作者生产力白皮书核心发现）

更多请点击： https://intelliparadigm.com 第一章：AI辅助创作的临界点已至（2024全球创意工作者生产力白皮书核心发现） 2024年，全球创意产业迎来关键拐点：AI不再作为边缘工具，而是深度嵌入创意工…...

2026/6/1 2:30:08 阅读更多 →

双稳态核心记忆架构：解决人工智能长期上下文断裂的极简底层范式

双稳态核心记忆架构：解决人工智能长期上下文断裂的极简底层范式开源声明本文完全开源、无版权限制、公开通用，允许所有开发者、科研机构、技术团队无偿引用、落地、迭代、二次开发，助力人工智能长期记忆体系技术革新。作者：杨建…...

2026/6/1 2:30:09 阅读更多 →

单片机IIC实验

单片机 ：STM32F407 开发板：DMF407电机开发板平台：keil V5.31HSE 为8MHZ HSI为16MHZ原理图：主函数：int main(void) {uint8_t key;uint16_t i 0;uint8_t datatemp[TEXT_SIZE];HAL_Init(); …...

2026/6/1 2:30:08 阅读更多 →