影刀RPA进阶教程_动态网页深层数据采集Shadow_DOM与自定义组件破解方法

张

张建站

2026/6/16 1:44:29

10分钟阅读

影刀RPA进阶教程_动态网页深层数据采集Shadow_DOM与自定义组件破解方法

影刀RPA进阶教程动态网页深层数据采集——Shadow DOM与自定义组件的破解方法刚学影刀RPA时我觉得XPath能解决一切元素定位。直到遇到Shadow DOM——元素明明在页面上看得到但怎么捕获都拿不到。Shadow DOM是一种网页封装技术把内部元素隐藏起来外部XPath无法穿透。越来越多的网页用这个技术阿里系、字节系、Chrome插件页面等。什么是Shadow DOM正常的HTML是一棵扁平的DOM树htmlbodydivclasspage← 你能用XPath定位到inputidsearch← 你也能定位到/div/body/html加了Shadow DOM之后变成了htmlbodymy-component← 你只能定位到这个壳 #shadow-root (closed) ← 里面的东西被隔离了inputidsearch← 常规XPath够不到 ![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/d5d9146018a94913a8fc2b7f693e6dc6.png#pic_center)/my-component/body/html#shadow-root是一条边界线。常规的XPath和CSS选择器无法穿透它。如果你发现页面上明明有元素但影刀的捕获元素怎么也高亮不到——99%是Shadow DOM。拼多多店群自动化报活动上架如何判断是否遇到了Shadow DOM打开Chrome开发者工具F12在Elements面板里找找到你目标元素的位置看它的父级有没有#shadow-root标记如果有并且(closed)表示是封闭模式处理更麻烦一个特征现象捕获到的总是my-component这种自定义标签名而不是里面的input或button。四种应对策略策略一JavaScript穿透最常用XPath进不去但JavaScript可以穿透Shadow DOM# 影刀Python代码块js_code // 穿透Shadow DOM获取搜索结果列表 function getShadowElements() { // 1. 先找到宿主元素 const host document.querySelector(my-component); if (!host || !host.shadowRoot) return []; // 2. 进入Shadow DOM内部 const shadowRoot host.shadowRoot; // 3. 在影子DOM内查找 const items shadowRoot.querySelectorAll(.result-item); ![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/4d27c61a401f4f2186203b2eb170baae.png#pic_center) // 4. 提取数据返回 return Array.from(items).map(item ({ title: item.querySelector(.title)?.textContent || , price: item.querySelector(.price)?.textContent || })); } return JSON.stringify(getShadowElements()); # 在影刀中执行resultexecute_javascript(js_code)datajson.loads(result)关键shadowRoot属性只有(open)模式才能访问。如果是(closed)模式需要用下面的策略。策略二截获组件数据源头现代前端框架Vue/React/Angular的组件数据往往来源于JavaScript变量或API响应# 通过Vue实例访问数据js_code // Vue组件的data可以通过__vue__访问 const app document.querySelector(#app); if (app app.__vue__) { return JSON.stringify(app.__vue__.$data); } // React组件的数据在fiber节点里 const reactRoot document.querySelector(#root); const fiberKey Object.keys(reactRoot).find(k k.startsWith(__reactFiber)); if (fiberKey) { // 遍历fiber树提取数据... } return []; 这个方法比你想象的更实用。有时候你不需要穿透DOM直接拿数据源头更方便。策略三用影刀的截图功能替代如果只是读取文字不是点击可以换个思路——用影刀的OCR截取Shadow DOM组件所在的页面区域用OCR文字识别指令读取截图上的文字正则提取需要的字段# 影刀流程# 1. 截图指令截取坐标区域(X:200, Y:300, W:600, H:400)# 2. OCR识别指令识别截图中的文字[video(video-d0XXQC3W-1781495574905)(type-csdn)(url-https://live.csdn.net/v/embed/526817)(image-https://v-![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/fe5ac20379504c4d90f2549952b04140.png#pic_center)blog.csdnimg.cn/asset/1d3c3709da119dd8c13ab01e9b282520/cover/Cover0.jpg)(title-TEMU店群矩阵自动化运营核价报活动)]# 3. Python正则从识别结果提取价格、销量等适用场景只读不点比如采集商品详情页的数据。不适合需要点击交互的场景。策略四辅助工具定位有些Chrome插件可以辅助调试Shadow DOMChroPath已停止维护但概念仍有用可以显示元素在Shadow DOM中的路径自定义JavaScript在控制台里写JS定位确认可行后再搬到影刀Python代码块一个常见实战Chrome扩展弹窗Chrome扩展的popup弹窗全是Shadow DOM特别典型# 操作Chrome扩展弹窗内的元素js_code // 找到扩展弹窗Shadow DOM内的按钮 const extension document.querySelector(extensions-manager); const shadow1 extension?.shadowRoot; const toolbar shadow1?.querySelector(extensions-toolbar); const shadow2 toolbar?.shadowRoot; const devToggle shadow2?.querySelector(#devMode); if (devToggle) { devToggle.click(); return clicked; } return not found; 注意嵌套层级大型应用的Shadow DOM可能嵌套2-3层需要逐层穿透。总结判断流程遇到元素捕获不到 ↓ F12看Elements有没有#shadow-root ↓ 有检查是open还是closed ↓ open → 策略一JS穿透shadowRoot ↓ closed → 检查能否从数据源头拿 ↓ 不能尝试策略三截图OCR#影刀RPA #RPA自动化 #ShadowDOM #动态网页 #数据采集进阶作者林焱本文为《影刀RPA学习手册》系列文章之一内容源于实操经验的整理与分享。

别再只会重装CUDA了！一个ln命令搞定libcudnn_ops_train.so.8报错（附原理图解）

动态库链接原理与实战：从报错到根治的深度指南引言：动态库问题的本质在Linux系统上开发深度学习应用时，动态库报错堪称"程序员成长的必经之路"。当终端抛出undefined symbol或Could not load library这类错误时，很多开发…...

2026/6/16 1:43:43 阅读更多 →

we-cropper：微信小程序图片裁剪难题的优雅解决方案

we-cropper：微信小程序图片裁剪难题的优雅解决方案【免费下载链接】we-cropper 微信小程序图片裁剪工具项目地址: https://gitcode.com/gh_mirrors/we/we-cropper 在小程序开发领域，图片裁剪一直是个令人头疼的技术挑战。开发者们常常陷入这样的…...

2026/6/16 1:41:53 阅读更多 →

【雷达】【传感器】【轨迹估计】基于联邦卡尔曼滤波Federated、集中式滤波、分布式卡尔曼滤波Decentralized Kalman filter研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长毕业设计辅导、数学建模、数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。 🍎 往期回顾关注个人主页：Matlab科研工作室 👇 关注我领取海量matlab电子书…...

2026/6/16 1:38:56 阅读更多 →

终极暗黑破坏神2存档编辑器d2s-editor：5分钟掌握可视化修改的完整指南

终极暗黑破坏神2存档编辑器d2s-editor：5分钟掌握可视化修改的完整指南【免费下载链接】d2s-editor 项目地址: https://gitcode.com/gh_mirrors/d2/d2s-editor 还在为暗黑破坏神2单机存档修改而烦恼吗？d2s-editor是一款免费开源的暗黑破坏神2存档…...

2026/6/14 0:08:59 阅读更多 →

APK安装器：在Windows电脑上直接安装安卓应用的终极指南

APK安装器：在Windows电脑上直接安装安卓应用的终极指南【免费下载链接】APK-Installer An Android Application Installer for Windows 项目地址: https://gitcode.com/GitHub_Trending/ap/APK-Installer 你是否曾经想在Windows电脑上运行安卓应用&#xff…...

2026/6/15 7:19:22 阅读更多 →

5分钟快速指南：silk-v3-decoder让微信语音转换变得如此简单

5分钟快速指南：silk-v3-decoder让微信语音转换变得如此简单【免费下载链接】silk-v3-decoder [Skype Silk Codec SDK]Decode silk v3 audio files (like wechat amr, aud files, qq slk files) and convert to other format (like mp3). Batch conversion support.…...

2026/6/15 4:36:45 阅读更多 →