ZhaokunZhang's recent timeline updates

ZhaokunZhang

🏢 front end

V2EX member #551897, joined on 2021-07-27 18:16:33 +08:00

Today's activity rank 9462

ZhaokunZhang 提问技术话题好玩工作信息交易信息城市相关

移动端回归测试人手不够，我落地了一套 VLM 真机自动化方案，想听听大家意见

分享创造 • ZhaokunZhang • 5 days ago • Lastly replied by ZhaokunZhang

» More topics by ZhaokunZhang

ZhaokunZhang's recent replies

1 day ago

Replied to a topic by HMYang33 › 职场话题 › it 派遣公司持续不断地给我耍大刀，准备仲裁了

先去办理下社保追诉，公积金追缴，去小红书查查，每天别忘去签到打卡。

1 day ago

Replied to a topic by jiames1969 › AI Agent 智能体 › 我发现有了 AI 之后，很多人都在重复造轮子

脑袋用了开塞露，奇思妙想挡不住。

1 day ago

Replied to a topic by bluebird007 › 职场话题 › 坐标杭州，不签同意分月发 n+1 的协议，直接就不给 n+1 了？该怎么维权

别忘了公积金申诉，社保申诉。乱七八糟的从小红书上搜一搜。

5 days ago

Replied to a topic by ZhaokunZhang › 分享创造 › 移动端回归测试人手不够，我落地了一套 VLM 真机自动化方案，想听听大家意见

@beimenjun 通过询问作者得到一份真实场景的数据
一条中长复杂度的 App 自动化 case ，从进入洋葱 App 做题板块，到循环完成 5 道题，并断言结束页结果正确。该 case 实际共请求豆包视觉模型 doubao-seed-1-6-vision-250815 共 33 次。

在执行过程中，我们在调用层实现了 Token 经济熔断机制：当上下文 token 接近一档上限时，主动切断当前会话上下文并开启新一段请求，避免后续 prompt tokens 持续累积进入更高计费档位。这个真实案例中，第 21 次模型请求时 prompt tokens 达到 31,328 ，第 22 次请求被熔断切段后降到 2,982 。

这次真实执行的 token 数据为：总 prompt tokens = 486,363 ，总 completion tokens = 2,613 ，其中 cached tokens = 438,549 ，缓存命中率 90.2%，真实推理 token 为 50,427 。

按该模型一档计价口径估算：未命中输入 0.72 元 / 百万 tokens ，缓存命中输入 0.16 元 / 百万 tokens ，输出 7.2 元 / 百万 tokens 。

费用公式为：

总费用 = 未命中输入 token × 未命中输入单价 + 缓存命中 token × 缓存命中单价 + 输出 token × 输出单价

代入数据：

未命中输入 token = 486,363 − 438,549 = 47,814 ，费用约 0.034 元；缓存命中 token = 438,549 ，费用约 0.070 元；输出 token = 2,613 ，费用约 0.019 元。

所以这条 33 次模型请求的中长复杂度 case ，整体推理费用约为 0.12 元上下。该金额已经包含缓存命中 token 的计费，但未包含缓存存储费；缓存存储费量级很小，暂不计入。

5 days ago

Replied to a topic by ZhaokunZhang › 分享创造 › 移动端回归测试人手不够，我落地了一套 VLM 真机自动化方案，想听听大家意见

@lancevps 这个可能理解岔了，AI 生成测试用例是输入，AI Phone 做的是执行。目前我们使用的典型场景是：AI 生成测试用例后（比如 cursor 生成的），触发器直接自动调用 ai-phone 开始端到端的真机执行

5 days ago

Replied to a topic by ZhaokunZhang › 分享创造 › 移动端回归测试人手不够，我落地了一套 VLM 真机自动化方案，想听听大家意见

@clemente 你提的 hook + AI 方式确实在调试和快速验证上很高效，但在我们公司属于开发自测阶段的验证手段，在测试场景里，我们还是需要在真实设备上多端完整走一遍用户流程，确保交互和界面行为都被覆盖。

5 days ago

Replied to a topic by ZhaokunZhang › 分享创造 › 移动端回归测试人手不够，我落地了一套 VLM 真机自动化方案，想听听大家意见

@kkwwuuww 目前真机手装，后续会加入这个功能，上传分发

5 days ago

Replied to a topic by ZhaokunZhang › 分享创造 › 移动端回归测试人手不够，我落地了一套 VLM 真机自动化方案，想听听大家意见

@beimenjun 关于经济性和速度，其实做了不少工作：
经济：
开启模型主动式缓存：模型在首次执行测试用例时就会有约 90% 的 token 消耗落在缓存区，消耗其实不算大。
同时有分段逻辑：当模型上下文达到 30K token 时会主动断连，并注入上下文辅助信息，保证执行稳定，同时避免触发模型阶梯计费。
速度:
纯视觉回放比较复杂，要速度会牺牲稳定性，要保证稳定又会牺牲速度，因为无法自动判断每个动作是否准确落下。
目前有三种缓存策略，适配不同场景：
1. 固定轨迹回放
* 按首次执行的动作完整回放，对业务稳定性要求高。
* 每步页面检测严格，保证稳定后执行，但速度一般。
2. 路标缓存回放
* 每步执行后与首次缓存路标对齐，判断动作是否正确。
* 正确就继续回放；不正确就按首次执行真实间隔加载完成，再由 VLM 局部介入修复本步骤，修复后继续缓存回放。
* 静态需求场景下速度最快。
3. 位置重建缓存回放
* 针对业务频繁变动的场景，将首次执行动作抽象缓存，再次执行只询问模型位置，不重新推理。
* 保证实时正确，同时节省成本，速度比首次执行略快。

弹窗/非业务浮层标记逻辑
* 在路标和位置重建回放中，如果弹窗存在，会帮助关闭；不存在则跳过继续回放，保证整体稳定性。
这些方案各自适配不同场景，但天然都对业务稳定性有一定要求。

5 days ago

Replied to a topic by ZhaokunZhang › 分享创造 › 移动端回归测试人手不够，我落地了一套 VLM 真机自动化方案，想听听大家意见

@cthunter 如果 deepseek 视觉模型全量，估计成本更低。

5 days ago

Replied to a topic by ZhaokunZhang › 分享创造 › 移动端回归测试人手不够，我落地了一套 VLM 真机自动化方案，想听听大家意见

@WebKit 我这边都是端内 web view 有些需要触发端内桥的功能。主要是这个。作者本人没 v2 号。

» More replies by ZhaokunZhang