使用听语AI总结-B站大佬程序员小山与Bug分享的skills原理

wzj177

关于听语AI

他是一款面向本地部署与私有化使用的转写与内容抽取平台,覆盖视频/音频转写、会议录音处理、结构化内容输出与任务管理。支持本地与云端 ASR 混合使用,适合需要稳定、可控、可扩展的生产场景。
这款开源项目,目前已经完成开发源码版本,后续推出跨平台的打包版本,同时放一个传送门


如何下载b站高清视频

在开始之前,我给大家分享下我自己平时是如何下载高清视频的。

工具站下载

我们可以访问B站视频解析网站(ps:这个也是我自己做的),然后在把b站的视频地址复制上,在粘贴到工具的输入框后点击提交就行了,如果大家需要1080p的,点击右侧二维码,大家用自己的b站app扫码登录就行(ps:不会记录任何用户数据,放心使用)

浏览器插件下载

1、ACG助手 - 提供视频下载消息

这是一个十分强大的专业b站下载插件,功能十分丰富,一般情况在不开通会员下就能满足,放一个传送门

2、万能猫爪

这个工具就不过多介绍了,没用过的朋友还是给你们一个传送门


内容卡片:Cloud Code 中 Skill 的底层实现解析

标题

Cloud Code 中 Skill 的底层实现与 Function Calling 机制解析

摘要

本视频探讨了 Cloud Code 中 Skill 的底层实现原理,通过抓包分析展示了其基于 Function Calling 的工作机制。作者详细讲解了如何通过配置 HTTP 协议抓取请求数据,并逐步拆解了 Skill 的动态描述拼接逻辑。视频还强调了 Token 消耗的重要性及其在对话轮数增加时的指数级增长趋势。(00:00-03:57)

章节

1. 抓包分析 Cloud Code 的请求机制

  • 内容:Cloud Code 使用 HTTPS 协议进行双向验证,难以通过中间人抓包。为解决这一问题,作者将网关地址改为 HTTP 协议(如火山支持 HTTP),并通过设置代理端口(8888)启动抓包工具。(00:00-00:44)
  • 关键帧
    ]

2. 请求体与 Function Calling 模块解析

  • 内容:通过抓包工具捕获请求后,作者分析了请求体中的 JSON 数据,包括系统提示词和 Function Calling 模块的具体功能。模块中包含 task、task output、base、global 等字段,以及一些特定功能如文件编辑、联网搜索等。(00:44-01:26)
  • 关键帧

3. Skill 的动态描述拼接逻辑

  • 内容:Skill 是一个特殊的 Function,其描述会根据 skill 文件夹中的头信息动态拼接。例如,当调用 PPT 相关技能时,详细的描述会被二次传递给大模型。(01:26-02:44)

  • 关键帧

    4. Token 消耗与对话状态管理

  • 内容:即使是简单的“你好”输入,底层也会发送大量数据,消耗大量 Token。随着对话轮数增加,历史聊天记录必须携带,导致 Token 消耗呈指数级增长。(03:10-03:57)

  • 关键帧

总结与思考

  • 总结

    • Cloud Code 中的 Skill 底层实现基于 Function Calling,其描述通过动态拼接生成。(02:44-03:10)
    • 抓包分析揭示了请求体的结构和具体功能模块的设计逻辑。(00:44-01:26)
    • Token 消耗在对话过程中至关重要,尤其是随着对话轮数增加,历史记录的携带会导致消耗激增。(03:10-03:57)
  • 思考

    • 动态拼接的描述机制是否可以进一步优化以减少 Token 消耗?
    • 在实际应用中,如何平衡功能丰富性与 Token 成本之间的关系?

附注

所有图像均来自视频关键帧,未对画面细节进行推测或杜撰。


原文

38 0 0
0个评论

wzj177

1446
积分
0
获赞数
0
粉丝数
2019-06-03 加入
🔝