feat: implement apiToken failover mechanism #1256

cr7258 · 2024-08-27T09:24:02Z

Ⅰ. Describe what this PR did

配置示例：

provider:
  type: qwen
  apiTokens:
    - "api-token-1"
    - "api-token-2"
    - "api-token-3"
  modelMapping:
    'gpt-3': "qwen-turbo"
    'gpt-4-turbo': "qwen-max"
    '*': "qwen-turbo"
  failover:
    enabled: true
    failureThreshold: 3
    successThreshold: 1
    healthCheckInterval: 5000
    healthCheckTimeout: 5000
    healthCheckModel: gpt-3

目前仅根据 HTTP 请求的响应状态码是否是 200 来判断 apiToken 是否可用，应该暂时用不到其他复杂的判断条件。

Ⅱ. Does this pull request fix one issue?

fixes #1227

Ⅲ. Why don't you add test cases (unit test/integration test)?

Ⅳ. Describe how to verify it

Ⅴ. Special notes for reviews

Question

目前还有两个问题：

1. 由于 Envoy 会启动多个 Wasm VM，当前的故障切换和健康检测是每个 Wasm VM 分别去做的（也就是说 VM1 可能已经把某个 apiToken 移除了，但是 VM2 可能还会继续用这个 apiToken 进行请求），是否需要通过 proxywasm.SetSharedData 在多个 Wasm VM 间进行同步？如果同步的话会带来另一个问题，如果 apiToken 不可用时，多个 Wasm VM 会同时发起多个健康检测请求。
1. 我需要发送请求到 envoy 本地监听的服务和端口来对 apiToken 做健康检测，目前我的做法是手动创建一个 cluster，指向 envoy 本地 Listen 的地址和端口，这样好像不太灵活，而且需要用户额外设置 cluster。有没有更好的方式？

healthCheckClient = wrapper.NewClusterClient(wrapper.StaticIpCluster{
		ServiceName: "local_cluster",
		Port:        10000,
	})

    - name: outbound|10000||local_cluster.static
      connect_timeout: 0.25s
      type: STATIC
      load_assignment:
        cluster_name: outbound|10000||local_cluster.static
        endpoints:
          - lb_endpoints:
              - endpoint:
                  address:
                    socket_address:
                      address: 127.0.0.1
                      port_value: 10000

codecov-commenter · 2024-08-27T09:27:14Z

Codecov Report

All modified and coverable lines are covered by tests ✅

Project coverage is 43.52%. Comparing base (ef31e09) to head (f0f24cc).
Report is 201 commits behind head on main.

Additional details and impacted files

@@            Coverage Diff             @@
##             main    #1256      +/-   ##
==========================================
+ Coverage   35.91%   43.52%   +7.61%     
==========================================
  Files          69       76       +7     
  Lines       11576    12320     +744     
==========================================
+ Hits         4157     5362    +1205     
+ Misses       7104     6622     -482     
- Partials      315      336      +21

see 69 files with indirect coverage changes

johnlanni · 2024-08-27T09:38:51Z

@cr7258 可以用SetSharedData同步一下，要注意用cas机制避免冲突，同时也可以基于SetSharedData机制进行选主，让一个worker做健康检查恢复，不过要注意SharedData中的数据是VM级别的，即使插件配置更新也不会清理。

plugins/wasm-go/extensions/ai-proxy/provider/failover.go

…asm VMs

cr7258 · 2024-08-31T15:30:38Z

@johnlanni 我修改了代码，使用 SetSharedData 在多个 VM 之间同步 apiToken 的信息，并且也使用 SetSharedData 进行选主了。

不过要注意SharedData中的数据是VM级别的，即使插件配置更新也不会清理。

这个地方提到的注意点，我需要做那些处理？

plugins/wasm-go/extensions/ai-proxy/provider/baichuan.go

plugins/wasm-go/extensions/ai-proxy/provider/failover.go

johnlanni · 2024-09-03T03:46:38Z

@johnlanni 我修改了代码，使用 SetSharedData 在多个 VM 之间同步 apiToken 的信息，并且也使用 SetSharedData 进行选主了。

不过要注意SharedData中的数据是VM级别的，即使插件配置更新也不会清理。

这个地方提到的注意点，我需要做那些处理？

大的问题没有，上面提到一些跟机制相关的细节处理，辛苦再调整下

CH3CHO · 2024-09-04T02:16:43Z

README.md 应该也要更新一下

plugins/wasm-go/extensions/ai-proxy/provider/failover.go

…ures exceeds the threshold

plugins/wasm-go/extensions/ai-proxy/main.go

plugins/wasm-go/extensions/ai-proxy/README.md

plugins/wasm-go/extensions/ai-proxy/provider/failover.go

…http call

plugins/wasm-go/extensions/ai-proxy/provider/provider.go

plugins/wasm-go/extensions/ai-proxy/provider/groq.go

plugins/wasm-go/extensions/ai-proxy/provider/claude.go

cr7258 · 2024-11-03T07:45:08Z

@CH3CHO 我把调用的逻辑包装到 handleRequestHeaders 和 handleRequestBody 函数中了，每个 provider 在 OnRequestHeaders 和 OnRequestBody 中分别调用这两个函数即可。之所以没有抽到 main 函数中，是考虑到在处理 headers 或者 body 的前后不同的 provider 的逻辑有可能有些不一样。example qwen, example claude

在 handleRequestBody 中还对从文件中获取 context 这种统一的行为作为处理，每个 provider 不需要重复写 m.contextCache.GetContent(func(content string, err error) 这部分代码了。insertContext 允许用户实现 provider 自己的 insertHttpContextMessage 方法，比如 qwen 和 claude 插入 system message 的方式不一样，如果没有实现，则使用默认的 defaultInsertHttpContextMessage 方法。

TransformRequestHeaders 和 TransformRequestBody 目前改为可选实现，如果没有实现 TransformRequestHeaders，不做任何修改，如何没有实现 TransformRequestBody，则只调用 defaultTransformRequestBody 方法做 model 映射。

上述修改已使用下面配置文件进行测试：

apiVersion: extensions.higress.io/v1alpha1
kind: WasmPlugin
metadata:
  name: ai-proxy-groq
  namespace: higress-system
spec:
  matchRules:
  - config:
      provider:
        type: groq
        apiTokens: 
          - "<grop-token>"
          - "sk-bad-groq"
        modelMapping:
          "*": llama3-8b-8192
        context:
          fileUrl: https://raw.githubusercontent.com/cr7258/test-context/refs/heads/main/README.md
          serviceName: github.dns
          servicePort: 443
        failover:
          enabled: true
          failureThreshold: 3
          successThreshold: 5
          healthCheckModel: gpt-3
    service:
    - groq.dns
  - config:
      provider:
        type: claude
        apiTokens: 
          - "<claude-token>"
          - "sk-bad-claude"
        modelMapping:
          gpt-3: claude-3-opus-20240229
          "*": claude-3-sonnet-20240229
        context:
          fileUrl: https://raw.githubusercontent.com/cr7258/test-context/refs/heads/main/README.md
          serviceName: github.dns
          servicePort: 443
        failover:
          enabled: true
          failureThreshold: 2
          successThreshold: 9
          healthCheckModel: gpt-3
    service:
    - claude.dns
  - config:
      provider:
        type: qwen
        apiTokens: 
          - "<qwen-token>"
          - "sk-bad-qwen"
        modelMapping:
          gpt-3: qwen-turbo
          "*": qwen-turbo
        context:
          fileUrl: https://raw.githubusercontent.com/cr7258/test-context/refs/heads/main/README.md
          serviceName: github.dns
          servicePort: 443
        failover:
          enabled: true
          failureThreshold: 4
          successThreshold: 7
          healthCheckModel: gpt-3
    service:
    - qwen.dns
  url: oci://cr7258/ai-proxy:failover-v86
---
apiVersion: networking.k8s.io/v1
kind: Ingress
metadata:
  annotations:
     higress.io/destination: |
      30% claude.dns
      30% groq.dns
      40% qwen.dns
  labels:
    higress.io/resource-definer: higress
  name: test-ai
  namespace: higress-system
spec:
  ingressClassName: higress
  rules:
  - host: test-ai.com
    http:
      paths:
      - backend:
          resource:
            apiGroup: networking.higress.io
            kind: McpBridge
            name: default
        path: /
        pathType: Prefix
---
apiVersion: networking.higress.io/v1
kind: McpBridge
metadata:
  name: default
  namespace: higress-system
spec:
  registries:
  - domain: api.groq.com
    name: groq
    port: 443
    type: dns
    protocol: https
    sni: api.groq.com
  - domain: api.anthropic.com
    name: claude
    port: 443
    type: dns
    protocol: https
    sni: api.anthropic.com
  - domain: dashscope.aliyuncs.com
    name: qwen
    port: 443
    type: dns
    protocol: https
    sni: dashscope.aliyuncs.com
  - domain: raw.githubusercontent.com
    name: github
    port: 443
    type: dns
    protocol: https
    sni: raw.githubusercontent.com

现在只对 qwen, grop, claude 这 3 个 provider 的代码做了对应的适配，如果没有其他问题的话，后面我把其他的 provider 也对应修改一下。

plugins/wasm-go/extensions/ai-proxy/util/http.go

plugins/wasm-go/extensions/ai-proxy/provider/request_helper.go

plugins/wasm-go/extensions/ai-proxy/provider/provider.go

cr7258 · 2024-11-14T03:26:20Z

@johnlanni @CH3CHO 所有 provider 都已经调整完毕，另外有两个新的改动：

新增 TransformRequestBodyHeadersHandler 接口：对于在 OnRequestBody 也会修改 header 的 provider，可以选择实现 TransformRequestBodyHeadersHandler 接口。
在 Provider 接口下新增 GetApiName 方法，我已经为所有 provider 实现了这个方法，用于在 protocol: original 的情况下，判断 apiName

plugins/wasm-go/extensions/ai-proxy/provider/ai360.go

CH3CHO

LGTM

johnlanni

Awesome

feat: implement apiToken failover mechanism

095b25e

cr7258 requested review from johnlanni, WeixinX and CH3CHO as code owners August 27, 2024 09:24

CH3CHO reviewed Aug 31, 2024

View reviewed changes

plugins/wasm-go/extensions/ai-proxy/provider/failover.go Outdated Show resolved Hide resolved

Use SetSharedData for leader election and syncing apiTokens between W…

4af200c

…asm VMs

cr7258 added 2 commits September 1, 2024 09:07

Merge branch 'main' into failover

192d855

support failover for all models

856343c

CH3CHO reviewed Sep 1, 2024

View reviewed changes

plugins/wasm-go/extensions/ai-proxy/provider/baichuan.go Outdated Show resolved Hide resolved

johnlanni requested changes Sep 3, 2024

View reviewed changes

CH3CHO reviewed Sep 4, 2024

View reviewed changes

plugins/wasm-go/extensions/ai-proxy/provider/failover.go Outdated Show resolved Hide resolved

CH3CHO reviewed Sep 4, 2024

View reviewed changes

plugins/wasm-go/extensions/ai-proxy/provider/failover.go Outdated Show resolved Hide resolved

cr7258 added 9 commits September 7, 2024 13:31

add cas retry logic

7d5f427

wrap getApiTokenInUse funtion

ee49848

only removed the apiToken when the number of consecutive request fail…

1e40d82

…ures exceeds the threshold

use uuid as vmid

432395b

fix byte covert

67551f2

reset shared data during initialization

82b2284

Merge branch 'main' into failover

daa48fe

failover support new model

8a818ed

fix

0554c85

CH3CHO reviewed Sep 26, 2024

View reviewed changes

plugins/wasm-go/extensions/ai-proxy/main.go Outdated Show resolved Hide resolved

plugins/wasm-go/extensions/ai-proxy/main.go Outdated Show resolved Hide resolved

plugins/wasm-go/extensions/ai-proxy/main.go Outdated Show resolved Hide resolved

cr7258 added 3 commits September 28, 2024 20:40

move SetApiTokensFailover to complete function

e3401d5

wrap failover logic into ProviderConfig

0f79913

fix

bda87f1

support github provider

7f36c09

cr7258 requested review from CH3CHO and johnlanni October 7, 2024 11:03

CH3CHO reviewed Oct 7, 2024

View reviewed changes

plugins/wasm-go/extensions/ai-proxy/README.md Outdated Show resolved Hide resolved

plugins/wasm-go/extensions/ai-proxy/README.md Outdated Show resolved Hide resolved

plugins/wasm-go/extensions/ai-proxy/provider/failover.go Show resolved Hide resolved

cr7258 added 5 commits October 10, 2024 21:02

fix

01b92d8

Merge branch 'main' into failover

a11a38b

unified the transformation of HTTP headers and body for ai-proxy and …

01b0eec

…http call

fix readme

a180e65

optimize

a72a8a1

CH3CHO reviewed Oct 18, 2024

View reviewed changes

plugins/wasm-go/extensions/ai-proxy/provider/provider.go Outdated Show resolved Hide resolved

plugins/wasm-go/extensions/ai-proxy/provider/groq.go Show resolved Hide resolved

plugins/wasm-go/extensions/ai-proxy/provider/claude.go Show resolved Hide resolved

cr7258 added 2 commits November 3, 2024 15:13

refine transform headers and body

6a62333

move defaultInsertHttpContextMessage to context.go

f1f375e

cr7258 requested a review from CH3CHO November 4, 2024 07:45

CH3CHO reviewed Nov 4, 2024

View reviewed changes

johnlanni requested changes Nov 5, 2024

View reviewed changes

plugins/wasm-go/extensions/ai-proxy/provider/provider.go Outdated Show resolved Hide resolved

cr7258 added 5 commits November 5, 2024 21:21

fix

0296110

remove get context in original protocol

f164854

add reset apiToken log

0938f98

add GetApiName to determine apiName for original protocol

8e425c3

fix

51c766f

cr7258 requested review from CH3CHO and johnlanni November 14, 2024 03:30

CH3CHO reviewed Nov 14, 2024

View reviewed changes

plugins/wasm-go/extensions/ai-proxy/provider/ai360.go Outdated Show resolved Hide resolved

make GetApiName optional

0b3422a

CH3CHO approved these changes Nov 16, 2024

View reviewed changes

Merge branch 'main' into failover

f0f24cc

johnlanni approved these changes Nov 16, 2024

View reviewed changes

johnlanni merged commit d24123a into alibaba:main Nov 16, 2024
13 checks passed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

feat: implement apiToken failover mechanism #1256

feat: implement apiToken failover mechanism #1256

cr7258 commented Aug 27, 2024

codecov-commenter commented Aug 27, 2024 •

edited

Loading

johnlanni commented Aug 27, 2024

cr7258 commented Aug 31, 2024

johnlanni commented Sep 3, 2024

CH3CHO commented Sep 4, 2024

cr7258 commented Nov 3, 2024 •

edited

Loading

cr7258 commented Nov 14, 2024

CH3CHO left a comment

johnlanni left a comment

feat: implement apiToken failover mechanism #1256

feat: implement apiToken failover mechanism #1256

Conversation

cr7258 commented Aug 27, 2024

Ⅰ. Describe what this PR did

Ⅱ. Does this pull request fix one issue?

Ⅲ. Why don't you add test cases (unit test/integration test)?

Ⅳ. Describe how to verify it

Ⅴ. Special notes for reviews

Question

codecov-commenter commented Aug 27, 2024 • edited Loading

Codecov Report

johnlanni commented Aug 27, 2024

cr7258 commented Aug 31, 2024

johnlanni commented Sep 3, 2024

CH3CHO commented Sep 4, 2024

cr7258 commented Nov 3, 2024 • edited Loading

cr7258 commented Nov 14, 2024

CH3CHO left a comment

Choose a reason for hiding this comment

johnlanni left a comment

Choose a reason for hiding this comment

codecov-commenter commented Aug 27, 2024 •

edited

Loading

cr7258 commented Nov 3, 2024 •

edited

Loading