用於社會變革的聊天機器人/大型語言模型的實用性
為了生成語句的嵌入,可以評估兩個語句之間含義的相似性,可以使用幾種最先進的開源演算法和工具。
**OpenAI 的嵌入模型**[1] OpenAI 提供了專門針對文字相似性和文字搜尋等功能進行調整的嵌入模型。這些模型接收文字作為輸入並返回一個嵌入向量,該向量可用於各種應用程式,包括評估語句之間的相似性。
**Spark NLP**[2] 該開源庫提供了一套基於變壓器的模型,包括 BERT 和通用句子編碼器,它們能夠建立豐富的語義嵌入。該庫在 Apache 2.0 許可下完全開源。
要使用 Spark NLP,您需要以下要求
- Java 8 和 11
- Apache Spark 3.5.x、3.4.x、3.3.x、3.2.x、3.1.x、3.0.x
GPU(可選):Spark NLP 5.1.4 使用 ONNX 1.15.1 和 TensorFlow 2.7.1 深度學習引擎構建。以下最小 NVIDIA® 軟體僅在需要 GPU 支援的情況下才需要
- NVIDIA® GPU 驅動程式版本 450.80.02 或更高版本
- CUDA® Toolkit 11.2
- cuDNN SDK 8.1.0
- 有一個巨大的文字嵌入基準測試(MTEB [3]),這將有助於我們確定要使用哪種嵌入演算法。
MTEB 引導我使用 llmrails 的 ember-v1 模型,因為它在 **SprintDuplicateQuestions** 資料集上取得了成功。目標是嵌入語句,以便社群認為重複的語句或問題最接近。該資料集彙集了來自 *Stack Exchange*、*Sprint 技術論壇網站* 和 *Quora* 的標記重複項。
LLMrails [4] 是一個平臺,提供強大的嵌入模型,以增強應用程式對大規模文字意義的理解。這包括語義搜尋、分類和重新排序功能等功能。
定價:“使用我們最先進的 ChatGPT 風格聊天機器人提升您的資料遊戲!您只需連結您的資料來源,然後觀看我們的聊天機器人如何將您的資料轉化為可操作的見解。”
LLMRails 正在徹底改變搜尋技術,為開發人員提供前所未有的訪問高階神經技術的許可權。提供更精確和相關的結果為搜尋技術領域的變革性變化鋪平了道路,使其能夠為各種開發人員所用。
來自網站:“透過私人邀請,加入 LLMRails 並開始您的 AI 冒險!” 他們是怎麼弄錯的?
- 嵌入 0.00005 美元/1k 個令牌
- 重新排序 0.001 美元/次搜尋
- 搜尋 0.0005 美元/次搜尋
- 提取 0.3 美元/文件
| **注意:** 此服務不提供我需要的功能。它有點 *過於* 管理。我只需要向量嵌入和檢索。 |
- **Amazon OpenSearch 服務** 是一種完全託管的服務,簡化了在 AWS 雲中部署、擴充套件和操作 OpenSearch 的過程。它支援向量搜尋功能和高效的向量查詢過濾器,可以提高語義或視覺搜尋體驗等應用程式的響應速度。
- **Azure 認知搜尋**:此服務允許向索引新增向量欄位,並支援向量搜尋。Azure 提供教程和 API 來將輸入轉換為向量並執行搜尋,以及用於文件搜尋等任務的 Azure OpenAI 嵌入。
- Zilliz Cloud 由全球最強大的向量資料庫 Milvus 提供支援,解決了處理數十億個向量的挑戰。
- Zilliz 有一個為期 30 天的免費試用期,價值 400 美元的積分。4 個 CUs
- 定價:Zilliz Cloud 使用情況(每個單位為 0.1 美分的用量)0.001 美元/單位
- 更全面的列表,Awesome Vector Search,在 GitHub 上。[5]
- 對於雲服務,他們首先列出 Zilliz,然後是 Relevance AI、Pinecone 和 MyScale。
- Graft 不知何故出現了
- 它 *極其* 昂貴,每月 500 美元用於 10,000 個數據點。每月 5,000 美元的無限資料點...
- 也許它比 Zilliz 管理得更多,或者這僅僅是基礎設施的成本,無論哪種方式?
- 高價格也可能表明這種技術的價值(他們還為您進行嵌入和文件上傳)。
- Milvus 是一個“為可擴充套件相似性搜尋而構建的向量資料庫,開源、高度可擴充套件且速度極快”。似乎很完美。他們有一個託管版本,但我不知道現在是否有必要。[6]
- **Elastic NLP:文字嵌入和向量搜尋**:提供有關部署文字嵌入模型的指南,並解釋向量嵌入是如何工作的,將資料轉換為數值表示[7]。
- **TensorFlow Recommenders 的 ScaNN**[8] TensorFlow 提供了一個名為 ScaNN 的高效向量相似度搜索庫。它允許在推理時快速搜尋嵌入,並且旨在透過最先進的向量壓縮技術實現最佳的速度-精度權衡。
- 其他值得注意的向量資料庫和搜尋引擎包括 **Chroma、LanceDB、Marqo、Qdrant、Vespa、Vald 和 Weaviate**,以及支援向量搜尋功能的資料庫,如 **Cassandra、Coveo 和 Elasticsearch OpenSearch**。
Milvus 基準測試
Milvus 已經進行了基準測試,這應該讓我們瞭解總體成本,以及我們在崩潰之前可以擴充套件多少。
- CPU:英特爾(R) 至強(R) 金牌 6226R CPU @ 2.90GHz。這是一款高階伺服器級處理器,適用於要求苛刻的任務。它屬於英特爾的至強可擴充套件處理器,這些處理器通常用於企業級伺服器,因為它們具有可靠性和效能。
- 記憶體:16 *\32 GB RDIMM,3200 MT/s。這意味著伺服器有 16 個記憶體插槽,每個插槽都配有 32 GB RDIMM(註冊 DIMM)模組,總共 512 GB 的 RAM。記憶體速度為 3200 MT/s(每秒兆傳輸),表示記憶體操作速度。
- SSD:SATA 6 Gbps。這表明伺服器使用透過 SATA 介面連線的固態硬碟,傳輸速率為每秒 6 千兆位元。SSD 比傳統硬碟快得多,並且因其速度和可靠性而受到青睞。
為了找到一個近似的 AWS EC2 等效項,我們需要儘可能地匹配這些規格。鑑於 CPU 和記憶體規格,您可能會考慮提供英特爾至強可擴充套件處理器(第 2 代或第 3 代)以及配置大量記憶體功能的 EC2 例項。
一個可能的匹配可能是來自 m5 或 r5 系列的例項,它們專為通用 (m5) 或記憶體最佳化 (r5) 工作負載而設計。例如,r5.12xlarge 例項提供 48 個 vCPU 和 384 GiB 的記憶體,雖然它與您的規格並不完全匹配(因為它記憶體更小),但它處於相同的效能範圍內。
但是,請記住,AWS 提供了各種各樣的 EC2 例項,實際選擇將取決於您的應用程式所需的 CPU、記憶體和 I/O 效能的具體平衡。此外,價格可能因區域、預留使用量與按需使用量以及彈性塊儲存 (EBS) 最佳化例項或新增額外 SSD 儲存等額外選項而有很大差異。
使用 AWS 定價計算器,這相當於每小時 3 美元。
- 搜尋 - (帶 1 個叢集)7k 到 10k QPS @ 128 個維度,(獨立帶 1 個)4k 到 7.5k QPS
- 可擴充套件性
- 從 8-16 個 CPU 核心開始,它會翻倍。之後它就不那麼快翻倍了
- 從 1 個副本增加到 8 個副本,QPS 從 7k 變化到 31k,並且可用的併發查詢數量增加了一倍以上(達到 1200)
一個小時有 3600 秒,所以 $PQ = $3 / (7k * 3600) = 每查詢 $0.000000119...
一篇有用的文章,比較了開源 LLM 模型,發表於 這裡,在 Medium 上.
| 模型 | 每 100 萬個輸入標記的成本 | 每 100 萬個輸出標記的成本 | 其他說明 |
|---|---|---|---|
| AI21Labs Jurassic-2 Ultra | $150 | $150 | 最高質量 |
| AI21Labs Jurassic-2 Mid | $10 | $10 | 質量、速度和成本的最佳平衡 |
| AI21Labs Jurassic-2 Light | $3 | $3 | 最快且最具成本效益 |
| AI21Labs Jurassic-2 Chat | $15 | $15 | 複雜的多輪互動 免費使用 1000 美元。 |
| Anthropic Claude Instant | $1.63 | $5.51 | 低延遲,高吞吐量 |
| Anthropic Claude 2.0、2.1 | $8 | $24 | 最適合需要複雜推理的任務 |
| Cohere Command | $1.00 | $2.00 | 標準產品 |
| Cohere Command Light | $0.30 | $0.60 | 輕量級版本 |
| Google Bard | 免費(雖然可能有限制) | 需要 Google 帳戶 | |
| GPT-4 Turbo (gpt-4-1106-preview) | $10 | $30 | |
| GPT-4 Turbo (gpt-4-1106-vision-preview) | $10 | $30 | |
| GPT-4 | $30 | $60 | |
| GPT-4-32k | $60 | $120 | |
| GPT-3.5 Turbo (gpt-3.5-turbo-1106) | $1.00 | $2.00 | |
| GPT-3.5 Turbo (gpt-3.5-turbo-instruct) | $1.50 | $2.00 |
從模型卡中: “Llama 2 是一種使用最佳化 Transformer 架構的自迴歸語言模型。Llama 2 旨在用於英語的商業和研究用途。它有多種引數大小——70 億、130 億和 700 億——以及預訓練和微調變體。”
事實證明,您必須禮貌地向微軟請求訪問引數集,並同意使用條款。
- 從 一些研究 可以清楚地看出,本地執行和訓練(我有一臺 2021 年的 Mac M1)會帶來很多麻煩。
- AWS Sagemaker 似乎是使用開源模型啟動和執行的絕佳選擇。
- 透過他們的 Jumpstart 功能,可以訪問數十種不同大小的模型。
- 實際上,您說“開始”,就會立即進入一個 JupyterLab 例項。
Llama 的硬體要求(2023 年 11 月)
| 模型 | 例項型別 | 量化 | 每個副本的 GPU 數量 | 成本 |
|---|---|---|---|---|
| Llama 7B | (ml.)g5.2xlarge | - | 1 | $1.52 (ml.) |
| Llama 13B | (ml.)g5.12xlarge | - | 4 | $7.09 (ml.) |
| Llama 70B | (ml.)g5.48xlarge | bitsandbytes | 8 | $20.36 (ml.) |
| Llama 70B | (ml.)p4d.24xlarge | - | 8 | $37.69 (ml.) |
AWS SageMaker 和 Llama 的基準測試
幸運的是,Phil Schmid 已經進行了 對 SageMaker 上不同 Llama 部署的徹底基準測試。他 2023 年的部落格文章特別適合作為使用這些 LLM 入門的絕佳參考。
為了舉例說明最經濟的例子,g5.2xlarge($1.52/小時)可以處理 5 個併發請求,每秒提供 120 個輸出標記。太棒了!那就是每 100 萬個標記 3.50 美元。相比之下,ChatGPT 提供 gpt-3.5-turbo(最便宜的選擇),價格為每 1k 個標記 0.0020 美元,或每 100 萬個標記 2.00 美元。相當可比,OpenAI 更便宜也不足為奇。
讓我們比較一下最昂貴的模型和最先進的 OpenAI 模型 GPT-4。Llama 70B 執行在一臺價值 37.69 美元的伺服器(ml.p4d.24xlarge)上,為 20 個併發請求提供服務,速度為每秒 321 個標記。那就是每 100 萬個標記 10.43 美元。相比之下,GPT-4 的價格為每 1k 個標記 0.06 美元,或每 100 萬個標記 60 美元。
還應該注意到,Phil Schmid 能夠 為 AWS 的新 inferentia2 硬體(inf2.xlarge)中的預算部署獲得不錯的效能(每生成一千個標記 15 秒),該硬體每小時僅需 0.75 美元。那就是每月 550 美元,所以最好不要一直開著,但仍然很酷!
他 訓練 了一個 70 億引數的 Mistral 模型,使用 ml.g5.4xlarge($2.03/小時)。它能夠根據 15,001 個示例進行微調,在整個過程中處理了 3 次(輪次),總共花費了 3.9 小時,總成本不到 8 美元。
為了實現最廣泛的覆蓋面,我們希望將我們的聊天機器人與低成本的通訊媒介整合,例如簡訊、電話、WhatsApp、Facebook Messenger、微信,或者可能是基於 nostr 構建的去中心化訊息傳遞平臺。每個選項都有不同的優勢、侷限性和貨幣成本。本節概述了可用的連線方式,以及讓您入門的定價和基本原理。
Facebook(現在在母公司 Meta 旗下)計劃將其訊息傳遞服務整合到 WhatsApp、Instagram 和 Facebook Messenger 中。馬克·扎克伯格正在領導一項計劃,將這些應用程式的底層技術基礎設施合併在一起,同時保持它們作為獨立的應用程式[9]。這將允許跨平臺的訊息傳遞,所有訊息傳遞應用程式都將採用端到端加密[10]。該整合引發了人們對反壟斷問題、隱私以及 Facebook 進一步鞏固其對各個平臺的控制權的擔憂[11]。
像 Tidio、Aivo's AgentBot、Respond.io、BotsCrew、Gupshup、Landbot 和 Sinch Engage 這樣的第三方平臺允許企業建立可以與 WhatsApp、Facebook Messenger、Instagram 和其他渠道整合的聊天機器人。
以下表格總結了各種第三方平臺支援的訊息傳遞整合,以及它們的近似定價和相關說明
| 平臺 | 訊息傳遞整合 | 近似定價 | 說明 |
|---|---|---|---|
| Landbot | WhatsApp、Facebook Messenger | 入門版:€49/月,專業版:€99/月,企業版:自定義 | 提供 AI 聊天機器人構建器、選擇加入工具、工作流、調查等。需要至少一個專業版帳戶才能與 Webhook 整合。 |
| BotSpace | 入門版:₹3,499/月,專業版:₹7,499/月,高階版:₹23,499/月 | 支援團隊收件箱、角色和許可權、自定義工作流。 | |
| Callbell | 每 10 個座席 €50/月,+ 每 WhatsApp 號碼 €20/月 | 提供 €59/月的 advanced bot builder 模組。 | |
| DelightChat | WhatsApp(其他未指定) | 未提供定價 | 為不同階段的企業提供計劃。 |
| Brevo | 按需付費,無定期費用 | 僅需為傳送的 WhatsApp 訊息付費。 | |
| AiSensy | 基礎版:₹899/月($10.77),專業版:₹2399/月($28.73) | 免費服務每月對話數量有限制。 | |
| Flowable Engage | WhatsApp、Facebook Messenger、微信、LINE | 未提供定價 | 支援語音/視訊通話、模板、某些平臺上的富媒體。帳戶要求各不相同。 |
所有列出的平臺都支援 WhatsApp 整合,因為它是一個企業常用的訊息傳遞渠道。像 Landbot 和 Flowable Engage 這樣的平臺也支援 Facebook Messenger 整合。像 Flowable Engage 這樣的平臺還提供與微信和 LINE 等其他訊息傳遞應用程式的整合。定價模式各不相同,有些提供訂閱計劃(每月/每年),而另一些則採用按訊息付費或按座席付費的模式。某些平臺將 AI 聊天機器人、自定義工作流、調查等附加功能與訊息傳遞整合捆綁在一起。
搜尋結果表明,Meta(Facebook)正在努力實現其自身訊息傳遞應用程式(WhatsApp、Messenger、Instagram)之間的互操作性,以及與經批准的第三方訊息傳遞服務的互操作性,這是歐盟數字市場法案[12][13] 規定的。但是,這種互操作性的程度及其對現有第三方整合的影響目前尚不清楚。
- ↑ "Introducing text and code embeddings". OpenAI. Retrieved 2023-11-07.
- ↑ "GPU vs CPU benchmark". Spark NLP. Retrieved 2023-11-07.
- ↑ MTEB
- ↑ llmrails
- ↑ Awesome Vector Search
- ↑ Milvus 主頁
- ↑ Elastic
- ↑ "Efficient serving". TensorFlow Recommenders. Retrieved 2023-11-07.
- ↑ https://www.nytimes.com/2019/01/25/technology/facebook-instagram-whatsapp-messenger.html 紐約時報
- ↑ https://www.theverge.com/2019/1/25/18197628/facebook-messenger-whatsapp-instagram-integration-encryption The Verge
- ↑ https://www.wired.com/story/facebook-plans-unite-messaging-apps/ Wired
- ↑ https://www.theverge.com/2023/3/24/23655688/eu-digital-markets-act-messaging-interoperability-meta-whatsapp-imessage The Verge
- ↑ https://www.reuters.com/technology/eu-rules-force-meta-open-up-messaging-apps-2023-03-24/ 路透社