介绍

在这里，我们将构建一个多模态AI代理，能够执行多种任务，包括文本转语音、从文本生成图像、描述图像和网络搜索。我们将利用CrewAI框架来协调一组专业代理，每个代理都有自己的工具和能力。为了实现快速推理，我们将在Groq硬件加速器上运行这些代理，使用Replicate AI的模型。

系统架构

系统将由以下组件组成：

CrewAI：用于定义代理、他们的角色、目标、工具和协作工作流程。
Replicate AI：提供预训练的多模态语言模型，支持代理根据文本描述进行图像生成和基于图像的问题回答。
Groq：快速的AI推理，采用LPU™ AI推理技术，提供快速、经济和节能的AI。
Tavily-Python：用于网络搜索和信息检索的开源库。

代理将被组织成一个团队，每个代理被分配特定的角色和工具集。他们将通过在需要时相互委派来协作执行多步骤任务。

代理角色和能力

文本转语音代理

角色：将输入文本转换为自然声音的语音
工具：Replicate AI 文本转语音模型
能力：以文本作为输入，输出音频文件
模型：cjwbw/seamless_communication

图像生成代理

角色：根据文本描述生成图像
工具：Replicate AI 图像生成模型
能力：以文本提示作为输入，输出生成的图像
模型：xlabs-ai/flux-dev-controlnet

图像转文本描述代理

角色：用自然语言描述图像内容
工具：Replicate AI 图像描述模型
能力：以图像作为输入，输出文本描述
模型：yorickvp/llava-13b

网络搜索代理

角色：从网络中检索相关信息以回答查询
工具：Tavily-Python 网络搜索库
能力：以查询作为输入，输出相关信息的摘要

工作流实施步骤

用户向代理提供指令。
根据用户的指示，路由代理决定进一步的行动方案。
根据路由代理的响应，检索代理通过调用相应的工具执行最终任务。
如果路由代理的响应是‘text2image’，则检索代理将调用图像生成工具。
如果路由代理的响应是’image2text’，则检索代理将调用描述图像的工具。
如果路由代理的响应是’text2speech’，则检索代理将调用将文本转换为音频的工具。
如果路由代理的响应是’web_search’，则检索代理将调用网页搜索工具生成响应。

代码实现

安装所需依赖

!pip install -qU langchain langchain_community tavily-python langchain-groq groq replicate
!pip install -qU crewai crewai[tools]

设置 API 密钥

import os
from google.colab import userdata
os.environ['OPENAI_API_KEY'] = userdata.get('OPENAI_API_KEY')
os.environ['REPLICATE_API_TOKEN'] = userdata.get('REPLICATE_API_TOKEN')
os.environ['TAVILY_API_KEY'] = userdata.get('TAVILY_API_KEY')
os.environ['GROQ_API_KEY'] = userdata.get('GROQ_API_KEY')

创建网页搜索工具辅助函数

from langchain_community.tools.tavily_search import TavilySearchResults
def web_search_tool(question: str) -> str:
    """当我们想要进行当前事件的网页搜索时，这个工具非常有用。"""
    # 函数逻辑在这里
    # 步骤 1：使用您的 API 密钥实例化 Tavily 客户端
    websearch = TavilySearchResults()
    # 步骤 2：执行搜索查询
    response = websearch.invoke({"query":question})
    return response

创建辅助函数以创建文本到语音工具

## 文本到语音工具
import replicate
#
def text2speech(text:str) -> str:
    """当我们想要将文本转换为语音时，这个工具非常有用。"""
    # 函数逻辑在这里
    output = replicate.run(
    "cjwbw/seamless_communication:668a4fec05a887143e5fe8d45df25ec4c794dd43169b9a11562309b2d45873b0",
    input={
        "task_name": "T2ST (文本到语音翻译)",
        "input_text": text,
        "input_text_language": "English",
        "max_input_audio_length": 60,
        "target_language_text_only": "English",
        "target_language_with_speech": "English"
    }
    )
    return output["audio_output"]

辅助函数从文本描述创建图像

# 创建文本到图像
def text2image(text:str) -> str:
    """当我们想要从文本描述生成图像时，这个工具非常有用。"""
    # 函数逻辑在这里
    output = replicate.run(
    "xlabs-ai/flux-dev-controlnet:f2c31c31d81278a91b2447a304dae654c64a5d5a70340fba811bb1cbd41019a2",
    input={
        "steps": 28,
        "prompt": text,
        "lora_url": "",
        "control_type": "depth",
        "control_image": "https://replicate.delivery/pbxt/LUSNInCegT0XwStCCJjXOojSBhPjpk2Pzj5VNjksiP9cER8A/ComfyUI_02172_.png",
        "lora_strength": 1,
        "output_format": "webp",
        "guidance_scale": 2.5,
        "output_quality": 100,
        "negative_prompt": "低质量, 丑陋, 失真, 伪影",
        "control_strength": 0.45,
        "depth_preprocessor": "DepthAnything",
        "soft_edge_preprocessor": "HED",
        "image_to_image_strength": 0,
        "return_preprocessed_image": False
        }
    )
    print(output)
    return output[0]

辅助函数处理提供的图像信息

## 文本到图像
def image2text(image_url:str,prompt:str) -> str:
  """当我们想要从图像生成文本描述时，这个工具非常有用。"""
  # 函数
  output = replicate.run(
    "yorickvp/llava-13b:80537f9eead1a5bfa72d5ac6ea6414379be41d4d4f6679fd776e9535d1eb58bb",
    input={
        "image": image_url,
        "top_p": 1,
        "prompt": prompt,
        "max_tokens": 1024,
        "temperature": 0.2
    }
  )
  return "".join(output)

设置路由工具

from crewai_tools import tool
## 路由工具
@tool("router tool")
def router_tool(question:str) -> str:
  """路由函数"""
  prompt = f"""根据下面提供的问题确定以下内容：
1. 问题是否指向生成图像？
2. 问题是否指向描述图像？
3. 问题是否指向将文本转换为语音？
4. 问题是否是一个通用问题，需要通过网络搜索来回答？
问题：{question}

响应说明：
- 仅回答 1 或 2 或 3 或 4。
- 答案应严格为字符串。
- 除了 1 或 2 或 3 或 4 外，不要提供任何前言或解释。

输出格式：
1
"""
  response = llm.invoke(prompt).content
  if response == "1":
    return 'text2image'
  elif response == "3":
    return 'text2speech'
  elif response == "4":
    return 'web_search'
  else:
    return 'image2text'

设置检索工具

@tool("retriver tool")
def retriver_tool(router_response:str,question:str,image_url:str) -> str:
  """检索函数"""
  if router_response == 'text2image':
    return text2image(question)
  elif router_response == 'text2speech':
    return text2speech(question)
  elif router_response == 'image2text':
    return image2text(image_url,question)
  else:
    return web_search_tool(question)

设置 LLM

from langchain_groq import ChatGroq
llm = ChatGroq(model_name="llama-3.1-70b-versatile",
    temperature=0.1,
    max_tokens=1000,
)

设置路由代理

from crewai import Agent
Router_Agent = Agent(
  role='Router',
  goal='将用户问题路由到文本到图像或文本到语音或网页搜索',
  backstory=(
    "您是将用户问题路由到文本到图像或文本到语音或网页搜索的专家。"
    "使用文本到图像生成来自文本描述的图像。"
    "使用文本到语音将文本转换为语音。"
    "使用图像到文本根据文本描述生成描述图像的文本。"
    "使用网页搜索搜索当前事件。"
    "您不需要严格遵循与这些主题相关的问题中的关键词。否则，使用网页搜索。"
  ),
  verbose=True,
  allow_delegation=False,
  llm=llm,
  tools=[router_tool],
)

设置检索代理

## 检索代理
Retriever_Agent = Agent(
role="Retriever",
goal="使用从路由器检索到的信息回答提供的问题和图像 URL。",
backstory=(
    "您是根据路由器的响应将任务指向相应代理的助手。"
    "使用路由器的信息执行相应的任务。"
    "不要提供任何其他解释"
),
verbose=True,
allow_delegation=False,
llm=llm,
tools=[retriver_tool],
)

设置路由任务

from crewai import Task
router_task = Task(
    description=("分析问题 {question} 中的关键词。"
    "如果问题 {question} 指示描述图像，则使用图像 URL {image_url} 生成详细且高质量的图像，涵盖问题 {question} 中提供的文本描述的所有细微差别。"
    "根据关键词决定它是否符合文本到图像、文本到语音或网页搜索的条件。"
    "如果符合从文本描述生成图像的条件，则返回单词 'text2image'。"
    "如果符合将文本转换为语音的条件，则返回单词 'text2speech'。"
    "如果符合根据问题 {question} 和图像 URL {image_url} 描述图像的条件，则返回单词 'image2text'。"
    "如果符合网页搜索的条件，则返回单词 'web_search'。"
    "不要提供任何其他前言或解释。"
    ),
    expected_output=("根据问题 {question} 和图像 URL {image_url} 给出选择 'web_search' 或 'text2image' 或 'text2speech' 或 'image2text'。"
    "除了 'text2image' 或 'text2speech' 或 'web_search' 或 'image2text' 外，不要提供任何前言或解释。"),
    agent=Router_Agent,
)

设置检索任务

retriever_task = Task(
    description=("根据 'router_task' 的响应生成问题 {question} 的响应，利用相应的工具。"
    "如果路由任务输出为 'web_search'，则使用 web_search_tool 从网络检索信息。"
    "如果路由任务输出为 'text2speech'，则使用 text2speech 工具将问题 {question} 中提供的文本转换为英语语音。"
    "如果路由任务输出为 'text2image'，则使用 text2image 工具将问题 {question} 中提供的文本转换为英语语音。"
    "如果路由任务输出为 'image2text'，则使用 image2text 工具根据问题 {question} 和图像 URL {image_url} 描述图像。"
    ),
    expected_output=("您应分析 'router_task' 的输出。"
    "如果响应为 'web_search'，则使用 web_search_tool 从网络检索信息。"
    "如果响应为 'text2image'，则使用 text2image 工具生成详细且高质量的图像，涵盖问题 {question} 中提供的文本描述的所有细微差别。"
    "如果响应为 'text2speech'，则使用 text2speech 工具将问题 {question} 中提供的文本转换为语音。"
    "如果响应为 'image2text'，则使用 'image2text' 工具根据问题 {question} 和 {image_url} 描述图像。"
    ),
    agent=Retriever_Agent,
    context=[router_task],
)

设置团队

from crewai import Crew,Process
crew = Crew(
    agents=[Router_Agent,Retriever_Agent],
    tasks=[router_task,retriever_task],
    verbose=True,
)

图像生成任务

启动团队

inputs ={"question":"根据以下文本生成图像：一位美丽的印度模特女性的特写组合照片，完美的眼睛，明亮的工作室灯光，散景，50mm 照片，霓虹粉色遮阳帽","image_url":" "}
result = crew.kickoff(inputs=inputs)

######################响应#############################
[2024-08-25 04:14:22][DEBUG]: == 工作代理: 路由器
 [2024-08-25 04:14:22][INFO]: == 开始任务: 分析问题中的关键词 生成图像根据以下文本：一位美丽的印度模特女性的特写组合照片，完美的眼睛，明亮的工作室灯光，散景，50mm 照片，霓虹粉色遮阳帽。如果问题生成图像根据以下文本：一位美丽的印度模特女性的特写组合照片，完美的眼睛，明亮的工作室灯光，散景，50mm 照片，霓虹粉色遮阳帽指示描述图像，则使用图像 URL 生成详细且高质量的图像，涵盖问题生成图像根据以下文本：一位美丽的印度模特女性的特写组合照片，完美的眼睛，明亮的工作室灯光，散景，50mm 照片，霓虹粉色遮阳帽中提供的文本描述的所有细微差别。根据关键词决定它是否符合文本到图像、文本到语音或网页搜索的条件。如果符合从文本描述生成图像的条件，则返回单词 'text2image'。如果符合将文本转换为语音的条件，则返回单词 'text2speech'。如果符合根据问题生成图像根据以下文本：一位美丽的印度模特女性的特写组合照片，完美的眼睛，明亮的工作室灯光，散景，50mm 照片，霓虹粉色遮阳帽和图像 URL。返回单词 'web_search' 如果符合网页搜索的条件。不要提供任何其他前言或解释。

> 进入新的 CrewAgentExecutor 链...
思考：问题包含“生成图像根据以下文本”和图像的详细描述等关键词，因此用户似乎想要从给定文本生成图像。

行动：路由工具
行动输入：{"question": "生成图像根据以下文本：一位美丽的印度模特女性的特写组合照片，完美的眼睛，明亮的工作室灯光，散景，50mm 照片，霓虹粉色遮阳帽"} 

text2image

思考：问题包含“生成图像根据以下文本”和图像的详细描述等关键词，因此用户似乎想要从给定文本生成图像。

行动：路由工具
行动输入：{"question": "生成图像根据以下文本：一位美丽的印度模特女性的特写组合照片，完美的眼睛，明亮的工作室灯光，散景，50mm 照片，霓虹粉色遮阳帽"} 

我尝试重用相同的输入，我必须停止使用这个行动输入。我将尝试其他方法。

思考：问题包含“生成图像根据以下文本”和图像的详细描述等关键词，因此用户似乎想要从给定文本生成图像。

行动：路由工具
行动输入：{"question": "一位美丽的印度模特女性的特写组合照片，完美的眼睛，明亮的工作室灯光，散景，50mm 照片，霓虹粉色遮阳帽"} 

text2image

思考：我现在知道最终答案
最终答案：text2image

> 完成链。
 [2024-08-25 04:14:26][DEBUG]: == [路由器] 任务输出: text2image

 [2024-08-25 04:14:26][DEBUG]: == 工作代理: 检索器
 [2024-08-25 04:14:26][INFO]: == 开始任务: 根据 'router_task' 的响应生成问题生成图像根据以下文本：一位美丽的印度模特女性的特写组合照片，完美的眼睛，明亮的工作室灯光，散景，50mm 照片，霓虹粉色遮阳帽的响应，利用相应的工具。如果路由任务输出为 'web_search'，则使用 web_search_tool 从网络检索信息。如果路由任务输出为 'text2speech'，则使用 text2speech 工具将问题生成图像根据以下文本：一位美丽的印度模特女性的特写组合照片，完美的眼睛，明亮的工作室灯光，散景，50mm 照片，霓虹粉色遮阳帽中的文本转换为英语语音。如果路由任务输出为 'text2image'，则使用 text2image 工具将问题生成图像根据以下文本：一位美丽的印度模特女性的特写组合照片，完美的眼睛，明亮的工作室灯光，散景，50mm 照片，霓虹粉色遮阳帽中的文本转换为英语语音。如果路由任务输出为 'image2text'，则使用 image2text 工具根据问题生成图像根据以下文本：一位美丽的印度模特女性的特写组合照片，完美的眼睛，明亮的工作室灯光，散景，50mm 照片，霓虹粉色遮阳帽和图像 URL 描述图像。

> 进入新的 CrewAgentExecutor 链...
思考：我需要使用来自路由器的信息来确定要执行的任务。

行动：检索工具
行动输入：{"router_response": "text2image", "question": "生成图像根据以下文本：一位美丽的印度模特女性的特写组合照片，完美的眼睛，明亮的工作室灯光，散景，50mm 照片，霓虹粉色遮阳帽", "image_url": ""}['https://replicate.delivery/yhqm/XjBShO4PSexSSaThOCnZoDl4rYeq1pNAZNaKIuvi3mvFHGWTA/R8_FLUX_XLABS_00001_.webp']

https://replicate.delivery/yhqm/XjBShO4PSexSSaThOCnZoDl4rYeq1pNAZNaKIuvi3mvFHGWTA/R8_FLUX_XLABS_00001_.webp

思考：我需要使用来自路由器的信息来确定要执行的任务。
行动：检索工具
行动输入：{"router_response": "text2image", "question": "生成图像根据以下文本：一位美丽的印度模特女性的特写组合照片，完美的眼睛，明亮的工作室灯光，散景，50mm 照片，霓虹粉色遮阳帽", "image_url": ""} 

我尝试重用相同的输入，我必须停止使用这个行动输入。我将尝试其他方法。

思考：我需要使用来自路由器的信息来确定要执行的任务。

行动：检索工具
行动输入：{"router_response": "text2image", "question": "生成图像根据以下文本：一位美丽的印度模特女性的特写组合照片，完美的眼睛，明亮的工作室灯光，散景，50mm 照片，霓虹粉色遮阳帽", "image_url": ""} 

我尝试重用相同的输入，我必须停止使用这个行动输入。我将尝试其他方法。

思考：我现在知道最终答案
最终答案：https://replicate.delivery/yhqm/XjBShO4PSexSSaThOCnZoDl4rYeq1pNAZNaKIuvi3mvFHGWTA/R8_FLUX_XLABS_00001_.webp

> 完成链。
 [2024-08-25 04:15:07][DEBUG]: == [检索器] 任务输出: https://replicate.delivery/yhqm/XjBShO4PSexSSaThOCnZoDl4rYeq1pNAZNaKIuvi3mvFHGWTA/R8_FLUX_XLABS_00001_.webp

result.raw

################RESPONSE########################
https://replicate.delivery/yhqm/XjBShO4PSexSSaThOCnZoDl4rYeq1pNAZNaKIuvi3mvFHGWTA/R8_FLUX_XLABS_00001_.webp

显示生成的图像

import requests
from PIL import Image
from io import BytesIO
import matplotlib.pyplot as plt

# URL of the image
image_url = result.raw

# Fetch the image
response = requests.get(image_url)

# Check if the request was successful
if response.status_code == 200:
    # Open the image using PIL
    img = Image.open(BytesIO(response.content))

    # Display the image using matplotlib
    plt.imshow(img)
    plt.axis('off')  # Hide the axis
    plt.show()
else:
    print("无法获取图像。状态码:", response.status_code)

启动团队根据用户指令描述图像

inputs ={"question":"提供详细描述。","image_url":"https://images.unsplash.com/photo-1470770903676-69b98201ea1c?ixlib=rb-4.0.3&ixid=MnwxMjA3fDB8MHxwaG90by1wYWdlfHx8fGVufDB8fHx8&auto=format&fit=crop&w=1740&q=80.jpg"}
result = crew.kickoff(inputs=inputs)

#####################RESPONSE#######################
[2024-08-25 03:29:53][DEBUG]: == Working Agent: Router
 [2024-08-25 03:29:53][INFO]: == Starting Task: 分析问题中的关键词 提供详细描述。如果问题 提供详细描述。指示描述图像，则使用图像 URL https://images.unsplash.com/photo-1470770903676-69b98201ea1c?ixlib=rb-4.0.3&ixid=MnwxMjA3fDB8MHxwaG90by1wYWdlfHx8fGVufDB8fHx8&auto=format&fit=crop&w=1740&q=80.jpg 生成详细且高质量的图像，涵盖问题中提供的文本描述的所有细微差别。根据关键词决定它是否适合文本到图像或文本到语音或网络搜索。如果它适合从文本描述生成图像，则返回单词 'text2image'。如果它适合将文本转换为语音，则返回单词 'text2speech'。如果它适合根据问题 提供详细描述。和图像 URL https://images.unsplash.com/photo-1470770903676-69b98201ea1c?ixlib=rb-4.0.3&ixid=MnwxMjA3fDB8MHxwaG90by1wYWdlfHx8fGVufDB8fHx8&auto=format&fit=crop&w=1740&q=80.jpg 描述图像，则返回单词 'image2text'。如果它适合网络搜索，则返回单词 'web_search'。不要提供任何其他前言或解释。

> 进入新的 CrewAgentExecutor 链...
思考：分析问题以确定最佳行动方案。

行动：路由工具
行动输入：{"question": "提供详细描述。"} 

image2text

思考：我现在知道最终答案
最终答案：image2text

> 完成链。
 [2024-08-25 03:29:55][DEBUG]: == [Router] 任务输出: image2text

 [2024-08-25 03:29:55][DEBUG]: == Working Agent: Retriever
 [2024-08-25 03:29:55][INFO]: == Starting Task: 根据 'router_task' 的响应生成问题 提供详细描述。的响应，并借助相应的工具。如果路由任务输出为 'web_search'，则使用 web_serach_tool 从网络检索信息。如果路由任务输出为 'text2speech'，则使用 text2speech 工具将文本转换为英语语音。如果路由任务输出为 'text2image'，则使用 text2image 工具将文本转换为英语语音。如果路由任务输出为 'image2text'，则使用 image2text 工具描述在图像 URL 中提供的图像。

> 进入新的 CrewAgentExecutor 链...
思考：我需要使用来自路由器的信息来确定要执行的任务。

行动：检索工具
行动输入：{"router_response": "image2text", "question": "提供详细描述。", "image_url": "https://images.unsplash.com/photo-1470770903676-69b98201ea1c?ixlib=rb-4.0.3&ixid=MnwxMjA3fDB8MHxwaG90by1wYWdlfHx8fGVufDB8fHx8&auto=format&fit=crop&w=1740&q=80.jpg"} 

[{'url': 'https://wac.colostate.edu/repository/writing/guides/detail/', 'content': '描述细节的定义。描述细节允许对体验、物体或想象的感官再现。换句话说，描述鼓励对主题更具体或感官的体验，使读者能够将自己置身于场景中。缺乏描述的写作有可能显得平淡...'}, {'url': 'https://www.thomas.co/resources/type/hr-blog/job-descriptions-how-write-templates-and-examples', 'content': '详细的职位描述提供了一个有用的工具或框架，用于评估绩效。从描述中概述的能力、职责、任务到责任，这些都将作为期望的指南。'}, {'url': 'https://www.collinsdictionary.com/dictionary/english/detailed-description', 'content': '详细描述的定义 | 意思、发音、翻译和例子'}, {'url': 'https://open.lib.umn.edu/writingforsuccess/chapter/10-3-description/', 'content': '写作中描述的目的。作家在写作中使用描述，以确保他们的受众完全沉浸在页面上的文字中。这需要作者通过使用感官细节来努力描述他们的世界。如本章前面提到的，感官细节是吸引...'}, {'url': 'https://www.masterclass.com/articles/how-to-write-vivid-descriptions-to-capture-your-readers', 'content': "生动性来自于描述性词汇的使用。如果你是一个演讲者、创意作家、公众演讲者或散文家，想要通过生动的描述将你的写作提升到一个新的水平，以下写作技巧可以帮助你：1. 使用感官细节。使用视觉、触觉、听觉、嗅觉和味觉编写描述性句子是一个好主意..."}]

思考：我需要使用来自路由器的信息来确定要执行的任务。

行动：检索工具
行动输入：{"router_response": "image2text", "question": "提供详细描述。", "image_url": "https://images.unsplash.com/photo-1470770903676-69b98201ea1c?ixlib=rb-4.0.3&ixid=MnwxMjA3fDB8MHxwaG90by1wYWdlfHx8fGVufDB8fHx8&auto=format&fit=crop&w=1740&q=80.jpg"} 

我尝试重用相同的输入，我必须停止使用此行动输入。我将尝试其他方法。

思考：我需要使用来自路由器的信息来确定要执行的任务。

行动：检索工具
行动输入：{"router_response": "image2text", "question": "提供详细描述。", "image_url": "https://images.unsplash.com/photo-1470770903676-69b98201ea1c?ixlib=rb-4.0.3&ixid=MnwxMjA3fDB8MHxwaG90by1wYWdlfHx8fGVufDB8fHx8&auto=format&fit=crop&w=1740&q=80.jpg"} 

我尝试重用相同的输入，我必须停止使用此行动输入。我将尝试其他方法。

思考：我需要使用来自路由器的信息来确定要执行的任务。

行动：检索工具
行动输入：{"router_response": "image2text", "question": "提供详细描述。", "image_url": "https://images.unsplash.com/photo-1470770903676-69b98201ea1c?ixlib=rb-4.0.3&ixid=MnwxMjA3fDB8MHxwaG90by1wYWdlfHx8fGVufDB8fHx8&auto=format&fit=crop&w=1740&q=80.jpg"} 

我尝试重用相同的输入，我必须停止使用此行动输入。我将尝试其他方法。

思考：我现在知道最终答案
最终答案：提供的图像是一个山脉的风景视图，前景是一个宁静的湖泊。山脉覆盖着郁郁葱葱的森林，湖泊反射出周围景观的美丽。这幅图像完美地代表了大自然的壮丽和宁静。

> 完成链。
 [2024-08-25 03:30:07][DEBUG]: == [Retriever] 任务输出: 提供的图像是一个山脉的风景视图，前景是一个宁静的湖泊。山脉覆盖着郁郁葱葱的森林，湖泊反射出周围景观的美丽。这幅图像完美地代表了大自然的壮丽和宁静。

result.raw

提供的图像是一个山脉的风景视图，前景是一个宁静的湖泊。山脉覆盖着郁郁葱葱的森林，湖泊反射出周围景观的美丽。这幅图像完美地代表了大自然的壮丽和宁静。

显示代理提供描述的图像

import requests
from PIL import Image
from io import BytesIO
import matplotlib.pyplot as plt

# URL of the image
image_url = "https://images.unsplash.com/photo-1470770903676-69b98201ea1c?ixlib=rb-4.0.3&ixid=MnwxMjA3fDB8MHxwaG90by1wYWdlfHx8fGVufDB8fHx8&auto=format&fit=crop&w=1740&q=80.jpg"

# Fetch the image
response = requests.get(image_url)

# Check if the request was successful
if response.status_code == 200:
    # Open the image using PIL
    img = Image.open(BytesIO(response.content))

    # Display the image using matplotlib
    plt.imshow(img)
    plt.axis('off')  # Hide the axis
    plt.show()
else:
    print("无法获取图像。状态码:", response.status_code)

启动语音生成团队

inputs_speech ={"question":"为以下文本生成演讲：图像中有一只小白狗在泥土小路上奔跑。狗在奔跑时开心地微笑，小路两旁开满了美丽的蓝色花朵。","image_url":" "}
result = crew.kickoff(inputs=inputs_speech)

###################响应 #########################
[2024-08-25 04:07:05][DEBUG]: == 工作代理: 路由器
 [2024-08-25 04:07:05][INFO]: == 开始任务: 分析问题中的关键词“为以下文本生成演讲：图像中有一只小白狗在泥土小路上奔跑。狗在奔跑时开心地微笑，小路两旁开满了美丽的蓝色花朵。”如果问题“为以下文本生成演讲：图像中有一只小白狗在泥土小路上奔跑。狗在奔跑时开心地微笑，小路两旁开满了美丽的蓝色花朵。”指示描述一幅图像，则使用图像网址生成详细且高质量的图像，涵盖问题中提供的文本描述的所有细微差别。根据关键词决定它是否适合进行文本到图像、文本到语音或网络搜索。如果适合从文本描述生成图像，则返回单词'text2image'；如果适合将文本转换为语音，则返回单词'text2speech'；如果适合根据问题“为以下文本生成演讲：图像中有一只小白狗在泥土小路上奔跑。狗在奔跑时开心地微笑，小路两旁开满了美丽的蓝色花朵。”和图像网址描述图像，则返回单词'image2text'；如果适合进行网络搜索，则返回单词'web_search'。不要提供任何其他前言或解释。

> 进入新的CrewAgentExecutor链...
思考: 问题要求为描述图像的给定文本生成演讲，但并未明确要求图像或演讲，然而确实要求为该文本生成演讲。

行动: 路由器工具
行动输入: {"question": "为以下文本生成演讲：图像中有一只小白狗在泥土小路上奔跑。狗在奔跑时开心地微笑，小路两旁开满了美丽的蓝色花朵。"} 

text2speech

思考: 我现在知道最终答案
最终答案: text2speech

> 完成链。
 [2024-08-25 04:07:06][DEBUG]: == [路由器] 任务输出: text2speech


 [2024-08-25 04:07:06][DEBUG]: == 工作代理: 检索器
 [2024-08-25 04:07:06][INFO]: == 开始任务: 根据'router_task'的响应生成问题“为以下文本生成演讲：图像中有一只小白狗在泥土小路上奔跑。狗在奔跑时开心地微笑，小路两旁开满了美丽的蓝色花朵。”的响应，借助相应的工具。如果路由器任务输出为'web_search'，则使用web_search_tool从网络检索信息；如果路由器任务输出为'text2speech'，则使用text2speech工具将文本转换为英语语音；如果路由器任务输出为'text2image'，则使用text2image工具将文本转换为语音；如果路由器任务输出为'image2text'，则使用image2text工具描述图像网址中提供的图像。

> 进入新的CrewAgentExecutor链...
思考: 我需要使用路由器的信息来确定执行的任务。

行动: 检索器工具
行动输入: {"router_response": "text2speech", "question": "为以下文本生成演讲：图像中有一只小白狗在泥土小路上奔跑。狗在奔跑时开心地微笑，小路两旁开满了美丽的蓝色花朵。", "image_url": ""} 

https://replicate.delivery/pbxt/fIc6LQ7aves7TECSIMcqOfSgtMwjebRk0KFClnQjT2HtDYYNB/out.wav

思考: 我现在知道最终答案
最终答案: https://replicate.delivery/pbxt/fIc6LQ7aves7TECSIMcqOfSgtMwjebRk0KFClnQjT2HtDYYNB/out.wav

> 完成链。
 [2024-08-25 04:08:30][DEBUG]: == [检索器] 任务输出: https://replicate.delivery/pbxt/fIc6LQ7aves7TECSIMcqOfSgtMwjebRk0KFClnQjT2HtDYYNB/out.wav

result.raw

###############响应#####################
https://replicate.delivery/pbxt/fIc6LQ7aves7TECSIMcqOfSgtMwjebRk0KFClnQjT2HtDYYNB/out.wav

播放音频

from IPython.display import Audio

# 音频文件的URL
audio_url = result.raw

# 播放音频文件
Audio(audio_url, autoplay=True)

启动团队以展示来自网络的结果

inputs = {"question":"印度的旅游目的地。","image_url":" "}
result = crew.kickoff(inputs=inputs)

##### 响应 ####

[2024-08-25 04:06:30][DEBUG]: == 工作代理: 路由器
 [2024-08-25 04:06:30][INFO]: == 开始任务: 分析问题中的关键词“印度的旅游目的地”。如果问题“印度的旅游目的地。”指示描述一幅图像，则使用图像网址生成详细且高质量的图像，涵盖问题中提供的文本描述的所有细微差别。根据关键词决定它是否适合进行文本到图像、文本到语音或网络搜索。如果适合从文本描述生成图像，则返回单词'text2image'；如果适合将文本转换为语音，则返回单词'text2speech'；如果适合根据问题“印度的旅游目的地。”和图像网址描述图像，则返回单词'image2text'；如果适合进行网络搜索，则返回单词'web_search'。不要提供任何其他前言或解释。

> 进入新的CrewAgentExecutor链...
思考: 分析问题中的关键词以确定最佳行动方案。

行动: 路由器工具
行动输入: {"question": "印度的旅游目的地"} 

web_search

思考: 我现在知道最终答案
最终答案: web_search

> 完成链。
 [2024-08-25 04:06:31][DEBUG]: == [路由器] 任务输出: web_search


 [2024-08-25 04:06:31][DEBUG]: == 工作代理: 检索器
 [2024-08-25 04:06:31][INFO]: == 开始任务: 根据'router_task'的响应生成问题“印度的旅游目的地。”的响应，借助相应的工具。如果路由器任务输出为'web_search'，则使用web_search_tool从网络检索信息；如果路由器任务输出为'text2speech'，则使用text2speech工具将文本转换为英语语音；如果路由器任务输出为'text2image'，则使用text2image工具将文本转换为语音；如果路由器任务输出为'image2text'，则使用image2text工具描述图像网址中提供的图像。

> 进入新的CrewAgentExecutor链...
思考: 我需要根据路由器响应确定任务。

行动: 检索器工具
行动输入: {"router_response": "web_search", "question": "印度的旅游目的地", "image_url": ""} 

[{'url': 'https://www.tripsavvy.com/top-tourist-places-in-india-1539731', 'content': "哪个地区适合你？\n印度的顶级历史目的地\n浪漫的印度目的地\n印度的顶级山站\n印度的顶级国家公园\n印度最美丽的海滩\n印度最佳背包客地点\n印度最具灵性目的地\n印度最佳豪华水疗中心\n印度的非主流旅游\n适合冒险者的印度\n体验乡村印度的地方\n印度的顶级活动\n印度的宫殿和堡垒\n印度最佳冲浪海滩\n在印度预算旅行志愿者\n7个酷炫的声光秀\n印度最受欢迎的节日\n印度最佳自行车之旅\n骑摩托车游览印度\n印度的顶级部落旅游\n印度的非主流旅游\n印度最佳家庭旅馆\n宫殿酒店\n印度最酷的树屋酒店\n顶级野生动物和丛林旅馆\n印度最佳旅舍\n最佳预算酒店\n印度交通概述\n印度主要机场\n印度最佳航空公司\n国内航空公司\n在印度租车和司机\n印度铁路简介\n印度火车的旅行等级\n如何预定火车票\n如何找到并登上你的火车\n印度火车旅行小贴士\n印度的风景如画的玩具火车\n12个印度礼仪禁忌\n印度的十大刻板印象\n在印度的小费\n在印度你将面临的9个挑战\n如何避免文化冲击\n印度的五大季风健康问题\n印度的电压信息\n如何使用手机\n如何用印地语说你好\n常被误解的印地语词汇\n印地语学习书籍\n最常见的印度骗局\n如何处理印度的乞讨\n如何识别假印度货币\n在印度买什么\n如何在印度买纱丽\n如何在印度讨价还价\n如何获得印度签证\n印度签证类型说明\n申请电子签证\n印度的气候和季节\n印度的季风\n你的必备打包清单\n出发前需要购买的物品\n季风时该带什么\n印度最佳指南书\n如何节省印度旅行费用\n印度的顶级目的地\n印度最具标志性的景点\n印度16个最佳旅游目的地\n体验印度多样魅力的目的地\nTripSavvy / Faye Strassle\n啊，真难选择！印度泰姬陵的终极指南\n你在印度的终极旅行：完整指南\n北印度15个顶级旅游地\n印度最佳预算酒店指南\n6个浪漫酒店和蜜月地\n你必须看到的14座著名堡垒和宫殿\n孟买12个顶级历史名胜\n印度12个必访的历史遗址\n按地区划分的印度热门旅游景点指南\n印度13个卓越的家庭旅馆\n南印度15个顶级旅游地\n印度15个最佳非主流旅游地\n印度22个洞穴，历史、冒险和灵性的结合16个最佳旅游目的地\n印度旅行：在顶级旅游地需了解的问题\n拉贾斯坦邦15个顶级旅游地\n多样化印度的20个顶级活动\n 以历史和建筑而闻名：阿旃陀和埃洛拉洞穴\nTripSavvy / Anna Haines\n在印度顶级洞穴中，古老而令人敬畏的阿旃陀和埃洛拉洞穴是手工雕刻于马哈拉施特拉邦奥兰加巴德附近的山坡岩石中，几乎位于无处。"}, {'url': 'https://www.travelandleisure.com/best-places-to-visit-in-india-8550824', 'content': '虽然后水道是一个明星景点，但该州还有更多可供探索的地方，从以凉爽气候和似乎无尽的起伏山丘而闻名的穆纳尔茶园，到以丰富的海岸历史和当代艺术场景而闻名的历史名城科钦。乌塔拉坎德的瑞诗凯诗\nal_la/Getty Images\n在神圣的恒河岸边，圣城瑞诗凯诗在几代人中一直在灵性旅行者的心中占有一席之地——无论是来自印度还是国外。拉贾斯坦邦的焦特布尔\nplatongkoh/Getty Images\n因其延绵数英里的天蓝色建筑而被称为蓝色城市的焦特布尔，一直吸引着渴望探索更大、更生动的梅兰加尔堡的旅行者。 根据旅游专家的建议，印度的15个最佳旅游地\n从克什米尔的高山草甸到果阿的棕榈环绕的海滩，这些都是次大陆上最迷人的目的地。\n正如在奥罗维尔长大的阿卡什·卡普尔所说，他是《更好的去过》和《印度变迁》的作者：“如果你对替代社会、可持续生活或灵性感兴趣，请来奥罗维尔，但尽量不要像许多人那样只停留几个小时，而是花一些时间在这里，真正了解人们及其工作。”'}, {'url': 'https://www.lonelyplanet.com/articles/best-places-to-visit-in-india', 'content': '2024年1月5日 • 20分钟阅读\n2023年12月20日 • 11分钟阅读\n2023年12月15日 • 14分钟阅读\n2023年12月13日 • 7分钟阅读\n2023年12月1日 • 4分钟阅读\n2023年11月21日 • 6分钟阅读\n2023年11月7日 • 8分钟阅读\n2023年10月20日 • 4分钟阅读\n2023年10月20日 • 8分钟阅读\n为各地探险者而设\n关注我们\n成为会员\n加入孤独星球旅行者社区\n顶级目的地\n旅行兴趣\n购物\n关于我们\n© 2024 孤独星球，红色风险公司。斋浦尔的粉色砂岩纪念碑、乌代布尔的冰白湖边宫殿，以及从高耸的堡垒俯瞰的蓝色焦特布尔的景色都是令人惊叹的体验，但对感官的最大冲击来自贾伊萨尔梅尔，似乎是从沙漠的活岩中雕刻而成。锡金是东北邦中最著名的目的地，但我们建议你向东前往阿鲁纳恰尔邦的森林山脚和锯齿状山脉，那里的部落社区遵循多样的传统信仰体系，从塔旺的佛教门巴人到齐罗谷的信奉万物有灵论的阿帕塔尼人。4. 拉达克\n最佳体验西藏的非凡之地\n在印度西北部，受到喜马拉雅山雨影的庇护，前佛教王国拉达克在文化和地理上更接近西藏，而非印度。印度15个最壮观的旅游地\n2023年12月11日 • 14分钟阅读\n期待在神奇的贾伊萨尔梅尔，拉贾斯坦州的沙漠背景中体验童话般的戏剧© Andrii Lutsyk/ Getty Images\n印度15个最壮观的旅游地\n2023年12月11日 • 14分钟阅读\n印度令人惊叹的多样景观必须亲自体验才能相信。'}, {'url': 'https://www.planetware.com/india/best-places-to-visit-in-india-ind-1-26.htm', 'content': "阿旃陀洞穴是两个景点中最古老的，拥有大约30个公元前2世纪的佛教洞穴遗迹。\n大约100公里以南的埃洛拉洞穴包含近三十个佛教、耆那教和印度教雕刻，其中最著名的是凯拉萨寺（洞穴16），这是一个巨大的结构，供奉湿婆神，雕刻有真人大小的大象。对锡克教徒来说，这是世界上最神圣的地方之一，金色的建筑在阳光下闪闪发光，倒映在周围的大池塘中。\n在科达古，其他受欢迎的活动包括在雨季后观看21米的阿比瀑布、聆听年轻僧侣在南德罗林寺著名的金庙中吟唱、参观17世纪的马迪凯里堡，以及观看大象在杜巴雷大象营地洗澡。\n19. 这个小镇坐落在喜马拉雅山的山脚，位于神圣的恒河岸边，是瑜伽和朝圣的中心。喜马偕尔邦的西姆拉\n当新德里和北印度其他城市的气温飙升时，游客和当地人都涌向气候凉爽的山站，最受欢迎的是西姆拉。"}, {'url': 'https://www.lonelyplanet.com/articles/top-things-to-do-in-india', 'content': '6. 在阿姆利则的金庙感受神圣的存在\n体验阿姆利则金庙的最佳时间是凌晨4点（冬季为5点），当时锡克教的经典《古鲁·格兰特·萨希卜》在一天中被安置在寺庙内，伴随着仪式的吟唱。2022年2月1日 • 6分钟阅读\n2022年1月19日 • 7分钟阅读\n2021年10月18日 • 8分钟阅读\n2021年1月28日 • 5分钟阅读\n2020年12月2日 • 4分钟阅读\n2020年10月16日 • 4分钟阅读\n2020年8月9日 • 4分钟阅读\n2020年5月14日 • 6分钟阅读\n2020年2月7日 • 7分钟阅读\n为各地探险者而设\n关注我们\n成为会员\n加入孤独星球旅行者社区\n顶级目的地\n旅行兴趣\n购物\n关于我们\n© 2024 孤独星球，红色风险公司。在你在该地区时，前往东部的古代印度河流域文明遗址多拉维拉，以及西南的18世纪阿伊娜·马哈尔宫殿。如果你想探索该国西南部，有几条戏剧性的火车路线将繁忙的孟买与历史悠久的科钦港市连接起来，穿过郁郁葱葱的孔卡地区，提供阿拉伯海的美丽景色。\n这个名字本身就唤起了阳光、沙滩和海洋的画面，虽然果阿的海滩是这里的主要吸引力（提示：选择人少的南果阿海滩），但这个小州的河流岛、红树林沼泽、茂密森林以及香料和腰果种植园本身就是难忘而感官的体验。'}]

思考: 我现在知道最终答案

最终答案: 

印度的顶级旅游目的地包括：

1. 阿格拉的泰姬陵，这是一座令人惊叹的白色大理石纪念碑，也是世界七大奇迹之一。
2. 马哈拉施特拉邦的阿旃陀和埃洛拉洞穴，古老的佛教和耆那教洞穴遗迹。
3. 阿姆利则的金庙，一座由白色大理石和黄金制成的受人尊敬的锡克教寺庙。
4. 拉贾斯坦邦的贾伊萨尔梅尔，以其令人惊叹的建筑和沙漠风光而闻名。
5. 喜马偕尔邦的西姆拉山站，是一个受欢迎的徒步旅行和放松的目的地。
6. 乌塔拉坎德的瑞诗凯诗，以其灵性意义和冒险活动而闻名。
7. 果阿州，以其美丽的海滩、河流岛屿和茂密森林而闻名。
8. 拉贾斯坦邦的焦特布尔，以其蓝色建筑和历史悠久的梅兰加尔堡而闻名。
9. 拉贾斯坦邦的乌代布尔，以其壮观的湖边宫殿和迷人风景而闻名。
10. 拉达克，以其令人叹为观止的风景、佛教寺庙和冒险活动而闻名。

这些目的地提供了文化、历史、自然美和冒险的结合，是规划印度旅行的良好起点。

在印度的一些顶级活动包括：

1. 在日出或日落时参观泰姬陵，以获得令人叹为观止的景观。
2. 探索阿旃陀和埃洛拉的古老洞穴遗迹。
3. 在瓦拉纳西的恒河上乘船游览。
4. 在喜马拉雅山脉或其他山脉徒步旅行。
5. 尝试当地美食，如辛辣咖喱和香气四溢的印度炒饭。
6. 参观阿姆利则的金庙，体验灵性的氛围。
7. 在果阿或其他沿海目的地的海滩上放松。
8. 探索拉贾斯坦的历史城市，如焦特布尔和乌代布尔。
9. 在孔卡地区或该国其他地区进行风景如画的火车旅行。
10. 参观孟买和新德里这两个充满文化、美食和夜生活的活力城市。

总的来说，印度是一个多样而充满活力的国家，提供广泛的体验，适合各种类型的旅行者。

> 完成链。
 [2024-08-25 04:06:39][DEBUG]: == [检索器] 任务输出: 印度的顶级旅游目的地包括：

1. 阿格拉的泰姬陵，这是一座令人惊叹的白色大理石纪念碑，也是世界七大奇迹之一。
2. 马哈拉施特拉邦的阿旃陀和埃洛拉洞穴，古老的佛教和耆那教洞穴遗迹。
3. 阿姆利则的金庙，一座由白色大理石和黄金制成的受人尊敬的锡克教寺庙。
4. 拉贾斯坦邦的贾伊萨尔梅尔，以其令人惊叹的建筑和沙漠风光而闻名。
5. 喜马偕尔邦的西姆拉山站，是一个受欢迎的徒步旅行和放松的目的地。
6. 乌塔拉坎德的瑞诗凯诗，以其灵性意义和冒险活动而闻名。
7. 果阿州，以其美丽的海滩、河流岛屿和茂密森林而闻名。
8. 拉贾斯坦邦的焦特布尔，以其蓝色建筑和历史悠久的梅兰加尔堡而闻名。
9. 拉贾斯坦邦的乌代布尔，以其壮观的湖边宫殿和迷人风景而闻名。
10. 拉达克，以其令人叹为观止的风景、佛教寺庙和冒险活动而闻名。

这些目的地提供了文化、历史、自然美和冒险的结合，是规划印度旅行的良好起点。

在印度的一些顶级活动包括：

1. 在日出或日落时参观泰姬陵，以获得令人叹为观止的景观。
2. 探索阿旃陀和埃洛拉的古老洞穴遗迹。
3. 在瓦拉纳西的恒河上乘船游览。
4. 在喜马拉雅山脉或其他山脉徒步旅行。
5. 尝试当地美食，如辛辣咖喱和香气四溢的印度炒饭。
6. 参观阿姆利则的金庙，体验灵性的氛围。
7. 在果阿或其他沿海目的地的海滩上放松。
8. 探索拉贾斯坦的历史城市，如焦特布尔和乌代布尔。
9. 在孔卡地区或该国其他地区进行风景如画的火车旅行。
10. 参观孟买和新德里这两个充满文化、美食和夜生活的活力城市。

总的来说，印度是一个多样而充满活力的国家，提供广泛的体验，适合各种类型的旅行者。

result.raw

####################### RESPONSE #############################
印度的热门旅游目的地包括：

阿格拉的泰姬陵，这是一座令人惊叹的白色大理石纪念碑，也是世界七大奇迹之一。
马哈拉施特拉的阿旃陀和埃洛拉石窟，古老的佛教和耆那教洞穴纪念碑。
阿姆利则的金庙，这是一座由白色大理石和黄金建成的受人尊敬的锡克教寺庙。
拉贾斯坦的杰伊萨尔梅尔，以其令人惊叹的建筑和沙漠风光而闻名。
喜马偕尔邦的西姆拉，是一个受欢迎的徒步旅行和放松的目的地。
乌塔拉坎德的瑞诗凯诗，以其精神意义和冒险活动而闻名。
果阿州，以其美丽的海滩、河岛和茂密的森林而闻名。
拉贾斯坦的焦特布尔，以其蓝色建筑和历史悠久的梅兰加尔堡而闻名。
拉贾斯坦的乌代布尔，以其迷人的湖畔宫殿和自然美景而闻名。
拉达克州，以其令人叹为观止的风景、佛教寺院和冒险活动而闻名。

这些目的地提供了文化、历史、自然美和冒险的结合，是规划印度之行的绝佳起点。

在印度的一些顶级活动包括：

在日出或日落时参观泰姬陵，欣赏壮观的景色。
探索阿旃陀和埃洛拉的古老洞穴纪念碑。
在瓦拉纳西的恒河上乘船游览。
在喜马拉雅山脉或其他山脉徒步旅行。
尝试当地美食，如辛辣的咖喱和芳香的比尔亚尼。
参观阿姆利则的金庙，体验精神氛围。
在果阿或其他沿海目的地的海滩上放松。
探索拉贾斯坦的历史城市，如焦特布尔和乌代布尔。
乘坐风景优美的火车穿越孔卡地区或其他地方。
参观文化、美食和夜生活闻名的孟买和德里。

总体而言，印度是一个多元而充满活力的国家，提供广泛的体验，适合各种类型的旅行者。

结论

通过结合CrewAI、Replicate AI、Groq、Replicate.ai和Tavily-Python的力量，我们构建了一个能够执行涉及多种模式的复杂任务的多模态AI代理。CrewAI框架的模块化和协作特性使得扩展和定制变得简单。该项目展示了多代理系统解决复杂AI问题的潜力。

Barry's Home

使用CrewAIGroq和Replicate AI创建多模态智能体

介绍

系统架构

代理角色和能力

工作流实施步骤

代码实现

结论

参考文献