成人网站土产货构建Llama 3.2-Vision多模态LLM聊天愚弄实战

栏目分类

热点资讯

裸舞推特

你的位置：快播成人电影网 > 裸舞推特 > 成人网站土产货构建Llama 3.2-Vision多模态LLM聊天愚弄实战

发布日期：2024-12-18 05:43 点击次数：80

成人网站土产货构建Llama 3.2-Vision多模态LLM聊天愚弄实战

本文将以实战案例研讨如安在近似聊天的模式下从土产货构建Llama3.2-Vision模子成人网站，并在Colab札记本上探索其多模态手段。

简介

视觉功能与大型谈话模子（LLM）的集成正在通过多模态LLM（MLLM）透彻改造计较机视觉范畴。这些模子聚会了文本和视觉输入，在图像一语气和推理方面表透露令东说念主印象深远的智商。天然这些模子往时只可通过API窥察，可是最近发布的一些开源状貌还是维持在土产货奉行，这使得它们对坐褥环境中一线愚弄更具眩惑力。

在本文中，咱们将学习怎样使用开源Llama3.2-Vision模子与咱们提供的图像聊天，其间你会惊奇于该模子的OCR、图像一语气和推明智商。示例工程的通盘代码都将粗浅地提供在一个Colab札记本文献中。

Llama 3.2-Vision模子

配景

Llama是“大型谈话模子MetaAI”的缩写，是Meta公司开发的一系列高档大谈话模子。他们的产物Llama 3.2推出了先进的视觉功能。视觉变体有两种大小：11B和90B参数，可在旯旮开辟上进行推理。Llama 3.2具有高达128k个记号的高下文窗口，维持高达1120x1120像素的高辩认率图像，不错处理复杂的视觉和文本信息。

架构

Llama系列模子是仅使用解码器的转机器。Llama3.2-Vision模子诞生在预测验的Llama 3.1纯文本模子之上。它剿袭轨范的密集自总结转机器架构，与其前身Llama和Llama 2并无太大各异。

为了维持视觉任务，Llama 3.2使用预测验的视觉编码器（ViT-H/14）索求图像暗示向量，并使用视觉适配器将这些暗示集成到冻结谈话模子中。适配器由一系列交叉阐扬层构成，允许模子专注于与正在处理的文本相对应的图像的特定部分（参考文献【1】）。

适配器基于“文本-图像”对进行测验，以使图像暗示与谈话暗示对王人。在适配器测验时间，图像编码器的参数会更新，而谈话模子参数保执冻结以保留现存的谈话智商。

有没有好看的三级

Llama 3.2-Vision模子架构：视觉模块（绿色）集成到固定谈话模子（粉红色）中

这种缱绻使Llama 3.2在多模态任务中表透露色，同期保执其纷乱的纯墨客性能。生成的模子在需要图像媾和话一语气的任务中展示了令东说念主印象深远的智商，并允许用户与他们的视觉输入进行交互式调换。

编码实战

有了对Llama 3.2架构的基本了解后，让咱们深入辩论其实质杀青。但动身点，咱们需要作念一些准备职责。

准备

在Google Colab上运行Llama3.2—Vision11B之前，咱们需要作念一些准备：

1.GPU设立

提议使用至少具有22GB VRAM的高端GPU进行高效推理（参考文献【2】）。

对于Google Colab用户来说：需要导航至“运行时”>“转换运行时类型”>“A100 GPU”。请阐扬，高端GPU可能不适用于免费的Colab用户。

2. 模子权限

恳求窥察Llama 3.2模子在邻接https://www.llama.com/llama-downloads/处提供成人网站。

3.HuggingFace设立

若是你还莫得Hugging Face账户，请在邻接https://huggingface.co/join处创建一个。

若是你莫得Hugging Face账户，请在邻接https://huggingface.co/join处生成窥察令牌。

对于Google Colab用户，请在谷歌Colab Secrets中将Hugging Face令牌设立为名为“HF_TOKEN”的玄妙环境变量。

4.装配所需的库

加载模子

设立环境并获取必要的权限后，咱们将使用Hugging Face转机库来实例化模子偏激相干的处理器。处理器负责为模子准备输入并形状化其输出。

model_id = "meta-llama/Llama-3.2-11B-Vision-Instruct"model = MllamaForConditionalGeneration.from_pretrained(model_id，torch_dtype=torch.bfloat16，device_map="auto")processor = AutoProcessor.from_pretrained(model_id)1.2.3.4.5.6.7.8.

预期的聊天模板

聊天模板通过存储“用户”（咱们）和“助手”（AI模子）之间的调换，通过对话历史纪录来保重高下文。对话历史纪录的结构为一个称为音信的字典列表，其中每个字典代表一个对话轮次，包括用户和模子反馈。用户轮次不错包括图像文本或纯文本输入，其中{"type": "image"}暗示图像输入。

举例，流程几次聊天迭代后，音信列表可能如下所示：

messages = [{"role": "user"， "content": [{"type": "image"}， {"type": "text"， "text": prompt1}]}，{"role": "assistant"， "content": [{"type": "text"， "text": generated_texts1}]}，{"role": "user"， "content": [{"type": "text"， "text": prompt2}]}，{"role": "assistant"， "content": [{"type": "text"， "text": generated_texts2}]}，{"role": "user"， "content": [{"type": "text"， "text": prompt3}]}，{"role": "assistant"， "content": [{"type": "text"， "text": generated_texts3}]}]1.2.3.4.5.6.7.8.

此音信列表随后会传递给apply_chat_template步调，以便将对话转机为模子生机形状的单个可记号字符串。

主函数

在本教程中，我提供了一个chat_with_mllm函数，该函数可杀青与Llama 3.2 MLLM的动态对话。此函数简略处理图像加载、预处理图像和文本输入、生成模子反馈并处分对话历史纪录以启用聊天模式交互。

def chat_with_mllm (model， processor， prompt， images_path=[]，do_sample=False， temperature=0.1， show_image=False， max_new_tokens=512， messages=[]， images=[]):# 确保列表表情：if not isinstance(images_path， list):images_path = [images_path]#加载图像if len (images)==0 and len (images_path)>0:for image_path in tqdm (images_path):image = load_image(image_path)images.append (image)if show_image:display ( image )#若是启动了一个对于一个图像的新的对话if len (messages)==0:messages = [{"role": "user"， "content": [{"type": "image"}， {"type": "text"， "text": prompt}]}]# 若是不息对图像进行对话else:messages.append ({"role": "user"， "content": [{"type": "text"， "text": prompt}]})# 处理输入数据text = processor.apply_chat_template(messages， add_generation_prompt=True)inputs = processor(images=images， text=text， return_tensors="pt"， ).to(model.device) 生成相应generation_args = {"max_new_tokens": max_new_tokens， "do_sample": True}if do_sample:generation_args["temperature"] = temperaturegenerate_ids = model.generate(**inputs，**generation_args)generate_ids = generate_ids[:， inputs['input_ids'].shape[1]:-1]generated_texts = processor.decode(generate_ids[0]， clean_up_tokenization_spaces=False)# 附加该模子对对话历史纪录的反馈messages.append ({"role": "assistant"， "content": [ {"type": "text"， "text": generated_texts}]})return generated_texts， messages， images1.2.3.4.5.6.7.8.9.10.11.12.13.14.15.16.17.18.19.20.21.22.23.24.25.26.27.28.29.30.31.32.33.34.35.36.37.38.

与Llama聊天

蝴蝶图像示例

在咱们的第一个示例中，咱们将与Llama3.2进行聊天，参议一张孵化蝴蝶的图像。由于Llama3.2-Vision在使用图像时不维持使用系统辅导进行辅导，因此咱们将径直在用户辅导中附加阐明，以指引模子的反馈。通过设立do_sample=True和temperature=0.2，咱们不错在保执反馈一致性的同期杀青幽微的当场性。对于固定谜底，你不错设立do_sample==False。保存聊天历史纪录的messages参数领先为空，如images参数中所示：

instructions = "Respond concisely in one sentence."prompt = instructions + "Describe the image."response， messages，images= chat_with_mllm ( model， processor， prompt，images_path=[img_path]，do_sample=True，temperature=0.2，show_image=True，messages=[]，images=[])# 输出："The image depicts a butterfly emerging from its chrysalis， # with a row of chrysalises hanging from a branch above it."1.2.3.4.5.6.7.8.9.10.11.12.13.

图片来自Pixabay（https://www.pexels.com/photo/brown-and-white-swallowtail-butterfly-under-white-green-and-brown-cocoon-in-shallow-focus-lens-63643/）。

咱们不错看到，输出准确而粗略，标明模子灵验地一语气了图像。

对于下一次聊天迭代，咱们将传递一个新辅导以及聊天历史纪录和图像文献。新辅导旨在评估Llama3.2的推明智商：

prompt = instructions + "What would happen to the chrysalis in the near future?"response， messages， images= chat_with_mllm ( model， processor， prompt，images_path=[img_path，]，do_sample=True，temperature=0.2，show_image=False，messages=messages，images=images)# 输出: "The chrysalis will eventually hatch into a butterfly."1.2.3.4.5.6.7.8.9.10.

咱们在提供的Colab札记本中不息此聊天，并得到了以下对话：

对话通过准确刻画场景，高出了模子的图像一语气智商。它还展示了它的推明智商，通过逻辑地勾通讯息来正确忖度蛹会发生什么，并证明为什么有些蛹是棕色的，而有些蛹是绿色的。

模因图像示例

在这个例子中，我将向模子展示我我方创建的模因，以评估Llama的OCR智商并细目它是否一语气我的幽默感。

instructions = "You are a computer vision engineer with sense of humor."prompt = instructions + "Can you explain this meme to me?"response， messages，images= chat_with_mllm ( model， processor， prompt，images_path=[img_path，]，do_sample=True，temperature=0.5，show_image=True，messages=[]，images=[])1.2.3.4.5.6.7.8.9.10.11.

这是输入模因：

作家制作的色彩包。原始熊图像由Hans-Jurgen Mager制作。

这是模子的修起：

咱们不错看到，该模子展示了出色的OCR智商，并一语气了图像中语本的含义。至于它的幽默感——你以为怎样样，它显著了吗？你显著了吗？也许我也应该勉力培养我的幽默感！

截至语

在本文中，咱们学习了如安在土产货构建Llama3.2-Vision模子并处分聊天式交互的对话历史纪录，从而增强用户参与度。咱们探索了Llama 3.2的零样本智商，并相识了其场景一语气、推理和OCR手段。

咱们还不错将其他一些高档技艺愚弄于Llama 3.2，举例对独到数据进行微调，或使用检索增强生成（RAG）来进行掂量并减少幻觉。

总体而言，本文指挥你深入了解了快速发展的多模态LLM范畴偏激在多样愚弄中的纷乱功能。

参考文献

【0】本文示例状貌在Colab Notebook地址：https://gist.github.com/Lihi-Gur-Arie/0e87500813c29bb4c4a6a990795c3aaa

【2】Llama 3.2 11B Vision模子条目：https://llamaimodel.com/requirements-3-2/

译者先容

朱先忠，51CTO社区裁剪，51CTO众人博客、讲师，潍坊一所高校计较机考验，摆脱编程界老兵一枚。

原文标题：Chat with Your Images Using Llama 3.2-Vision Multimodal LLMs成人网站，作家：Lihi Gur Arie

上一篇：成人网站广发留学生系列从属卡上线以零卖交融工作留学生群体

下一篇：成人网站新一批寰宇冰雪旅游宏构显露公布