单月30k+ Downloads！一款头部Embedding开源模型

admin管理员组
文章数量:1794759

单月30k+ Downloads！一款头部Embedding开源模型

在数字化转型的浪潮中，文本数据的处理和分析成为了各行各业关注的焦点。如何将人类阅读的文本转换为机器可理解的形式，并且能够准确地召回和提取这些转换结果，成为了提升我们工作效率和体验的关键。

无论是从社交媒体中提取情感倾向，还是对大量文档进行内容相似性分析，或是在复杂的对话系统中实现精准的语义理解，文本向量化（Embedding）技术都扮演着至关重要的角色——纯文本无法通过数学方式计算，而转换为向量后，即可进行最基础的数学运算。

今天，我们和大家分享一款令人兴奋的开源模型——acge_text_embedding。今年三月，acge模型在Massive Text Embedding Benchmark (MTEB) 中文榜单（C-MTEB）登顶第一，目前模型已在Hugging Face和Github平台开源。

项目简介

acge_text_embedding模型由TextIn团队开发，是一个通用的文本编码模型——可变长度的向量化模型。Embedding是一种用于机器学习和自然语言处理领域的表示技术，它将高维的离散数据（如单词、句子或者图像的特征等）转换为低维的连续向量，这些向量能够捕捉到数据的语义特征和关系，将单词、短语或整个文档的语义和上下文信息封装在一个密集的、低维的向量空间中。

acge模型使用了Matryoshka Representation Learning，建议使用的维度为1024或者1792。

在Hugging Face平台上，acge模型单月下载量为30,423。

性能优势

优秀的召回效果：采用对比学习技术，通过最小化正对之间的距离和最大化负对之间的距离来呈现文本语义表示，提升整体召回效果。

强大的模型泛化能力：基于多场景、高质量、数量庞大的数据集，打造强大泛化能力，加快模型收敛。

改善模型“偏科”与遗忘问题：技术开发过程中，采用多任务混合训练，多loss适配场景，适应各种下游任务，避免模型“偏科”；引入持续学习训练方式，改善引入新数据后模型灾难性遗忘问题。

更快的处理速度：运用MRL技术，训练可变维度的嵌入，提高处理速度，降低了存储需求。

使用方式

重现C-MTEB结果示例代码

代码语言：javascript代码运行次数：0运行复制

import torch
import argparse
import functools
from C_MTEB.tasks import *
from typing import List, Dict
from sentence_transformers import SentenceTransformer
from mteb import MTEB, DRESModel


class RetrievalModel(DRESModel):
    def __init__(self, encoder, **kwargs):
        self.encoder = encoder

    def encode_queries(self, queries: List[str], **kwargs) -> np.ndarray:
        input_texts = ['{}'.format(q) for q in queries]
        return self._do_encode(input_texts)

    def encode_corpus(self, corpus: List[Dict[str, str]], **kwargs) -> np.ndarray:
        input_texts = ['{} {}'.format(doc.get('title', ''), doc['text']).strip() for doc in corpus]
        input_texts = ['{}'.format(t) for t in input_texts]
        return self._do_encode(input_texts)

    @torch.no_grad()
    def _do_encode(self, input_texts: List[str]) -> np.ndarray:
        return self.encoder.encode(
            sentences=input_texts,
            batch_size=512,
            normalize_embeddings=True,
            convert_to_numpy=True
        )


def get_args():
    parser = argparse.ArgumentParser()
    parser.add_argument('--model_name_or_path', default="acge_text_embedding", type=str)
    parser.add_argument('--task_type', default=None, type=str)
    parser.add_argument('--pooling_method', default='cls', type=str)
    parser.add_argument('--output_dir', default='zh_results',
                        type=str, help='output directory')
    parser.add_argument('--max_len', default=1024, type=int, help='max length')
    return parser.parse_args()


if __name__ == '__main__':
    args = get_args()
    encoder = SentenceTransformer(args.model_name_or_path).half()
    encoder.encode = functools.partial(encoder.encode, normalize_embeddings=True)
    encoder.max_seq_length = int(args.max_len)

    task_names = [t.description["name"] for t in MTEB(task_types=args.task_type,
                                                      task_langs=['zh', 'zh-CN']).tasks]
    TASKS_WITH_PROMPTS = ["T2Retrieval", "MMarcoRetrieval", "DuRetrieval", "CovidRetrieval", "CmedqaRetrieval",
                          "EcomRetrieval", "MedicalRetrieval", "VideoRetrieval"]
    for task in task_names:
        evaluation = MTEB(tasks=[task], task_langs=['zh', 'zh-CN'])
        if task in TASKS_WITH_PROMPTS:
            evaluation.run(RetrievalModel(encoder), output_folder=args.output_dir, overwrite_results=False)
        else:
            evaluation.run(encoder, output_folder=args.output_dir, overwrite_results=False)

在sentence-transformer库中的使用方法，并算出两个文本的相似度：

代码语言：javascript代码运行次数：0运行复制

from sentence_transformers import SentenceTransformer

sentences = ["合合信息是一家伟大的公司", "介绍一下合合信息公司"]
model = SentenceTransformer('acge_text_embedding')
print(model.max_seq_length)
embeddings_1 = model.encode(sentences, normalize_embeddings=True)
embeddings_2 = model.encode(sentences, normalize_embeddings=True)
similarity = embeddings_1 @ embeddings_2.T
print(similarity)

在sentence-transformer库中的使用方法，选取不同维度的向量：

代码语言：javascript代码运行次数：0运行复制

from sklearn.preprocessing import normalize
from sentence_transformers import SentenceTransformer

sentences = ["数据1", "数据2"]
model = SentenceTransformer('acge_text_embedding')
embeddings = model.encode(sentences, normalize_embeddings=False)
matryoshka_dim = 1024
embeddings = embeddings[..., :matryoshka_dim]  # Shrink the embedding dimensions
embeddings = normalize(embeddings, norm="l2", axis=1)
print(embeddings.shape)
# => (2, 1024)

现有应用

当前，acge模型已在多个应用场景下展现其优势：

(a) 文档分类：通过ocr技术精确识别图片、文档等场景中的文字，利用acge强大的文本编码能力，结合语义相似度匹配技术，构建通用分类模型；
(b) 长文档信息抽取：通过文档解析引擎与层级切片技术，利用acge生成向量索引，检索抽取内容块，提升长文档信息抽取模型精度；
(c) 知识问答：通过文档解析引擎与层级切片技术，利用acge生成向量索引，定位文件内容，实现精准问答。

更多模型细节，可以到项目地址查看：

链接：

模型API调用：

本文标签：单月30k Downloads！一款头部Embedding开源模型

版权声明：本文标题：单月30k+ Downloads！一款头部Embedding开源模型内容由林淑君副主任自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.xiehuijuan.com/baike/1754645462a1704721.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

写会百科网

单月30k+ Downloads！一款头部Embedding开源模型

单月30k+ Downloads！一款头部Embedding开源模型

项目简介

性能优势

使用方式

重现C-MTEB结果示例代码

在sentence-transformer库中的使用方法，并算出两个文本的相似度：

在sentence-transformer库中的使用方法，选取不同维度的向量：

现有应用

更多相关文章

单月30k+ Downloads！一款头部Embedding开源模型

发表评论

推荐文章

Synchronized是怎么实现的？

位运算的奇技淫巧

【C++】：lambda表达式的高级应用

使用ES6解构赋值和默认参数特性简化JavaScript代码

利用OpenAI CLIP、Claude Sonnet 3.5和pgvector构建一个AI图库

热门文章

Java如何用正则表达式匹配字符串中的 &#x27;&#x27;

算法的时间复杂度

C语言代码是怎样生成可执行程序的呢?

深入探讨Java多线程

【AI系统】AI的历史、现状与理论基础

高等数学一些出名的点：驻点，拐点，鞍点，极值点

实战｜Kafka集群升级项目实施，打造高效数据处理平台

【C++篇】走进C++标准模板库：STL的奥秘与编程效率提升之道

ATLASICESat

深度学习500问——Chapter17：模型压缩及移动端部署（1）

最新文章

Linux系统之jobs命令的基本使用

手把手教学！简单上手“AI复活”技术

单细胞Seruat和h5ad数据格式互换(R与python)方法学习和整理

JVM专题

学会5个图表，让数据分析简洁高效

写“藤”的作文1200字

有关于进步的作文

幼儿园见习报告

语数英寒假作业上册答案五年级

伊索寓言经典语词句摘抄

Java如何用正则表达式匹配字符串中的 ''