近期,CNCC 2023 在沈阳圆满结束,紧凑、前沿的 129 场技术论坛让人印象深刻。据悉,这 129 场技术论坛涵盖人工智能、安全、计算+、软件工程、教育、网络、芯片、云计算等 30 余个方向。Zilliz 受邀参与【智能时代的大数据系统】技术论坛。
智能时代的到来,无疑给社会经济和日常生活带来了前所未有的冲击。智能的基石是数据,围绕着数据当下仍有诸多问题亟待进一步探索,例如:智能时代的大数据系统的挑战、关键技术和所面临的典型问题是什么?如何构建面向智能时代需求的大数据系统?
【智能时代的大数据系统】技术论坛邀请到了包括 Zilliz、清华大学、香港科技大学在内的诸多学术界和产业界大咖,探讨在智能时代的大数据系统的现状、挑战和未来。CCF会士、CCF大数据专家委员会副主任、中国科学技术大学大数据学院执行院长陈恩红担任论坛主席,北京大学教授/博导邹磊为共同主席,Zilliz 合伙人兼产品负责人郭人通与其他行业领先公司进行了主题分享。
郭人通从向量数据库的应用、技术、挑战这三个方面进行了深度阐述,他表示,目前 AIGC 技术生态已经开始从模型扩散到基础软件,向量数据库作为联结 AI 模型与海量非结构化数据的桥梁,正发挥越来越重要的作用。
Zilliz 作为全球领先的向量数据库公司,在业界有着丰富的实践经验,首次提出了 LLM + VectorDB + Prompt 架构(CVP Stack )。在郭人通看来,相比单模型架构,CVP 架构在灵活性、可扩展性、实时性、成本四个维度都有明显优势。最关键的原因是,在 CVP 架构中,领域知识可以以数据入库的形式进行更新,而非重新训练或微调模型。向量数据库是 CVP 架构的重要组成部分,其中,Milvus 作为云原生的开源向量数据库,被全球超过 1000 家企业用户所信赖,下载和安装次数超过 600 万,在 GitHub 的 Star 数目超 2.3 万,在 SIGMOD 和 VLDB 等数据库顶会上发表了论文,奠定了向量数据库的基础。
此外,为了进一步降低应用构建成本,提供标准化组件,Zilliz 已与全球头部大模型生态完成了 C-V 间对接。2023 年 3 月,Zilliz 作为 OpenAI 首批向量数据库合作伙伴,完成了 Milvus 与 Zilliz Cloud 插件化集成,作为官方推荐的向量数据库插件提供给广大应用开发者。同时,Zilliz 还与 LangChain、Cohere、LlamaIndex、Auto-GPT、BabyAGI 等热门项目进行了深度集成。
对于向量数据库的未来,郭人通认为,新的应用场景也为向量数据库带来更多的挑战,例如 RAG (Retrieval Augmented Generation) 场景对于数据体量大,召回准确度要求高;Agent 召回的评价标准不止是相关性,也包含重要性、时间等。为此,Zilliz 计划将带来更加灵活的查询能力,例如类SQL支持、支持 Wildcard Match;更多数据类型支持,例如 BF16 Vector、Sparse Vector、Blob、Text、Date;全新的标量引擎、更强大的数据库功能及更加灵活的离线数据处理。