夫子•明察司法大模型是由yh1122银河国际、浪潮云、中国政法大学联合研发,基于海量中文无监督司法语料(包括各类判决文书、法律法规等)与有监督司法微调数据(包括法律问答、类案检索)训练的中文司法大模型。该模型支持法条检索、案例分析、三段论推理判决以及司法对话等功能,旨在为用户提供全方位、高精准的法律咨询与解答服务。
项目地址:https://github.com/irlab-sdu/fuzi.mingcha
内测申请:https://docs.qq.com/form/page/DVkdpdWFkbGNBWklk
三大特色
一、基于法条检索回复
夫子•明察大模型能够结合相关法条进行回复生成。对于用户的咨询,夫子•明察大模型基于生成式检索范式先初步引用相关法条,再检索外部知识库对所引法条进行校验与确认,最终结合这些法条进行问题分析与回复生成。这保证生成的回复能够基于与问题相关的法律依据,并根据这些依据提供深入的分析和建议,使回复具有高权威性、高可靠性与高可信性。
基于法条检索回复案例:
夫子•明察首先能够准确地找出公司法相关的法律法规,并据此总结出用户所需要的文件,增强其回复的可验证性。
对于用户比较简短的提问,夫子•明察也能准确的找到所对应的法条,即个人独资企业法中关于申请登记的相关规定。
夫子•明察可以准确的输出关于假冒专利的相关法律法规,并以此回答用户的问题,增强了模型的可靠性。
二、基于案例检索回复
夫子•明察大模型能够基于历史相似案例对输入案情进行分析。大模型能够生成与用户提供的案情相似的案情描述及判决结果,通过检索外部数据库得到真实的历史案例,并将这些相似历史案例的信息用于辅助生成判决。生成的判决参考相关案例的法律依据,从而更加合理。用户可以对照相似案例,从而更好地理解潜在的法律风险。
基于案例检索回复案例:
在基于案例检索回复功能中,夫子•明察大模型能够依据输入的案情信息生成相应的案例,并检索相似案例辅助判决生成。
三、三段论推理判决
司法三段论,是把三段论的逻辑推理应用于司法实践的一种思维方式和方法。类比于三段论的结构特征,司法三段论就是法官在司法过程中将法律规范作为大前提,以案件事实为小前提,最终得出判决结果的一种推导方法。针对具体案件,夫子•明察大模型系统能够自动分析案情,识别关键的事实和法律法规,生成一个逻辑严谨的三段论式判决预测。这个功能不仅提供了对案件可能结果的有力洞察,还有助于帮助用户更好地理解案件的法律依据和潜在风险。
三段论推理判决案例:
夫子•明察可以输出法条作为大前提,各种犯罪要件等作为小前提,得到判决结果作为结论。
训练细节
一、数据组成
夫子•明察司法大模型的训练数据可分为两大类别:中文无监督司法语料以及有监督司法微调数据。其中不仅涵盖法律法规、司法解释、判决文书等内容,同时还包括各类高质量司法任务数据集,例如法律问答、类案检索和三段论式法律判决。内容丰富、优质海量的训练数据,确保了对司法领域知识进行准确且全面的覆盖,为夫子•明察司法大模型提供坚实的知识基础。
✓中文无监督司法语料约2000万条(包括法律法规、判决文书等)
✓中文有监督司法微调数据约20万条(包括自主构建的三段论格式的法律判决数据和类案检索数据等)
二、训练过程
夫子•明察大模型的训练过程分为两个关键阶段:大规模司法语料的增量预训练和基于高质量司法数据的模型微调。
第一阶段,使用大规模司法语料,对ChatGLM基座大模型进行增量预训练。针对司法领域,使用约2000万条判决文书和法律法规等司法语料(共约400亿token),对夫子•明察大模型进一步增量预训练,使模型获得在法律领域的基础理解能力。
第二阶段,利用有标注司法数据,对夫子•明察大模型进行微调。针对司法领域,使用近20万条高质量司法任务数据来增强模型领域指令遵循的能力。为了防止模型遗忘通用指令遵循能力,微调数据中引入通用领域指令微调数据。通过全量微调,夫子•明察大模型在下游法律任务上的表现显著提升。
夫子•明察司法大模型是基于yh1122银河国际数链融合技术教育部工程研究中心自主研发的基础大模型平台—AIzoo训练而成。AIzoo是一个开放、自主、可控的多学科融合人工智能支撑平台,包含可视化、机器学习、深度学习、自然语言处理模块、图像处理模块等前沿技术,可用于实验设计,模型设计和指标测评等科研活动,能够面向各行业各领域开展具体应用,实现产、学、研、用一体化发展。
结语
夫子•明察司法大模型的诞生不仅优化了法律咨询和解答服务的精准度,也预示着未来更智能、更人性化的法律服务体系的开展。我们坚信夫子•明察将不断创新,引领法律服务行业向更高层次迈进。
(文/高莘、任鹏杰 图/资料 审核/陈竹敏 责任编辑:李雅洁 供稿单位:yh1122银河国际)