中企出海,应对合规审查是第一关。企业需要处理的文档不仅数量庞大,语种繁多,格式也不统一,包含多种结构布局,尤其是无线表、密集表、合并单元格等复杂数据,增加了信息提取难度。合合信息文档解析技术是智能文档处理技术流程中的关键步骤,能够在还原版面的基础上,理解、抽取多语种文档内文字、表格、公式、图片等元素,为企业出海提升文档处理效率。
文档解析巧解医疗企业产品注册难题
医疗器械是生物医药行业出海中的“主力军”。医械产品在上市前,不少海外国家都会要求企业在线填报医疗器械注册申报表格,提供企业介绍、产品规格、设计文件、测试数据和临床数据等信息,单人需要耗费数天进行资料的整理和翻译。
合合信息文档解析技术作为“全科优秀生”,支持一个接口解析PDF、Word(doc、docx)、常见图片(jpg、png、webp、tiff)、HTML 等多种文件格式,可一次性获取文字、表格、标题层级、公式、手写字符、图片信息。同时还能够做到按照人类阅读的正常顺序理解上下文关系,而非机械地从上到下读取内容。
以医械产品说明书为例,文档解析技术会根据版面布局合并在跨页中被“拦腰斩断”的段落和表格,接着再区分并提取纯文本,表格内的产品参数、型号、化学符号、数学单位等元素,保证数据解析结构的完整性。
图说:合合信息文档解析技术精准实现跨页段落合并
在完成文档解析后,企业还需将内容翻译成当地语言版本用于医械产品上市注册审批,翻译前的信息提取精度直接影响了翻译精度。文档解析技术能够保持段落、表格等原始结构,减少翻译后重排工作,同时支持批量、高效提取五十多种语言文档内的信息,可精确定位至某页某行某个具体单词,提升翻译后的文档一致性。
AI助力制造业规避侵权风险
制造业作为出海“老牌”行业,正在向具有高附加值的先进制造业转型,在此过程中,知识产权纠纷也成为了容易触发争议的领域之一。《中国专利调查报告》显示,2023 年计算机、通信和其他电子设备制造业企业遭遇海外知识产权纠纷比例最高,影响企业海外发展前景。
对此,企业需要做好侵权风险分析,打造企业专利信息库,定期检索与本产品及技术密切相关的专利说明书、科研论文、国际标准等内容。在专利库搭建过程中,除了文本、表格和流程图外,数学公式也是材料中常见的元素,以其复杂的结构成为文档解析过程中的“拦路虎”。
过去工作人员需要经过数道繁杂程序对公式进行查找、辨认和手工录入,耗费时间长。文档解析技术可单独对公式类内容进行批量提取,支持识别Latex公式并导出为MathML Code等多种格式。为了进一步提高数据精度,用户可直接在界面上修改、编辑公式,方便后续数据应用。
图说:合合信息文档解析技术批量识别公式
出海是中企寻求发展之道的重要路径,然而蓝海之下暗流涌动,企业出海仍面临着市场、文化、法律等多方面的难题。合合信息会继续挖掘智能文档处理技术在出海场景中的深度应用,帮助更多企业“扬帆远航”。