C_Meng PSNA

Never wait for the storm to pass, just dance in the rain.

0%

背景

概念

资产管理是一个涉及组织、协调、监督和控制企业或其他机构资产的综合性管理过程。这些资产包括流动资产(如现金、应收账款、存货)、固定资产(如建筑、机器、设备)、无形资产(如专利、商标、商誉)以及其他金融资产等。资产管理的目标是确保资产的有效利用,以支持组织的战略目标和提高财务表现。具体内容包括但不限于:

  • 资产配置:决定资产的分配方式和投资方向,以实现风险和回报的最佳平衡。
  • 资产使用:确保资产被有效利用,以支持日常运营和长期目标。
  • 资产维护:包括资产的保养、维修和升级,以保持其价值和性能。
  • 资产处置:涉及资产的出售、转让、报废或回收等,以优化资产组合和释放资本。
  • 风险管理:识别、评估和控制与资产相关的各种风险,如市场风险、信用风险、操作风险等。
  • 合规性:确保资产管理活动遵守相关法律法规和内部政策。

国家高度重视

《数字中国发展报告(2022年)》显示,2022年我国数字经济规模已超过50万亿元,数字经济占GDP比重达到41.5%,位居世界第二位。数据已成为第五大生产要素。数据资产,作为经济社会数字化转型进程中的新兴资产类型,正日益成为推动数字中国建设和加快数字经济发展的重要战略资源。

  • 2020年08月26日,财政部印发《关于加强行政事业单位固定资产管理的通知》
  • 2021年2月1日,国务院印发《行政事业性国有资产管理条例》
  • 2022年,中共中央、国务院印发《关于构建数据基础制度更好发挥数据要素作用的意见》
  • 2023年,中共中央、国务院印发《数字中国建设整体布局规划》
  • 2023年12月31日,财政部印发《关于加强数据资产管理的指导意见》
  • 财政部、住房城乡建设部、工业和信息化部、公安部、交通运输部、水利部于2024年7月23日印发《市政基础设施资产管理办法(试行)》
  • 国务院关于2022年度国有资产管理情况的综合报告——2023年10月21日在第十四届全国人民代表大会常务委员会第六次会议上

数智化资产管理迫在眉睫

(一)企业国有资产(不含金融企业)
2022年,中央企业资产总额109.4万亿元、负债总额73.7万亿元、国有资本权益21.8万亿元,平均资产负债率67.3%。2022年,地方国有企业资产总额230.1万亿元、负债总额145.0万亿元、国有资本权益72.9万亿元,平均资产负债率63.0%。汇总中央和地方情况,2022年,全国国有企业资产总额339.5万亿元、负债总额218.6万亿元、国有资本权益94.7万亿元,平均资产负债率64.4%。

(二)金融国有资产
2022年,中央国有金融资本权益19.1万亿元,中央金融企业资产总额261.6万亿元、负债总额234.7万亿元。2022年,地方国有金融资本权益8.5万亿元,金融企业资产总额139.3万亿元、负债总额123.5万亿元。汇总中央和地方情况,2022年,全国国有金融资本权益27.6万亿元,金融企业资产总额400.9万亿元、负债总额358.2万亿元。

(三)行政事业性国有资产
2022年,中央行政事业性国有资产总额6.5万亿元、负债总额2.0万亿元、净资产4.5万亿元。其中,行政单位资产总额1.4万亿元,事业单位资产总额5.1万亿元。2022年,地方行政事业性国有资产总额53.3万亿元、负债总额10.4万亿元、净资产42.9万亿元。其中,行政单位资产总额20.2万亿元,事业单位资产总额33.1万亿元。汇总中央和地方情况,2022年,全国行政事业性国有资产总额59.8万亿元、负债总额12.4万亿元、净资产47.4万亿元。其中,行政单位资产总额21.6万亿元,事业单位资产总额38.2万亿元。

(四)国有自然资源资产
截至2022年末,全国国有土地总面积52360.5万公顷。其中,国有建设用地1818.6万公项、国有耕地1957.5万公顷、国有园地239.3万公顷、国有林地11261.0万公项、国有草地19740.5万公项、国有湿地2175.3万公顷。根据«联合国海洋法公约»有关规定和我国主张,管辖海域面积约300万平方公里。2022年,全国水资源总量27088.1亿立方米。

将大模型应用于资产管理的相关技术

  1. 自然语言处理(NLP):大模型通过深度学习算法,如Transformer,理解和生成自然语言文本,执行文本生成、翻译、总结、问答等任务。
  2. 机器学习和深度学习:利用机器学习算法和神经网络,如循环神经网络(RNN)和长短期记忆网络(LSTM),处理和分析大量金融数据。
  3. 数据预处理:包括数据摄取、数据变换和下游连接,使用OCR模型和正则表达式等工具处理非结构化文本数据。
  4. 向量数据库:将文档及其嵌入存储在向量数据库中,以便LLMs能够更快地检索和处理数据。
  5. LLM编程框架:提供工具和抽象组件,用于构建基于LLMs的应用程序,包含预定义的链(chain)用于编排不同的组件并实现复杂任务。
  6. 时间序列分析:使用深度学习模型如LSTM网络和CNN捕捉时间序列数据中的时间依赖性和异常。
  7. 金融推理:通过处理和综合大量的金融数据,支持战略财务规划、投资建议、咨询服务和决策制定。
  8. 基于代理的建模(ABM):模拟复杂系统,特别是金融市场中的多样化行为,LLMs增强代理的认知功能,实现更现实和自适应的模拟。
  9. 智能合约的模糊测试:利用大语言模型指导智能合约的模糊测试活动,优化智能合约的自动化安全分析。
  10. 多模态数据处理:处理包括图像、音频和视频在内的多模态数据,整合非语言线索到情感分析中。

基于大模型的技术案例

使用大型语言模型(LLMs)进行资产管理的内容主要包括:

  1. 金融投资研究:LLMs能够快速准确地从大量市场数据、财务报告和宏观经济指标中提取关键信息,帮助资产管理公司进行数据分析和总结,从而加快数据整理速度并减少人为干预错误。例如,可以使用LLMs来分析公司报告中的情绪,新闻和电话会议,帮助投资者更好地理解公司的情绪和潜在的未来发展趋势。
  2. 风险管理:LLMs通过复杂的数据分析和模式识别来预测和评估各种类型的风险。例如,LLMs可以迅速分析特定资产类别的市场波动性的历史趋势和相关新闻报告,为风险评估过程提供定量和定性支持。
  3. 客户服务和咨询:LLMs的应用显著提高了用户交互体验,能够理解客户的具体需求和情况,提供针对性的响应或建议,从而大大提高客户满意度。
  4. 监管合规:LLMs能够解释复杂的监管文件,协助资产管理公司确保其业务运营符合各种法律要求。例如,当新的金融法规出台时,LLMs可以迅速总结主要变化和潜在影响,帮助公司快速适应法律环境的变化。
  5. 投资管理:LLMs可以分析市场数据并预测未来价格走势,这些信息可以用来通知交易策略。LLMs不仅对对冲基金有益,对资产管理行业的其他参与者,如资产经理和养老基金也有益。

招商银行资管领域大模型探索实践

基于大模型的生成和理解能力,可以在资产管理业务的整个链条中进行应用,例如在实体经济和底层金融资产中,利用大模型的生成能力可以完成研报的写作、检索,利用大模型的理解能力对已有研报可以进行解析、理解、摘要、脱水,挖掘深层次数据价值;在资产组合层面,大模型可以进行因子提取、指数辅助编制、策略COT辅助实现;在财管管理阶段,大模型可以解析基金公司新闻、管理人舆情、基金产品公告等信息,通过资配的逻辑对非专业投资客户进行产品推荐,辅助财富管理。

平安在保险资管领域的大模型应用

基于保险资管场景的特点和实战经验,平安资管总结了大模型应用的几点原则:

第一,不能依赖于模型自有记忆,基于给定素材和知识库。模型记忆主要来自于预训练语料,但语料的时效性往往较弱,且准确性无法满足专业人士的需求。因此使用用户输入的文本、搜索结果或知识库查询结果。

第二,避免参与决策类问题。人做不好的事情不要交给模型做,人能做好的事情可以考虑让机器提效。

第三,聚焦小颗粒耗时任务,发挥信息处理优势。基于给定素材,只让大模型做信息处理,尽量处理简单重复的任务,保证流程可控,避免出现幻觉等问题。

东方资管投研场景大模型应用实践

基金经理、研究员每天面对海量的金融信息,难以快速精准获取有价值的信息。公募基金管理费、托管费降费,需要降低公司运营成本。随着大模型能力的逐渐进步,为大模型应用提供技术基础。作为资产管理公司,投研方向的知识问答是大模型最具业务价值的探索方向。

东方资管将大模型用于投研方向的知识问答场景,联合东方证券开发基于大模型的AI投研助理平台(东方红智能小牛)。本案例通过介绍东方资管的模型选择、知识库检索增强等工作,为其他金融机构提供参考。

Morgan Stanley

和 OpenAI 合作推出了一款基于 GPT-4 技术的聊天机器人,并利用该机器人管理其面向客户的庞大知识库。计划部署一个聊天应用程序,利用OpenAI的GPT-4(世界上最大的LLM)来整理超过100,000份内部文件的数据。这种使用生成性AI扩展了Morgan Stanley在私有控制生态系统中的智力资本。

Stripe

使用LLMs来改善客户支持和用户审核。
美国人工智能研究公司OpenAI已与支付公司Stripe达成合作,将其生成式人工智能(AI)产品ChatGPT和Dall-E货币化。
据报道,这两家公司的合作是双向的。OpenAI选择Stripe的金融基础设施平台,将其生成式AI技术商业化,而Stripe则将把OpenAI新一代大型语言模型GPT-4嵌入到其产品和服务中。

Orion

Orion already started using ChatGPT, including comparing and contrasting portfolios, refining marketing content, responding to RFPs and more.

发展趋势

资产管理的最新趋势体现在以下几个方面:

  1. 数字化和智能化:资产管理行业正通过大模型技术和数据分析工具,提高资产管理的效率和决策质量。这包括使用人工智能、机器学习和区块链技术来优化投资策略和风险管理。
  2. 监管合规:随着监管环境的变化,资产管理公司需要遵守更严格的法规,如资管新规,这推动了行业向更健康、更规范的方向发展。
  3. 可持续投资:环境、社会和治理(ESG)投资的需求日益增长,资产管理公司需要推出更多责任投资及可持续投资产品,同时避免“绿化”陷阱,满足投资者在可持续投资方面的需求。
  4. 全球资产配置:资产管理公司正在寻求全球资产配置的机会,以分散风险并寻找更高回报的投资机会。
  5. 客户导向的服务:资产管理行业正从产品销售导向转向更加以客户为中心的服务模式,提供更加个性化和定制化的资产管理解决方案。
  6. 科技和数据的应用:资产管理行业正在加强科技和数据的应用,以提高投资决策的效率和精准度,同时利用大数据和人工智能技术来分析市场趋势和客户行为。
  7. 风险管理的强化:在市场波动和不确定性增加的背景下,资产管理公司更加重视风险管理,以保护投资者的资产并确保资产的稳健增长。

refs:
https://m.yunnan.cn/system/2024/01/18/032912939.shtml
http://www.npc.gov.cn/npc//c2/c30834/202310/t20231027_432641.html
https://www.gov.cn/zhengce/content/2021-03/17/content_5593484.htm
https://www.gov.cn/zhengce/zhengceku/2020-09/08/content_5541517.htm
https://www.shaqiu.cn/article/xadNYKbGVERB
https://baijiahao.baidu.com/s?id=1778266213650461199&wfr=spider&for=pc
https://www.fromgeek.com/ai/523104.html
https://www.wealthmanagement.com/technology/wealthtech-firms-and-advisors-ai-has-entered-chat

对某一公司业务进行调研后,对内调研报告可以按以下思路简单组织。

比如对A公司的B板块进行数智化升级方面的调研:

一、调研背景

  • 公司及板块介绍
  • 板块现状及重要性
  • 板块数智化升级现状及重要性

二、调研目的与意义

  • 了解A公司B板块业务现状
  • 了解A公司B板块数字化转型现状
  • 了解A公司B板块数字化发展规划
  • 给出分析建议

三、现状分析
(根据调研内容分点阐述)

四、趋势建议
(根据调研结果分点阐述)

如果是对被调研方的报告,很多背景信息不需要大篇幅展开,需要更加紧凑和方便讨论,也可以参考以下大纲:

一、调研背景

一段话直切主题高度概括即可,包括:

  • 业务定位、重要性和市场现状
  • 调研目的与内容

二、业务现状

按照板块分点阐述,阐述逻辑可参考:

  • 业务介绍
  • 已建设内容
  • 正在建设内容
  • 计划建设内容

三、试点建议

与业务现状中对应阐述每一块的试点建议内容,包括:

  • 问题定位
  • 建议内容
  • 预期成效

本文主要摘取自工信部《服务型制造标准体系建设指南》

服务型制造内涵

服务型制造,是制造与服务融合发展的新型产业形态,是制造业转型升级的重要方向。制造业企业通过创新优化生产组织形式、运营管理方式和商业发展模式,不断增加服务要素在投入和产出中的比重,从以加工组装为主向“制造+服务”转型,从单纯出售产品向出售“产品+服务”转变,有利于延伸和提升价值链,提高全要素生产率、产品附加值和市场占有率。

服务型制造特征

  1. 面向需求的产品服务系统化升级:服务型制造是以客户对产品功能需求和体验需求为出发点和落脚点,对基于产品的服务进行系统化的设计、生产、交付、运维、升级,实现各利益相关方的价增值。
  2. 生产经营的全过程变革:服务型制造是生产经营全过程的系统性变革,制造企业需要从产品主导思维向客户主导思维转变,对企业战略决策、组织架构、业务流程、生产制造、人力资源、评价核算等进行全方位、系统性的优化和改变。
  3. 高附加值的“产品服务组合”产出:服务型制造的核心产出是具备高附加值的“产品服务组合”,是在制造能力的基础上,以信息化、数字化等技术为支撑,融通产品、设备、数据、服务、人才等要素资源,创造新价值。
  4. 制服融合提升服务能力:服务型制造强调以制造业为根基,通过制造与服务的融合,提升服务能力,进一步强化制造技术与实力,推动制造业高质量发展。

总体要求

加快推进新型工业化,立足新发展阶段,完整、准确、全面贯彻新发展理念,构建新发展格局;深入落实《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》《国家标准化发展纲要》《关于进一步促进服务型制造发展的指导意见》部署要求。

具体包括:

  1. 加强统筹,合力推进。加强服务型制造标准体系顶层设计,推动产学研用各方的合作交流。鼓励行业协会、研究机构、产业联盟和制造业企业等多方资源参与标准研制,共同推进标准应用与实施,建设协调配套的标准群,有序推动服务型制造标准体系建设。
  2. 行业协同,强化应用。针对服务型制造跨行业、多领域特征,以应用为导向,急用先行。引导和推动覆盖多行业多领域关键场景、关键模式的技术标准和行业应用标准,发挥标准在产业融合中的引领和规范作用,加快推动新业态新模式发展。
  3. 创新引领,持续完善。结合服务型制造发展现状及趋势,探索将先进适用的科技成果转化为标准的机制,适时优化、完善体系架构,逐步形成具有适应性、科学性、先进性的服务型制造标准体系。
  4. 优化供给,开放合作。优化标准供给结构,充分释放市场主体标准化活力,充分发挥技术优势企业作用,制定原创性、高质量标准。积极参与服务型制造国际标准化交流合作,带动中国制造和服务“走出去”。

服务型制造标准体系建设思路

  • 基础通用
  • 核心要素
    • 产品服务组合
    • 资源池
    • 组织与流程
    • 人才
  • 业务类型
    • 工业设计服务
    • 定制化服务
    • 供应链管理
    • 共享制造
    • 检验检测认证服务
    • 全生命周期管理
    • 总集成总承包
    • 节能环保服务
    • 生产性金融服务
    • 其他创新模式
  • 融合业态应用
    • 面向生活的服务型制造新业态
    • 面向生产的服务型制造新业态

值得一提的是服务型制造不仅仅面向生产,同时还要面向生活,融合业态应用的内涵如下:

  1. **面向生活的服务型制造新业态标准:**引导规范围绕终端消费者“衣、食、住、行、康、文”等民生类需求所形成的以生活服务场景为主的新型融合业态。如:一些传统交通设备的制造业(飞机、船舶、汽车、摩托车等)与纯出行服务业(出行服务平台、导航服务平台、换电服务平台等)企业,为满足生活中的各种出行需求,提供融通制造与服务的出行解决方案,从而形成的出行服务新业态。
  2. **面向生产的服务型制造新业态标准:**引导规范围绕企业原料采购、设计、生产、物流、运营等不同环节的生产运作需求而形成的以工业服务场景应用为目标的新型融合业态。例如:跨越传统的空分设备制造企业和气体运营服务行业,为满足生产经营中的各种气体使用需求提供融通制造与服务的工业气体解决方案,从而形成的工业气体服务新业态。

细节参见:

https://www.yn.gov.cn/ztgg/lqhm/lqzc/gbhqwj/202405/P020240524607968796312.pdf

origin: https://huangwang.github.io/2018/08/26/%E4%B8%AD%E6%96%87%E6%96%87%E7%8C%AE%E5%85%8D%E8%B4%B9%E4%B8%8B%E8%BD%BD%E6%96%B9%E6%B3%95/

idata中国知网

idata中国知网网址:https://www.cn-ki.net/

进入系统,注册账号,登陆就可以每天免费下载五篇知网论文。
额度用完之后,第二天可以继续下载。
每天五篇的额度基本能满足需要,这样还不够的话,可以多注册几个账号。

上海研发公共服务平台

上海研发公共服务平台网址:http://www.sgst.cn/。

注册后可直接下载,论文、文献数量直接匹配知网和万方数据。
下载速度较快,但有数量限制,可注册多个用户名。

库问搜索

库问搜索网址:http://www.koovin.com/。

库问搜索提供千万级文献免费下载。

全国图书馆参考咨询联盟

全国图书馆参考咨询联盟网址:http://www.ucdrs.superlib.net/

很全,可以查图书,查期刊,报纸等。还有硕士,博士的毕业论文。不仅有中文,还有外文。
网站无需注册,通过文献传递服务,即通过邮箱接收全文。最快一两分钟,最慢三四个小时即可接收到全文。

什么是时空知识图谱

时空知识图谱,顾名思义,是具有地理时空分布或位置隐喻的知识构成的有向图,即以时空分布特征为核心的知识图谱(Spatial-temporal Knowledge Graph,或Geo-related Knowledge Graph,以下简称STKG)。STKG旨在通过计算机规范化表达与存储与地理时空分布相关的知识集合,进而支持地理时空分布或位置相关知识检索与知识推理。其中的图(谱)指地理时空分布或位置要素(概念、人类群体/个体、地理实体、事件、现象等)之间的语义联系形成的网状拓扑结构。

其中,时空知识可以更广泛地定义为一切具有时空位置和动态变化特征的相关知识。时空知识是人类对地理空间上人、物、事件、现象分布、演变过程和相互作用规律的认知结果。除了传统的地理/地学应用外,时空知识也是消费领域基于位置的服务(Location-based Services,LBS)、新型基础设施建设和智慧城市管理的核心支撑。时空知识也可以参考地理知识或地学知识分类方法,分为:

  1. 事实型知识
  2. 规则及控制型知识
  3. 决策型知识

3种类型,或者分为

  1. 数据性知识
  2. 概念性知识
  3. 规律性知识

3个层次。

时空知识图谱研究框架

时空知识图谱的构建与应用ref4

作者提出了一种时空知识图谱本体模型,通过在实体种加入时空属性信息,来实现对特点目标领域的时空数据的管理与查询。作者设计了一个时空知识图谱问答系统,能够较为准确的查询出某时刻和时间段内的实体关系情况,并且可以在一定程度上计算空间距离。

引言

知识图谱是一种通过“节点-边-节点”的知识管理架构,实现对目标领域的实体关系数据的有效管理。但在一些特定领域,实体和关系会在时空上动态变化,因此如何设计领域时空知识图谱模型来解决这种变化的存储和管理是极其重要的。

针对以上问题,作者对实体和关系种类和数量在时空上动态变换的特征,通过在实体关系中加入坐标和时间属性信息构建了本体模型,并且利用NER和基于规则的时间信息提取技术、问句图结构生产以及模式库匹配技术来实现算法辅助查询。

时空知识图谱本体模型

作者将领域内的实体进行归纳为4类:单位(机关、组织)、人物、装备和地点。这里由于单位之间的隶属关系、所在地、人物任职关系、装备的配备关系是动态变化的,所以作者在实体和关系中加入了时间空间信息=>使得KG能够完整记录实体和关系的变化历程,并且能够在任意时刻和范围内查询到实体关系情况。

这里圆形代表四类实体,矩形代表实体属性信息,圆角矩形代表关系的属性信息。

本体模型的实体设置

地点类实体设置:对于地点类实体,文章在实体属性中增加了该实体的经纬度来记录实体的地理位置
单位类设置:由于其自身存在更改名称、改编单位、撤编重建等情况,因此作者用不同的实体表示不同阶段的同一单位,但在实体的属性中加入了起始时间和结束时间以记录时间信息
人物类实体设置:属性加入出身地、出身日期、毕业院校等信息
装备类:装备的具体特征

本体模型的关系设置

同一单位的不同阶段实体的关系设置:采用change的关系(包括改名、改变、整合等等)
不同实体:如隶属于、位于、任职于、装备于等关系。也加上时间段属性表示在xx期间有yy关系。

时空知识图谱构建

这篇文章将时空知识图谱定义为能够存储时空动态数据、查询任何时刻和时间段的实体关系的知识图谱。作者利用OrientDB图数据库工具,构建目标领域时空知识图谱。

基于时空知识图谱本体模型应用

作者设定了一种目标领域时空知识图谱设计的查询系统:

剩下的就是一些成果展示。

基于时空知识图谱的空间分析方法研究ref5

随着大数据时代的到来,地理信息正由单一静态向多源动态、精确结构化向模糊异构化转变。知识图谱本质上是一种以图Graph作为数据结构的语义网络,用边连接由节点代表实体或概念,用有向图的方式来表达语义关系。

使用方式是:提取不同类型的地理实体,以RDF三元组(实体-关系-实体)格式存储通用的地理知识图谱。

本位借助地理网格,将地理实体在知识图谱的框架中进行表达以提高空间分析的效率,同时将地理空间数据的时间属性也作为知识图谱中的实体以便进行时间维度的空间分析。

时空知识图谱构建

作者基于Jena构建地理信息空间分析的知识图谱图数据库,并且在节点上引入了时间属性,如上图所示。(相当于把某一年作为一个节点,嵌入知识图谱中)

Question Answering Over Spatio-Temporal Knowledge Graph ref2

时空知识图谱(STKGs)通过整合时间和地点信息扩展了知识图谱(KGs)的概念。尽管研究社区专注于知识图谱问答(KGQA),但基于STKGs结合时空信息回答问题的领域在很大程度上还未被探索。此外,缺乏综合的数据集也阻碍了这一领域的进展。为了解决这个问题,我们提出了STQAD,一个包含10,000个自然语言问题的数据集,用于时空知识图谱问答(STKGQA)。不幸的是,各种最先进的KGQA方法在我们的数据集上的表现远远达不到令人满意的水平。作为回应,我们提出了STCQA,这是一种新的时空KGQA方法,它采用了一种名为STComplEx的新颖STKG嵌入方法。通过从问题中提取时间和空间信息,我们的问答模型能更好地理解问题,并从STKG中检索准确的答案。通过广泛的实验,我们展示了我们数据集的质量以及我们STKGQA方法的有效性。

Motivation

如图1所示,问答系统需要从问题中提取潜在的时间和地理信息,并搜索正确的答案。从时空知识图谱(STKG)中,我们可以获得与”慕尼黑”相关的地理信息和与”第一次世界大战”相关的时间信息。然后,我们需要考虑时空约束,搜索与中心实体”阿尔伯特·爱因斯坦”相关的所有答案。不幸的是,如表1所示,目前还没有对这个具体问题进行进一步的讨论。此外,目前缺乏用于评估STKG上问答任务的大规模数据集。

问题生成

要使用时空知识图谱(STKG)回答自然语言问题,我们必须从问题中心实体开始,并利用时空约束在知识图谱(KG)上定位答案。因此,问题生成可以被视为问题回答的反向过程,其中答案被用来推导出问题的所有约束和线索。此外,问题中实体和时空约束之间应该有更强的相关性,这将使问题更贴近现实世界的场景。

生成问题约束的过程如图2所示。我们使用事实(Albert_Einstein, worksAt, Humboldt_University_of_Berlin, occursSince, 1914, occursUntil, 1917, occursIn, 52.52, 13.39)作为一个答案事实,其中Albert_Einstein是中心实体,Humboldt_University_of_Berlin是答案。

为了便于生成时空约束,我们搜索与Albert_Einstein相关的同时包含时间和地点信息的事实。这类事实的示例包括(Albert_Einstein, wasBornIn, Ulm, occursSince, 1879, occursIn, 48.43, 10.01)和(Albert_Einstein, graduatedFrom, University_of_Zurich, occursSince, 1905, occursIn, 47.38, 8.55)。我们把这些事实视为与中心实体高度相关的候选事实。一些知识图谱关系,如”influence”(影响)和”linksTo”(链接到),含义模糊且转换为约束具有挑战性,因此我们将其过滤掉。结果,我们获得了一组与中心实体相关的高质量候选事实。

然而,这种严格的方法可能导致候选事实的数量不足。为了解决这个问题,我们进行了涉及与中心实体”Albert_Einstein”相关的实体、时间和地点的知识图谱搜索,从而获得额外的事实来补充我们的事实集。

我们的事实集被分为两个子集:候选时间线索集和候选地点线索集。我们从这两个线索集中随机选择一个线索来生成问题的约束。通过将时空线索与答案事实进行比较,我们推导出如图2所示的约束,如时间约束“在结束之前”和地点约束“东北方向”。

STKGQA框架

我们的框架包含三个模块:约束片段生成、实体类型注释和问题嵌入生成。

  1. 约束片段生成:在问题中识别时空约束并编码相关线索。
  2. 实体类型注释:识别从问题中的时空约束推断出的实体类型。
  3. 问题嵌入生成模块:将实体表示和STKG中的时空嵌入整合到问题向量q中。

总结

时空知识图谱相比传统知识图谱的升级体现在以下方面:

数据结构方面

在schema层设计时需要将时间地点作为entity进行设计并与其他实体进行关联。

数据操作方面

与时空知识库类似,简单的增删改查应升级成时空相关的“记忆”、“遗忘”、“学习”、“分析”等。

同时,应支持时空关联分析、溯源等深度分析操作。

数据维护方面

与时空知识库相同,应在动态性方面大幅强化,包括时空关系的自动挖掘,知识更新、失效的自动化判断,insight(如风险预警)的自动生成等。

同时所有这些操作都应增加时间和空间的约束,以及时间和空间维度的线索。

References

  1. https://www.dqxxkx.cn/CN/10.12082/dqxxkx.2023.230154
  2. https://arxiv.org/pdf/2402.11542
  3. https://content.iospress.com/articles/semantic-web/sw222918
  4. https://www.nstl.gov.cn/paper_detail.html?id=68b554aa38cb12b64607e671b1bdc0b9
  5. https://www.nstl.gov.cn/paper_detail.html?id=97fa94ab37db2cb98ae242f513c390fb
  6. https://zhuanlan.zhihu.com/p/594405152

Pre

时空知识库 这一概念使用较少,更多的是 时空数据库 ,本文认为时空知识库是在时空数据库的基础上的知识扩展。下文叙述中不再严格区分两个概念,主要以知识数据库为主。

时空数据库概念

时空数据库是一种特殊类型的数据库,它能够存储和管理与时间和空间相关的数据。随着科技的发展和数据的爆炸性增长,时空数据库的重要性也日益凸显。它不仅可以用于地理信息系统(GIS)、气象预测、交通管理等领域,还可以应用于智能城市、物联网、人工智能等新兴技术的发展。

时空数据库的概念源于对现实世界的模拟和分析需求。传统的数据库主要关注数据的存储和查询,而时空数据库则更加注重数据的时序和空间特征。它能够有效地处理和分析大量的时空数据,提供更加准确和全面的信息。

时空数据库特征

时空数据库的特点之一是支持时间和空间的索引。 时间索引可以帮助用户快速定位到某个时间点或时间段的数据,而空间索引则可以帮助用户快速定位到某个地理位置的数据。这种索引的设计和优化是时空数据库的关键技术之一。

时空数据库还具有多维数据模型。 传统的数据库主要采用关系模型,而时空数据库则采用多维数据模型。它可以将数据按照时间、空间和属性等多个维度进行组织和管理,提供更加灵活和高效的数据操作。

时空数据库还具有时空数据类型。 传统的数据库主要支持数值、字符和日期等基本数据类型,而时空数据库则支持点、线、面、体等时空数据类型。这些数据类型可以更好地表示和处理与时间和空间相关的数据。

时空数据库还具有时空数据操作。 传统的数据库主要支持数据的插入、更新和删除等基本操作,而时空数据库则支持时空数据的查询、分析和可视化等高级操作。这些操作可以帮助用户更好地理解和利用时空数据。

时空数据库还具有时空数据分析。 传统的数据库主要关注数据的存储和查询,而时空数据库则更加注重数据的分析和挖掘。它可以通过时空数据的聚类、分类、预测和优化等方法,提取出有价值的信息和知识。

关于时空数据库构建

相比于传统数据库的主要升级

  1. 实体对象模型升级。将面向存储和制图的点、线、面要素模型升级为面向分析和应用的实体对象模型,并借助语义化技术, 实现地物空间信息、属性信息、时态信息的实体化存储 ,同时提供不同粒度地理实体动态组合、聚合、专题信息实时挂接等功能,从而实现复合实体转换重组以及多源数据有机融合,更好为时空分析与业务应用提供数据支撑。

  2. 三维立体模型升级。将二维平面模型升级为三维立体模型,以二维地理实体为基础,通过三维时空动态匹配与自动挂接,自动提取传统三维地形数据(DEM、DSM)的高程信息,并有机融合基于激光扫描、倾斜摄影、三维重建等构建的真三维模型数据, 实现二维模型的三维化拓展 ,以更符合现实世界认知习惯的方式为用户提供全空间场景化时空信息产品。

  3. 动态时序模型升级。将静态版本模型升级为动态时序模型,以地理实体为载体,以基元版本数据为基础, 依照时序记录几何、属性、相互关系等信息的增加、删除或修改变化及相应时态信息 ,并以增量形式存储于基元版本数据中,实现对地理现象的产生、演变、消亡等动态时序变化信息的全周期存储、管理与表达。

构建过程

以下是 ref2 中的构建系统逻辑。

从这张图可以看出,首先数据流通过适当的采样程序被分割(离散化)成一系列数据块(句子),如上所述。这些数据块的大小(数据的数量M),以及采样周期Ts,在本文中没有讨论,因为它们是依赖于问题参数的,我们想要解释的是主要思想。

一般来说,数据块的大小M对应于代表监控环境中一个典型情况或机器典型工作条件(模式)的合理数量的数据。它可以在不同的物理系统中变化。例如,在从图形信息(图像序列)中获取知识时,一个数据块实际上就是一张图片中包含的所有RGB像素信息。

至于数据块之间的采样周期Ts,它们不必相等,因为下一个数据块可能在更远(不同)的时间瞬间可用(测量)。换句话说,所提出的进化知识库系统更像是一个在线系统,或者更准确地说,是一个准实时系统,从某种意义上说,新的数据块在它们可用的地方被处理(而不一定是在固定的采样时间内)。这种假设从计算的角度来看更宽松,也更接近现实世界中学习和知识构建的过程。

每个获得的单个数据块都将进一步处理,以提取最显著(重要)的知识项,这些将被称为近期知识项(近期KI)。这是通过一个特殊的新引入的序列聚类算法完成的,该算法将在下一节III中详细解释。这个算法的目标是从数据块中提取数据组(聚类)的中心(原型),以递减的顺序,从最大的聚类开始,继续到最小的聚类。这个序列过程的结束是由预先给定的阈值决定的,如图2.1所示。

一旦通过序列聚类提取出近期知识项(KI),它们就进一步用作图2.1所示的进化知识库(KB)更新算法的输入。在这里,根据知识库中已经存在(旧的)知识项,可以区分出三种不同的更新模式。它们被编号为0、1和2,并在下一个图2.2中展示。

关于时空数据库操作

初上文提到时空数据的“增删改查”基础操作,以及“查询分析可视化”等高级操作外,还应存在以下操作:

  • 记忆(learn):增加新的时空数据,并与更新现有数据的时空关联关系。
  • 遗忘(forget):删除原有时空数据,并删除相关关联关系以及其他数据表中的相关知识痕迹,如删除某一误判风险事件,同时应删除事件处置、原因溯源等一切相关时空数据。
  • 学习(relearn):更新已有时空数据,并更新时空相关数据,如更新某一风险判断政策或条件,应同时更新所有风险判断及处置相关数据。

以下是 ref2 中的关于三种操作对应的情况:

模式0表示知识库中现有的(旧的)知识项(Knowledge Item,KI)尚未被序列聚类中的任何近期KI“访问”。这意味着所有近期KI都位于这个现有KI的预定 resolution 参数之外。 resolution 参数是一个用来在知识库(KB)中将“接近的知识项”与“远离的知识项”分开的距离,如图2.2所示。从这个例子中可以看到,知识库中有两个模式为0的KI。这些被视为将在某种程度上逐渐淡出(遗忘步骤)的旧知识项。

模式1表示知识库中完全新的知识项(新KI)。这意味着近期KI与知识库中的所有现有KI都相距甚远。在这种情况下,这个新知识应该接受一个全新的(首次)学习步骤。在图2.2的例子中,有两种情况是模式1。

模式2表示近期KI位于知识库中现有KI的附近,即在由 resolution 参数定义的圆形区域内。这样的情况表明,知识库中的旧现有KI将升级为需要以某种方式重新学习刷新的知识项,同时考虑到近期KI所携带的知识量。在图2.2的例子中,有两种情况是模式2。

总结

时空数据库相比传统数据库的升级体现在以下方面:

数据结构方面

在进行数据ER图设计时,时间、空间特征应被单独构建为数据实体。

数据操作方面

简单的增删改查应升级成时空相关的“记忆”、“遗忘”、“学习”、“分析”等。

数据维护方面

应在动态性方面大幅强化,包括时空关系的自动挖掘,知识更新、失效的自动化判断,insight(如风险预警)的自动生成等。

整体构建过程

依然与传统数据库类似:

构建时空数据库是一个复杂的过程,需要考虑数据的收集、处理、存储和管理系统等多个方面。以下是构建时空数据库的具体步骤:

  1. 需求分析

    • 确定数据库的目标和用途。
    • 了解用户需求和期望的功能。
  2. 数据收集

    • 收集时空数据,可能包括地理信息、时间序列数据、遥感数据等。
    • 确定数据来源和收集方法。
  3. 数据预处理

    • 清洗数据,去除错误和不一致的数据。
    • 标准化数据格式,确保数据的一致性。
  4. 数据建模

    • 确定数据的空间和时间维度,并进行对应实体设计。
    • 设计时空数据模型与ER图,包括实体、关系和属性的定义。
  5. 选择技术平台(可视情况提前):

    • 选择适合时空数据存储和查询的数据库管理系统(如PostGIS、MongoDB等)。
  6. 数据集成

    • 将清洗和标准化后的数据导入数据库。
    • 进行数据整合,确保数据逻辑一致性。
  7. 建立索引和优化

    • 为提高查询效率,建立空间和时间索引。
    • 优化数据库性能,调整参数以适应大规模数据操作。
  8. 开发数据库管理系统

    • 开发或配置数据库管理系统,实现数据的增删改查等操作。
    • 实现数据可视化和分析工具。
  9. 数据更新策略

    • 制定数据更新和维护的策略。
    • 确定数据更新频率和方法。
  10. 安全性和隐私保护

    • 实施数据安全措施,保护数据不被未授权访问。
    • 确保符合数据保护法规。
  11. 测试和验证

    • 对数据库进行测试,确保功能正确性和性能满足要求。
    • 验证数据的准确性和完整性。
  12. 用户培训和文档编写

    • 为用户提供培训,确保他们能够有效使用数据库。
    • 编写用户手册和系统文档。
  13. 部署和上线

    • 将数据库部署到生产环境。
    • 正式上线提供服务。
  14. 监控和维护

    • 监控数据库性能和健康状况。
    • 定期维护和升级系统。

构建时空数据库是一个迭代和持续的过程,需要不断地根据用户反馈和技术发展进行优化和升级。

References

  1. https://wenku.baidu.com/view/2bd7de9f9a8fcc22bcd126fff705cc1754275f3b.html?_wkts_=1720526169067&bdQuery=%E6%97%B6%E7%A9%BA%E7%9F%A5%E8%AF%86%E5%BA%93
  2. https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=5584860

  1. 将主启动“APPNAME”程序更名为“APPNAME.real”,文件位置一般为应用包内的Contents/MacOS
  2. 在同级目录下新建一个脚本文件,命名为“APPNAME”,执行chmod a+x APPNAME,这样应用启动时就会执行该脚本文件
  3. 修改脚本内容,比如:
1
2
3
4
5
6
#!/bin/bash

### (其他在APP启动时需要执行的内容,比如删除文件:)
# rm -rf "/Users/$(whoami)/Library/Application Support/APPNAME"

"`dirname "$0"`"/APPNAME.real $@

  1. K-means聚类:K-means是一种广泛使用的无监督学习算法,用于将数据点划分为具有相似特征的集群。在时空数据中,它可以用于发现模式和趋势。例如,通过将具有相似交通模式的日子聚类在一起,我们可以找出影响交通流量和交通拥堵的关键因素。
  2. 关联规则挖掘:关联规则挖掘是用于发现数据集中变量之间的有趣关系的一种方法。在时空数据中,它可以用于发现时间和空间上的关联规则。例如,我们可能发现某种商品在某个特定时间段的销售量与另一商品在同一时间段的销售量之间存在强烈的关联。
  3. 主成分分析(PCA):PCA是一种用于降低数据维度的机器学习算法。在时空数据中,PCA可以帮助我们减少数据的复杂性,并找出影响结果的主要因素。例如,在气候变化数据中,PCA可以帮助我们找出影响气候变化的主要因素,从而更好地预测和管理气候变化。
  4. 决策树和随机森林:决策树和随机森林是监督学习算法,用于根据输入变量预测一个或多个输出变量。在时空数据中,它们可以用于预测时间和空间上的事件。例如,我们可能使用这些算法来预测交通事故的发生,
  5. 神经网络:神经网络是一种模拟人脑工作机制的非线性算法,具有强大的模式识别和预测能力。在时空数据中,神经网络可以用于识别和预测时空模式。例如,我们可以训练神经网络来识别交通流量的时空模式,从而更准确地预测交通拥堵。

以上所述的算法各有其优点和局限性。K-means聚类对于发现集群很有用,但可能无法处理复杂的时空关系;关联规则挖掘可以发现有趣的关系,但可能无法处理复杂的时空维度;主成分分析可以帮助我们降低数据的复杂性,但可能无法处理复杂的时空关系;决策树和随机森林可以用于预测事件,但可能无法处理复杂的时空关系;神经网络可以处理复杂的时空关系,但可能需要对数据进行大量的预处理和后处理。

在实际应用中,我们通常需要结合具体的问题和应用场景,选择合适的算法进行处理。同时,也需要根据实际的数据质量和数据量,对算法进行适当的调整和优化。此外,由于大数据的处理需要大量的计算资源和存储资源,因此也需要考虑算法的效率和可扩展性。

references:
https://aiqicha.baidu.com/qifuknowledge/detail?id=10075551025

stage1:预训练。为了拥有广泛的视觉-语言知识,我们的模型在弱标注和细粒度数据集的混合上进行训练。我们在第一阶段给予弱标注数据集较高的采样比例,以获得更多样化的知识。

stage2:多任务训练。为了提高MiniGPT-v2在每项任务上的表现,我们在这个阶段只专注于使用细粒度数据集来训练我们的模型。我们排除了像GRIT-20M和LAION这样的弱监督数据集,并根据每项任务的频率更新数据采样比例。这种策略使我们的模型能够优先考虑高质量的对齐图像-文本数据,以在各种任务上实现卓越的性能。

stage3:多模态指令调整。随后,我们专注于使用更多的多模态指令数据集来调整我们的模型,并增强其作为聊天机器人的对话能力。我们继续使用第二阶段的数据集,并添加指令数据集,包括LLaVA(刘等人,2023b)、Flickr30k数据集(Plummer等人,2015)、我们构建的混合多任务数据集,以及语言数据集,Unnatural Instruction(Honovich等人,2022)。我们为第二阶段的细粒度数据集给出较低的数据采样比例,而为新的指令数据集给出较高的数据采样比例。

Ref:
https://arxiv.org/pdf/2310.09478v2