Discuz! Board

 找回密碼
 立即註冊
搜索
熱搜: 活動 交友 discuz
查看: 6|回復: 0
打印 上一主題 下一主題

提供场景的语义和空间位置信息

[複製鏈接]

1

主題

1

帖子

2

積分

新手上路

Rank: 1

積分
2
跳轉到指定樓層
樓主
發表於 2024-5-15 14:26:31 | 只看該作者 回帖獎勵 |倒序瀏覽 |閱讀模式

懂D的语言模型来了!UCLA、上交、MIT等联合提出DLLM:性能大涨 此外,在D描述生成、D辅助对话等数据集上的实验表明,该模型优于D VLMs。 定性结果也表明,该模型可以执行超出现有的LLM和VLM能力范围的一些任务。 三维语言数据生成: 从互联网上可以轻松获取海量的二维图像和相应文本的数据对,不过三维多模态数据的获取却非常困难,网络上的三维资产非常稀缺,而且提供文本标注也更有挑战。


现有的三维语言数据,如ScanQA、ScanRefer等在数量和多样性方面都很有限,而且每个数据集 文莱电子邮件列表 都仅限于一项任务,如何自动生成一个可用于各种三维相关任务的三维语言数据集非常值得深入研究。 受GPT等大型语言模型的启发,研究人员提出利用此类模型来收集D语言数据。 懂D的语言模型来了!UCLA、上交、MIT等联合提出DLLM:性能大涨 具体来说,主要有三种方法来提示纯文本GPT模型来生成数据: 基于boxesdemonstrationinstruction的提示。




输入三维场景中房间和物体的轴对齐包围框(AABB),然后向GPT模型提供具体指令,以生成多样化的数据。 研究人员给GPT模型提供个少样本演示示例,用来指示生成的数据类型。 基于ChatCaptioner的提示。 使用ChatGPT输入提示询问一系列关于图像的有信息量的问题(informative questions),然后用BLIP模型回答这些问题。 为了收集三维相关数据,研究人员将不同视角的图像输入 BLIP,然后要求ChatGPT提问并收集不同区域的信息,从而形成整个场景的全局三维描述。



回復

使用道具 舉報

您需要登錄後才可以回帖 登錄 | 立即註冊

本版積分規則

Archiver|手機版|自動贊助|GameHost抗攻擊論壇  

GMT+8, 2025-4-18 06:48 , Processed in 0.192240 second(s), 6 queries , File On.

抗攻擊 by GameHost X3.3

© 2001-2017 Comsenz Inc.

快速回復 返回頂部 返回列表
一粒米 | 中興米 | 論壇美工 | 設計 抗ddos | 天堂私服 | ddos | ddos | 防ddos | 防禦ddos | 防ddos主機 | 天堂美工 | 設計 防ddos主機 | 抗ddos主機 | 抗ddos | 抗ddos主機 | 抗攻擊論壇 | 天堂自動贊助 | 免費論壇 | 天堂私服 | 天堂123 | 台南清潔 | 天堂 | 天堂私服 | 免費論壇申請 | 抗ddos | 虛擬主機 | 實體主機 | vps | 網域註冊 | 抗攻擊遊戲主機 | ddos |