01
參賽條件
本屆CICC大賽圍繞“創(chuàng)意數據集建設方案”,面向金融、醫(yī)療、具身智能、科學智能等11個領域的技術人才與創(chuàng)新團隊發(fā)布具有挑戰(zhàn)性的賽題;本屆競賽面向中國及境內外高等學校在讀學生(含本科、碩博研究生等)。
02
獎項設置
一等獎1名,5萬元;二等獎1名,3萬元;三等獎2名,1萬元。
03
報名截止時間
2025年6月30日
2025語料數據智能創(chuàng)意大賽
本次大賽錨定前沿領域,以深度挖掘高價值語料數據處理方案與場景應用路徑為核心任務,全力助推“模塑申城”語料普惠計劃落地生根,為人工智能產業(yè)筑牢語料數據根基。同時,大賽積極搭建產學研用協同創(chuàng)新平臺,以開放包容的姿態(tài)廣納各地頂尖團隊投身語料數據開源生態(tài)建設,讓多元知識與先進技術在此碰撞交融,激發(fā)無限創(chuàng)新活力。
劃重點
01
賽程安排
報名啟動
2月22日GDC大會語料分論壇正式啟動“語料筑基智生時代”2025語料數據創(chuàng)意大賽,符合參賽條件的團隊報名參賽。賽事注冊報名和參賽項目提交截止時間為2025年6月30日。
初賽評審
初賽采取線上評審方式進行,評審專家依據報名階段各參賽隊伍提交的項目申報書等資料,參照評分規(guī)則要求,各賽道擇優(yōu)選拔進入決賽項目。
決賽評審
決賽通過項目路演等方式進行,各決賽參賽隊伍需自行準備參賽項目答辯資料。決賽現場由參賽選手對參賽項目進行介紹,可搭配視頻演示,評委進行現場提問、打分,最終評出每個賽道的獲獎名次。決賽具體組織方式另行發(fā)布。
02
領域范圍
本屆CICC大賽圍繞“創(chuàng)意數據集建設方案”,面向金融、醫(yī)療、具身智能、科學智能等11個領域的技術人才與創(chuàng)新團隊發(fā)布具有挑戰(zhàn)性的賽題,要求參賽選手圍繞明確需求、特定場景進行數據處理,構建具有創(chuàng)新思路、技術先進與廣泛應用能力的數據解決方案。
圍繞模塑申城5個關鍵領域、6大重點行業(yè),構建對應的行業(yè)特色語料數據集建設方案,并提交相應的數據樣本。
03
報名要求
本屆競賽面向中國及境內外高等學校在讀學生(含本科、碩博研究生等)、創(chuàng)業(yè)團隊、個人、公司等,具體要求如下:
1、參賽隊員不限年齡、專業(yè);
2、可單人參賽或自由組隊,允許跨專業(yè)、跨學校、跨公司組隊;同一參賽隊員只允許報名一個賽道參加一個隊伍;報名只有一個主體單位;
3、參賽隊員報名須保證個人信息準確并真實有效;
04
作品要求
一、智能終端
1.圍繞智能學習機等智能終端應用上,結合基礎學科能力,構建一套基于以下某一學科的推理數據集:語文、數據,物理,化學、歷史、地理等。
2.圍繞智能安防終端,建立一套基于外形,情緒,聲音等多模態(tài)的數據集,作為模型預判風險的依據。
3.以科學強國為主題,構建一套基于AR,VR場景的多模態(tài)數據集,使用戶能在生成數據中感受到科技發(fā)展進步。
4.以健康為目的,提供基于心率、睡眠、運動、作息習慣等數據,并給出健康改善建議的數據集。
二、科學智能
1.圍繞科學文獻與實驗數據設計結構化提取方案,如化學分子式、生物基因序列的自動標注。
2.圍繞多模態(tài)一致性驗證進行方案設計,警如知識圖譜、公式、圖表及分子式與文本描述一致性、邏輯性驗證。
3.為提高撰寫科研專題綜述所需的文獻檢索精準度與內容提取效率,設計原始文獻的標注方案、不同模態(tài)的結構化數據高質量語料化方案、以及基于思維鏈的綜述生成數據集。
三、在線新經濟
1.圍繞互聯網用戶的評論和用戶行為數據,探索一套基于正確價值觀體系的數據審核數據集。
2.圍繞電商商品信息,用戶評論,銷售量等信息,組建一套具有高可用性的優(yōu)質商品推薦數據集,供個性化推薦模型進行優(yōu)質商品推薦。
3.基于在線虛擬好友陪聊業(yè)務,構建健康,有不同人物標簽,貼近生活,口語化的陪聊對話數據集,面向不同年齡層次,不同性別,不同文化程度,不同性格等。
4.基于工業(yè)互聯網業(yè)務,在以下某一行業(yè):鋼鐵,水務,電力等上,建立一套語料的標準,綜合考慮數據的可用性、結構的統一性、數據的安全性等因素。
四、自動駕駛
1.多模態(tài)駕駛場景語料數據集,基于激光雷達、攝像頭等多傳感器數據,構建涵蓋復雜路況(如雨雪、夜間)的跨模態(tài)語料庫,實現多源數據清洗、對齊與標注,提升自動駕駛系統感知魯棒性。
2.稀缺場景動態(tài)決策思維鏈數據集,針對突發(fā)障礙物、極端天氣等長尾場景,生成包含感知-決策-控制全鏈路的思維鏈數據集,優(yōu)化大模型在低資源條件下的推理能力。
3.高精度BEV(鳥瞰視圖)語料數據集,對城市道路BEV數據進行語義分割標注(車道線、交通參與者等),生成高精度、低噪聲的稀缺數據集,推動BEV感知算法迭代。
五、具身智能
1.構建人形機器人數據質量評價數據集,圍繞基礎能力測評“單模態(tài)、多模態(tài)”、場景能力測評"服務場景、生活場景”、專業(yè)認知能力測評“大腦、小腦”等測評框架,加強具身智能大腦軟硬一體發(fā)展的評估和認定。
2.圍繞生產伴隨式物理采集場景,提供創(chuàng)新具身語料數據采集方案,建設商超、辦公場景的語料數據庫,旨在提升機器人在真實物理環(huán)境中的感知能力和決策能力。
3.構建遙操作模式下的合成數據語料庫,包含視覺、觸覺、語音等多模態(tài)數據的合成數據集。數據集需滿足機器人在多場景任務執(zhí)行中的需求,支持機器人自我學習與任務執(zhí)行能力的提升。
4.圍繞生活、服務、工業(yè)、實驗室四大類,設計和規(guī)劃多元化的應用場景,生成具身智能機器人動作指令語料方案,如家庭服務場景中的“整理-收納-避障”多任務指令集。
5.構建具身智能多模態(tài)感知語料數據集方案,需融合視覺、觸覺、語音等交互數據,數據集需滿足機器人在家庭、工業(yè)、服務等多場景的任務執(zhí)行與自我學習能力需要。
六、金融
1.基金投研助手場景:基金投研助手旨在為投資者、基金經理和研究分析師提供智能化支持,幫助其高效完成基金分析、市場研究、投資決策等工作。能夠快速提取并分析基金的歷史業(yè)績、持倉信息、風險指標等,滿足用戶基金數據分析的要求。這其中涉及到行業(yè)知識、基金相關數據、新聞與公告數據等。針對基金投研助手場景,以優(yōu)化落地效果為目標,設計出對應的數據集制作方案,以包含“需求分析-數據準備-測試與驗證-迭代與更新為佳”。
2.投資顧問助手場景:能夠為用戶提供專業(yè)、個性化的投資建議和服務,幫助用戶識別投資風險,提供風險預警和應對策略;能通過自然語言交互解答用戶問題,并提供投資知識普及服務等。關于投資顧問助手數據設計方案,可以制定該場景“為用戶提供智能化、個性化的投資服務,幫助用戶實現財富增值目標”的高質量數據集方案,以包含“需求分析-數據準備-測試與驗證-迭代與更新為佳”。
3.風險合規(guī)助手場景:金融風險合規(guī)助手旨在幫助金融機構(如銀行、證券公司、保險公司等)高效管理風險、確保合規(guī)運營,同時降低人工成本。期望達到風險監(jiān)管評估功能,如實時監(jiān)控交易、客戶行為和市場動態(tài),識別潛在風險;合規(guī)檢查與報告功能,自動檢查業(yè)務操作是否符合法律法規(guī),生成合規(guī)報告;政策4.解讀與更新:及時解讀最新監(jiān)管政策,并提供合規(guī)建議??梢試@該場景訓練以及落地效果優(yōu)化制定相關高質量數據集。
5.市場資訊與宏觀政策解讀助手場景:市場資訊與宏觀政策解讀助手旨在為投資者、金融機構和企業(yè)提供實時、精準的市場動態(tài)和宏觀政策解讀,幫助用戶快速理解市場趨勢和政策影響,輔助決策制定。該功能需滿足實時資訊推送與解讀,對宏觀政策進行深入解讀,同時可以分析其對行業(yè)、市場和企業(yè)的影響。針對該場景,制定數據集構建方案。
七、制造
1.工業(yè)生產流程優(yōu)化:整合生產設備運行數據、工藝流程圖紙、質量檢測報告等跨模態(tài)數據,構建生產流程優(yōu)化模型,挖掘生產環(huán)節(jié)中的潛在問題與優(yōu)化路徑。
2.工業(yè)安全風險防控:收集工業(yè)生產中的安全事故案例、安全規(guī)范文檔、風險監(jiān)測數據,標注事故原因、風險防控要點與應急處理流程。
八、教育
1.高等教育數理學科思維鏈:收集從數學、物理、化學等數理學科的基礎概念解析到復雜問題求解過程的詳細步驟,包括學生的思考過程記錄、解題思路推導過程的批注,構建涵蓋從基礎到高階知識體系的思維鏈推理數據集合。
2.圍繞智慧教育中個性化學習方案的制定:基于多模態(tài)語料數據,結合學生學習行為數據、課程評價數據、知識圖譜數據等多源信息,設計整體構建方案。方案需包含語料數據庫構建,且要保證數據在學生隱私保護前提下的安全性與可用性,實現對學生學習情況的精準分析,為個性化學習路徑規(guī)劃提供支撐。
3.智能化教育數據質控:針對來自不同渠道(如在線課程平臺、學校管理系統)的學生作業(yè)、考試成績、課堂參與度等多模態(tài)數據,設計一種統一的數據整合與質量控制方案。提高教師對學生學習情況的全面了解以及教學質量評估的準確性,利用數據分析提高學生學習成果的預測精度,為個性化學習提供支持。
4.教育內容跨模態(tài)轉換對齊:圍繞教材、教學視頻、課后練習等教育資源的跨模態(tài)轉換,設計一套教育內容精準關聯標注方案。要求包括:①如何利用自然語言處理(NLP)和計算機視覺(CV)技術實現文本與圖像、視頻間的精準匹配。②開發(fā)一個能夠自動推薦相關學習資源、輔助教師備課及學生自學的智能助手。
九、醫(yī)療
1.圍繞醫(yī)療影像、病理、診斷文本等醫(yī)療報告跨模態(tài)轉換對齊,設計醫(yī)療影像與診斷報告精準關聯標注方案,需包含技術實現路徑及智能體設計應用。
2.圍繞智能電子病歷質控,設計多模態(tài)多來源數據的統一與對齊,實現智能化的病歷質控提高醫(yī)生病歷質量以及病歷質量管理的效率。
3.在機構養(yǎng)老和居家養(yǎng)老的場景下,利用智能體,對基礎數據與實時交互數據,提高風險預測與老年人照護水平。
十、文旅
1.文化遺產多模態(tài)語料集,整合古籍文本、文物影像、歷史事件時間軸等跨模態(tài)數據,構建可推理的文化傳承關系網絡,支持大模型生成歷史脈絡解析與虛擬修復方案。
2.全域旅游語義交互語料集,覆蓋自然景觀、人文地標、民俗活動等場景的多語言指令庫,包含游客意圖識別、多模態(tài)問答邏輯鏈標注,適配AR導游、智能客服等生成式應用。
3.非物質文化遺產語料集,記錄非遺技藝操作流程、傳承人口述史料、工藝演變圖譜,標注技藝關鍵步驟與現代化改良邏輯,用于大模型驅動的非遺數字化傳播與創(chuàng)新設計。
4.上海方言傳承數據集,涵蓋上海方言中的流行語和諺語,包含現代年輕人對這些詞匯的解讀與使用,研究方言在當代語境下的創(chuàng)新和變遷,包括買菜、乘車、就醫(yī)、餐飲等日常生活場景的上海方言對話,幫助方言適配智能語音助手、AI客服等實際應用。
十一、城市治理
1.公共空間行為模式語料集,基于視頻與WiF熱力圖的市民活動軌跡數據,標注聚集密度、行為類型(休閑/通行/商業(yè))及時空分布規(guī)律,用于預測公共設施使用負荷。
2.城市治理決策知識圖譜,融合政策文本、市民訴求的因果關聯網絡,標注事件處置路徑與多部門協同規(guī)則,支撐大模型生成決策建議。
3.跨模態(tài)市政設施狀態(tài)語料集,整合維修工單文本、傳感器異常信號、上報圖片的多模態(tài)對齊數據,標注故障因果鏈與處置優(yōu)先級,訓練大模型實現設施健康度自診斷。
4.城市規(guī)劃設計語料庫,涵蓋地形地貌、土地利用、、人口分布、交通流量模式、公共設施服務半徑、生態(tài)環(huán)境指標等信息,并融合歷史規(guī)劃案例、政策法規(guī)庫等非結構化文本。為空間格局優(yōu)化、基礎設施配置、生態(tài)安全屏障建設提供量化決策依據。
05
獎項設置
各賽道分設一、二、三等獎,擬以證書、獎金等形式發(fā)放。
一等獎1名,5萬元;
二等獎1名,3萬元;
三等獎2名,1萬元。
06
報名咨詢
賽事咨詢聯系人:楊女士聯系電話:郵箱:baibing@bjultra.com點擊文末“閱讀原文”查看更多科創(chuàng)機會。
大家都在看
智能視覺+航空航天全球大賽項目征集