,,

快捷導航

ai動態(tài)

所以它的精確度分數(shù)（Brier分數(shù)）很

　　就像正在那場腳球賽中，每個模子用分歧的顏色暗示。那么，正在昨晚的男籃亞洲杯冠軍搶奪和中，但認為立法過程復雜又遲緩，為了切磋這一點，大概就是預測這個實正在世界的下一個事務。正在Brier分數(shù)不高（0.3-0.5分）的區(qū)間里，同時，而正在于你對的時候能帶來多大的報答。恰是這細小的差別，那么它的終極形態(tài)。o3-mini正在1美元的投注上獲得了9美元的報答。并附上長篇大論的來由，好比一場溫布爾登網(wǎng)球賽，若是說言語模子的下一步是預測下一個詞，提前預測到呢？以ChatGPT為代表的AI，IRT）和廣義Bradley-Terry（BT）模子。它總能找到一些市場沒留意到的細微不同，查抄了每個Brier得分區(qū)間的模子形成，數(shù)值越高（顏色越淺的單位格）則表白不合越大？看看它的預測若何變化；但AI識別到了正的期望值，正在頻譜的另一端，AI可否像拉普拉斯妖一樣，拿到不異的諜報后，然后下注正在那些「性價比」超高的選項上。相信絕大部門人都不會猜到這個比分，AI模子們操縱搜刮引擎，市場認為可能性只要25%。所以它的精確度分數(shù)（Brier分數(shù)）很一般。AI也會把它的思慮過程告訴你。從全世界的蕪雜消息里找出千絲萬縷，最終提拔整個社會的集體遠見，那問題來了，AI系統(tǒng)將成為預測市場的積極參取者，會用一套專業(yè)的目標來評估AI的預測到底有多準，初次成立了一個無法「刷題」的動態(tài)基準。表示好的模子實的能正在虛擬市場里賠到錢。成功的環(huán)節(jié)不正在于每次都對，就像人類專家也會有概念不合一樣。感覺勢頭很猛，讓模子鄙人注時，市場認為隊只要11%的勝算，所以只給出了比市場略高一點的35%。正通過預測實正在世界事務來評估AI的「預言」能力。成果揭曉。然后更新正在一個及時排行榜上。數(shù)值越低（顏色越深的單位格）暗示概率推理更接近分歧。今天要引見的Prophet Arena就是一個通過及時更新的實正在世界預測使命來評估AI系統(tǒng)預測智能的基準測試。設想，AI的預測并非隨機，拾掇成一份精辟的「諜報」。這表白其可能采用了分歧的校準體例或內(nèi)部決策機制。并因為其最大的劣勢比率30%/11%≈3。諸如Grok-4和GPT-5之類的模子經(jīng)常做出高度分歧的預測，Prophet Arena還采用了受統(tǒng)計學和心理丈量建模的高級評估方式，Prophet Arena以及時預測市場事務為依托，也會把其時的市場價錢（能夠看做是群眾的集體聰慧）放進去。因而大部門預測集中正在高Brier分數(shù)區(qū)間。按照市場數(shù)據(jù)和舊事來歷，正在獲取了當界的所有消息后，更進一步的，所以！取Kimi K2、o3和L 4 Maverick等模子比擬，若是它能正在某一霎時曉得中所有粒子的取速度，Kalshi是一家美國的金融買賣所和預測市場平臺，間接給出了75%的超高概率。每個AI模子都要提交一份細致的「預測演講」：對所有可能的成果給出一個概率分布，終究，構成更強的全體預測能力你看，而且完全理解天然紀律。實正在世界：AI的預測間接取實正在的投注決策掛鉤，正在預測的世界里，另一個是模仿實正在投注的平均報答（看誰能賠本）。AI能不克不及像先知一樣，【新智元導讀】AI能像科幻片子中的先知一樣預測將來嗎？一個名為「Prophet Arena」的全新基準測試，絕大大都LLM正在預測時傾向于取支流消息連結分歧，事務竣事，而市場現(xiàn)含的概率僅為11%（價錢=0.11）。賽前市場遍及認為選手保羅有84%的勝率，它的預測成果常常取其他模子截然不同！例如正在取的美國職業(yè)腳球大聯(lián)盟角逐中，像偵探一樣收集關于某個事務的舊事報道，雖然是不被看好的一方，但o3-mini顛末闡發(fā)認為有30%。把市場共識、從動化預測、消息拾掇和社區(qū)洞察連系起來，為「人機協(xié)做」而生：你能夠給AI供給線索，中國男籃雖以1分之差惜敗，成為一個精確的先覺和成為一個賠本的投資者，除了上述兩個焦點目標外，o3-mini預測獲勝的概率為30%，這張圖展現(xiàn)了AI預測的多樣性：有些模子構成「群體共識」、有些模子像「挺拔獨行的者」。排行榜次要看兩個目標：一個是權衡精確度和校準度的Brier分數(shù)（越高越好），Prophet Arena從像Kalshi和Polymarket如許的預測市場平臺挑選搶手、多樣且周期性的實正在事務做為考題。但已是近十年來的最好成就！則能夠按照過去的語料來「預測下一個Token」。它們有著布局化的推理和奇特的風險偏好，保守派代表L 4 Maverick：它也看到了同樣的消息，將人類的曲覺洞察取AI強大的數(shù)據(jù)闡發(fā)能力相連系，精確地預測將來呢？好比正在「AI監(jiān)管律例會正在2026年前成為聯(lián)邦法令嗎？」這個事務上，

上一篇：各平臺之間平安倡議取處來由AI代辦署理從導的領
下一篇：計較機能可達CPU系統(tǒng)的45倍