中文字幕乱老妇女一视频,97青草香蕉依人在线视频,男人的天堂国产综合,伊人中文字幕亚洲精品

<style id="pje8p"><tr id="pje8p"></tr></style>

<del id="kw2kq"><kbd id="kw2kq"></kbd></del>

<table id="kw2kq"><source id="kw2kq"></source></table>

<li id="kw2kq"></li>

雷科技昨天

大模型 PK 高考數(shù)學(xué)：DeepSeek 文心豆包皆滿分，差生意外

為了防止高考生使用 AI 作弊，今年高考期間，騰訊混元、通義千問(wèn)、Kimi、豆包等國(guó)內(nèi)知名 AI 大模型的圖片識(shí)別問(wèn)答功能均暫停服務(wù)。對(duì)于這些企業(yè)的做法，小雷卻有一些質(zhì)疑，之前小雷測(cè)試 AI 大模型做高考題，大多表現(xiàn)不佳，暫停圖片識(shí)別問(wèn)答服務(wù)似乎過(guò)于高看自家 AI 大模型的能力。

到截稿時(shí)，2025 年高考全國(guó)一卷僅有語(yǔ)文、英語(yǔ)和數(shù)學(xué)三套試卷公布，其中語(yǔ)文高考題目曝光后，已有多家媒體實(shí)測(cè) AI 大模型撰寫(xiě)作文。不過(guò)作文寫(xiě)得如何，每個(gè)人的觀點(diǎn)可能不同，小雷看到的幾篇評(píng)測(cè)基本是截取 AI 大模型撰寫(xiě)的文章，沒(méi)有給出點(diǎn)評(píng)，文章質(zhì)量需要讀者評(píng)判。

（圖源：百度搜索截圖）

慎重起見(jiàn)，小雷選擇了有標(biāo)準(zhǔn)答案的數(shù)學(xué)科目，測(cè)試 AI 大模型的能力，所選的 AI 大模型分別為 DeepSeek、豆包、訊飛星火、文心一言、Kimi、通義千問(wèn)，它們能考上 985、211 嗎？

首先說(shuō)一下測(cè)試環(huán)境和題目，考慮到部分 AI 大模型不支持手動(dòng)開(kāi)關(guān)聯(lián)網(wǎng)模式，因而所有 AI 大模型啟用聯(lián)網(wǎng)搜索，深度思考功能也全部打開(kāi)。

所選的數(shù)學(xué)題，包含一道單選題、一道多選題、一道填空題、一道簡(jiǎn)答題，最終會(huì)按照題目的分?jǐn)?shù)進(jìn)行打分。

第一題（5 分）：

若雙曲線 C 虛軸長(zhǎng)是實(shí)軸長(zhǎng)的 √7 倍，則 C 離心率為（正確答案：D）

A：√6 B：2 C：√7 D：2√2

第一道題屬于開(kāi)胃小菜，難度不算大，參與測(cè)試的六款 AI 大模型也沒(méi)有令小雷失望，全部計(jì)算出了正確答案，而且給出了詳細(xì)推理過(guò)程。本題測(cè)試中，所有 AI 大模型均獲得滿分 5 分。（圖片從左往右以此為：DeepSeek、訊飛星火、豆包、Kimi、文心一言、通義千問(wèn)，下圖同）

（圖源：App 截圖）

盡管這道題難度不算高，但這六款 AI 大模型的表現(xiàn)令小雷眼前一亮。此前測(cè)試 AI 大模型的數(shù)學(xué)計(jì)算能力時(shí)，面對(duì)稍微復(fù)雜一些的問(wèn)題，AI 大模型很難計(jì)算出正確答案。

僅一輪測(cè)試，DeepSeek、訊飛星火、豆包、文心一言、Kimi、通義千問(wèn)六款 AI 大模型就證明了它們的能力，存在被高考生用于的作弊的可能性，暫停圖片識(shí)別問(wèn)答功能絕非為了蹭高考的熱度。

第二題（6 分）：

若 cos 2A+cos 2B+2sin C=2，SΔABC=1/4，cos Acos Bsin C=1/4，則（正確答案：ACD）

A：sin C=sin²A+sin²B B：AC²+BC²=3 C：AB=√2

D：sin A+sin B= ( √6 ) /2

這道題難度相當(dāng)高，僅有豆包在兩分鐘內(nèi)計(jì)算出正確答案，訊飛星火和通義千問(wèn)耗時(shí)略長(zhǎng)一些，其他幾款 AI 大模型用時(shí)更長(zhǎng)，尤其是 DeepSeek，耗時(shí)足足 572 秒，接近 10 分鐘。

（圖源：App 截圖）

若是 AI 大模型像考生一樣每次只做一道題，推理較慢的三款 AI 大模型，存在兩小時(shí)時(shí)間做不完題的可能性。

盡管本輪測(cè)試中所有 AI 大模型均正確回答出了問(wèn)題，但結(jié)合推理所需時(shí)長(zhǎng)來(lái)看，豆包、訊飛星火、通義千問(wèn)表現(xiàn)較好。

第三題（5 分）：

若一個(gè)等比數(shù)列的前 4 項(xiàng)和為 4，前 8 項(xiàng)和為 68，則該等比數(shù)列的公比為（正確答案：±2）

與上一題相比，這一題的難度有所下降，訊飛星火、文心一言、Kimi、通義千問(wèn)、DeepSeek 五款大模型均迅速計(jì)算出了正確答案，文心一言幾乎是秒算。豆包雖計(jì)算出了正確答案，但在輸出答案時(shí)卻犯了迷糊，排除了 -2。因此，小雷不得不扣掉豆包的三分，該題豆包只能得 2 分。

在本輪測(cè)試中，DeepSeek 服務(wù)器繁忙的問(wèn)題頻繁發(fā)生，小雷不得不借助第三方應(yīng)用。好在，現(xiàn)階段許多 AI 應(yīng)用已接入 DeepSeek，小雷使用的騰訊元寶 App，無(wú)論是推理速度，還是穩(wěn)定性，都遠(yuǎn)高于 DeepSeek 網(wǎng)頁(yè)版或 App。

第四題（17 分）：

設(shè)數(shù)列 {an} 滿足 a =3，（an+1）/n=（an/（n+1））+（1/（n（n+1）））

（1）證明：{n an} 是等差數(shù)列；（正確答案：n an 是 an=3，公差為 1 的等差數(shù)列）

（2）設(shè) f（x）=a X+a X²+a X³+...+amX^m，求 f′（-2）。（正確答案：f′（-2）= ( 7/9）-（（3m+7）/9）·（-2^m））

前三道題，幾款 AI 應(yīng)用僅在體驗(yàn)上存在一定的差異，能力基本沒(méi)有表現(xiàn)出區(qū)別，第四道題不同，它的復(fù)雜度遠(yuǎn)超前面三道題，也是檢驗(yàn) AI 大模型能力最重要的一項(xiàng)挑戰(zhàn)。

在本輪測(cè)試中，豆包、訊飛星火、Kimi、文心一言、DeepSeek 依然表現(xiàn)出色，正確計(jì)算出了兩道題的答案。通義千問(wèn)解答這道題時(shí)，能夠推理出第一道小題的答案，但第二道小題卻給出了錯(cuò)誤答案，表現(xiàn)稍遜一籌。

豆包、訊飛星火、文心一言、Kimi、DeepSeek 可以在本輪測(cè)試中拿到滿分 17 分，通義千問(wèn)因答錯(cuò)了第二道小題，只能獲得 7 分。

依靠公式和邏輯推理的數(shù)學(xué)題，似乎更符合 AI 的特性，但往年的評(píng)測(cè)中，AI 大模型通常做閱讀理解和寫(xiě)作文效果較好，面對(duì)復(fù)雜的數(shù)學(xué)題找不到答題方法。

光明網(wǎng)在去年 6 月的報(bào)道中提到，復(fù)旦大學(xué) NLP 實(shí)驗(yàn)結(jié)果顯示，AI 大模型在做 2024 年高考題時(shí)，在語(yǔ)文領(lǐng)域的表現(xiàn)遠(yuǎn)強(qiáng)于數(shù)學(xué)，部分?jǐn)?shù)學(xué)題 AI 大模型甚至全軍覆沒(méi)，沒(méi)有一個(gè)能夠正確計(jì)算出答案，遇到多選題時(shí)也是錯(cuò)誤頻出。究其原因，數(shù)學(xué)失之毫厘差之千里，不能出一丁點(diǎn)錯(cuò)誤，文史類內(nèi)容則可以允許出現(xiàn)部分錯(cuò)誤和較為模糊的答案。

一年時(shí)間過(guò)去，AI 大模型進(jìn)步神速，深度思考模式的加入、針對(duì)數(shù)學(xué)題的專項(xiàng)優(yōu)化，令 AI 大模型在處理高考數(shù)學(xué)題時(shí)更加游刃有余。

四道題目測(cè)試下來(lái)，最終得分如下：

DeepSeek：33 分；

訊飛星火：33 分；

豆包：30 分；

Kimi：33 分；

文心一言：33 分；

通義千問(wèn)：23 分。

經(jīng)過(guò)測(cè)試，DeepSeek、訊飛星火、Kimi、文心一言均獲得滿分，豆包表現(xiàn)不錯(cuò)，因一時(shí)疏忽，遺憾丟了三分，痛失高考狀元。通義千問(wèn)計(jì)算較為簡(jiǎn)單的問(wèn)題時(shí)，都保持了極高的水準(zhǔn)，但處理較難的問(wèn)題時(shí)出現(xiàn)了計(jì)算錯(cuò)誤，需要再接再厲。

（圖源：豆包 AI 生成）

總是向 AI 行業(yè)潑冷水的蘋(píng)果，日前在論文中表示，AI 推理模型只是「假思考」，根本沒(méi)有穩(wěn)定、可理解的推理過(guò)程，更像是記憶，處理復(fù)雜任務(wù)時(shí)可能會(huì)崩潰。AI 研究者 Lisan al Gaib 復(fù)刻蘋(píng)果測(cè)試方法后表示，模型不是因?yàn)橥评砟芰Σ钍?，而是因?yàn)樘O(píng)果限制了輸出 token。

或許 AI 大模型推理能力仍存在上限，但我們看得到它們的進(jìn)步。去年復(fù)旦大學(xué) NLP 實(shí)驗(yàn)室測(cè)試 AI 大模型時(shí)，它們面對(duì)高考數(shù)學(xué)題表現(xiàn)糟糕，小雷在幾次 AI 大模型橫評(píng)測(cè)試中，也得到了類似的結(jié)果。今年的測(cè)試中，AI 大模型基本都能計(jì)算出問(wèn)題的正確答案，曾經(jīng)難住 AI 大模型的多選題，也未能再對(duì) AI 大模型造成困擾。

AI 大模型數(shù)學(xué)題解答能力提升，最大受惠者可能是學(xué)生群體。國(guó)內(nèi)學(xué)習(xí)機(jī)廠商和教育輔導(dǎo)平臺(tái)，已陸續(xù)加入 AI 答題能力，但許多設(shè)備的 AI 大模型僅能解答中小學(xué)問(wèn)題，例如行業(yè)翹楚小猿搜題，題目庫(kù)不包含大學(xué)課程。

這六款 AI 大模型的優(yōu)秀表現(xiàn)，證明了國(guó)內(nèi)頭部 AI 企業(yè)的實(shí)力，高考數(shù)學(xué)題已被征服，高等數(shù)學(xué)也不會(huì)遠(yuǎn)了。學(xué)習(xí)機(jī)廠商、教輔平臺(tái)可以與頭部 AI 企業(yè)合作，增強(qiáng)產(chǎn)品 AI 答題的能力，繼續(xù)強(qiáng)化 AI 教育硬件業(yè)務(wù)。

夏日麗六月，金榜題名時(shí)。

又是一年高考季，雷科技「高考畢業(yè)季」專題上線，滿足學(xué)生粉絲的信息需求，涵蓋搜索、AI 等工具推薦，和手機(jī)、PC 等選購(gòu)攻略。

敬請(qǐng)關(guān)注！

查看原文

宙世代

ZAKER旗下Web3.0元宇宙平臺(tái)

一起剪

ZAKER旗下免費(fèi)視頻剪輯工具

相關(guān)標(biāo)簽

ai

相關(guān)閱讀

5000預(yù)算RTX5060游戲本抱回家機(jī)械革命蛟龍16Pro評(píng)測(cè)

電腦報(bào) 前天

最新評(píng)論

沒(méi)有更多評(píng)論了

雷科技

訂閱

覺(jué)得文章不錯(cuò)，微信掃描分享好友

掃碼分享

熱門(mén)推薦

查看更多內(nèi)容

熱門(mén)訂閱換一批

Blockchain News

<center id="gwa2w"></center>