阿里巴巴发布开源推理模型通义千问 QwQ-32B,它的水平如何?
步骤:
0、上周做了QWQ32b、Deepseek-R1历年高考真题1500题测评,数学正确率在满分、99%范围,一个大伙比较关心的疑问是AI是不是背历年真题。
0.1、采用AI自己出新题、AI答题的方法尝试测试AI有没有背题。
1、正式开始。
2、提示词,出新题
3、代码
4、得到QWQ32b、Deepseek-R1各400、800道题
5、AI重新答题。
QWQ正确率平均96%,做QWQ自己出的题目99%,做Deepseek出的题目正确率95%
Deepseek正确率平均96%,做QWQ出的题目96%,做Deepseek出的题目正确率96%
6、简单结论。
QWQ背题率为100%-96%=4%
Deepseek背题率为98%-96%=2%
7、结论不成立的可能情况。
0、上周做了QWQ32b、Deepseek-R1历年高考真题1500题测评,数学正确率在满分、99%范围,一个大伙比较关心的疑问是AI是不是背历年真题。
0.1、采用AI自己出新题、AI答题的方法尝试测试AI有没有背题。
1、正式开始。
2、提示词:请出一道符合考研数学难度的原创单选题,要求不要使用网络或者知识库曾经出现过的题目和数值,并给出4个类似、迷惑的选项,有且只有一个正确选项。结果只以josn格式返回LaTeX格式,不要其他多余的话。
{
"题目": "",
"选项": {
"A": "",
"B": "",
"C": "",
"D": ""
},
"正确的选项": ""
}
3、代码
import time
import pandas as pd
from openai import OpenAI
# 初始化API配置
api_key = "sk-"
api_base = "https://maas-api.cn-huabei-1.xf-yun.com/v1"
client = OpenAI(api_key=api_key, base_url=api_base)
# 初始化Excel文件
excel_file = "output.xlsx"
sheet_name = "Sheet1"
# 如果文件不存在,创建一个新的Excel文件并写入表头
try:
df = pd.read_excel(excel_file, sheet_name=sheet_name)
except FileNotFoundError:
df = pd.DataFrame(columns=["raw_content", "reasoning_content"])
df.to_excel(excel_file, sheet_name=sheet_name, index=False)
# 运行200次
for i in range(200):
try:
# 调用API生成内容
response = client.chat.completions.create(
model="xopqwenqwq32b",
# messages=[{"role": "user", "content": "1+3等于多少?"}],
messages=[{
"role": "user",
"content": """请出一道符合考研数学难度的原创单选题,要求不要使用网络或者知识库曾经出现过的题目和数值,并给出4个类似、迷惑的选项,有且只有一个正确选项。结果只以json格式返回LaTeX格式,不要其他多余的话。
{
"题目": "",
"选项": {
"A": "",
"B": "",
"C": "",
"D": ""
},
"正确的选项": ""
}"""
}],
stream=False,
temperature=0.6,
max_tokens=14096,
extra_headers={"lora_id": "0"},
stream_options={"include_usage": True}
)
print("已经提问")
# 获取内容
raw_content = response.choices[0].message.content
reasoning_content = response.choices[0].message.reasoning_content
# 打印内容
print(f"第 {i+1} 次运行结果:")
print("Raw Content:")
print(raw_content)
print('-' * 40)
# 将内容保存到Excel
new_row = pd.DataFrame([{"raw_content": raw_content, "reasoning_content": reasoning_content}])
df = pd.concat([df, new_row], ignore_index=True)
df.to_excel(excel_file, sheet_name=sheet_name, index=False)
# 休眠一下,避免频繁调用API
time.sleep(0.5)
except Exception as e:
print(f"第 {i+1} 次运行出错: {e}")
4、得到QWQ32b、Deepseek-R1各400、800道题(更多题目还在出题中)
5、再整理这些题目,答案。将题目、提示词上传AI,让AI重新答题。
6、简单结论。
QWQ背题率为100%-96%=4%
Deepseek背题率为98%-96%=2%
7、结论不成立的可能情况:
1、提示词让AI出新题,但是依旧是旧题。
2、AI出的题,达不到高考或者考研数学水平。
3、AI出的题,AI有独特的解题捷径。
4、AI出的题,答案有错误。
8、完整数据
【金山文档 | WPS云文档】 题目合并2025.3.10-1qwq解题完成-分析版
https://kdocs.cn/l/csjoRovTolHw
【金山文档 | WPS云文档】 题目合并2025.3.9-1 - ds答题-分享版
https://kdocs.cn/l/cbKIMJ688mJW