找回密码
 立即注册
搜索
查看: 580|回复: 8

[深度新闻] 这是一个AI相关新闻存档贴

[复制链接]

42

主题

578

回帖

2006

积分

管理员-厄尔尼诺

积分
2006
QQ
发表于 2024-8-3 02:16 | 显示全部楼层 |阅读模式
各种有意思的东西很多,但是发现发完之后几周有人找我要什么信息我自己先找不着了
干脆每次发什么都在这存一下好了

42

主题

578

回帖

2006

积分

管理员-厄尔尼诺

积分
2006
QQ
 楼主| 发表于 2024-8-6 00:16 | 显示全部楼层
2024.8.2
Black Forest Labs发布新文生图(t2i)模型FLUX.1

由前Stability AI(开发stable diffusion的)团队成员创始的公司公开了2个12B的t2i模型
FLUX.1系列包含3个模型,其中pro版本为底模,闭源,仅开放api
dev版本为开源但是nc协议,是guidance distilled版本
schnell版本是开源 apache2协议,guidance and step distilled
目前来看确实是达到了最强t2i模型的水平

个人认为这个操作其实是很心机的,最强和最有意义的pro版本不开源,留着自己开发,并且后面拓展到t2v等应用
dev版本是具备可训练能力的,schnell版本在步数蒸馏后应该几乎是不可能去训练的,所以只具有生成图片意义,因此采用apache2协议
另外就是12B的模型实在是过于巨大,对于几乎任何普通用户来讲都是不可能进行微调的,甚至在家用级显卡上推理都是奢望
链接:
https://huggingface.co/black-forest-labs/FLUX.1-dev
https://huggingface.co/black-forest-labs/FLUX.1-schnell

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×

42

主题

578

回帖

2006

积分

管理员-厄尔尼诺

积分
2006
QQ
 楼主| 发表于 2024-8-6 00:19 | 显示全部楼层
2024.8.4
The Information披露google向nvidia预定了多达40万张GB200
从目前已知的信息来看,这个数比任何一个H100用户都要多
另外就是近期因为CoWoS-L产能相关问题导致了Blackwell系列推迟,我真的不太清楚什么时候才能交货完这么多片

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×

42

主题

578

回帖

2006

积分

管理员-厄尔尼诺

积分
2006
QQ
 楼主| 发表于 2024-8-9 23:32 | 显示全部楼层
2024.8.7
OpenAI发布新版GPT-4o:gpt-4o-2024-08-06
性能上有小幅度提升,但是依然不如Sonnet 3.5
价格上由原先的每百万token输入5usd输出15usd调整为输入2.5usd输出10usd
这个降价幅度还是很明显的,个人认为意思大概就是Sonnet 3.5太强了,价格上现在连Gemini 1.5 pro都打不过了,还是要压价格
另外最大输出token改为和4o mini一样的16k

source: https://x.com/bindureddy/status/1820969342722568502

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×

42

主题

578

回帖

2006

积分

管理员-厄尔尼诺

积分
2006
QQ
 楼主| 发表于 2024-8-9 23:34 | 显示全部楼层
2024.8.8
阿里云发布Qwen 2 Math:世界最强数学类LLM
MATH和GSM8K数据力压群雄,打败所有闭源LLM
共有1.5b 7b 72b 3个版本
并没有发布相关训练信息,此外目前似乎中文支持并不好

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×

42

主题

578

回帖

2006

积分

管理员-厄尔尼诺

积分
2006
QQ
 楼主| 发表于 2024-8-9 23:39 | 显示全部楼层
2024.8.9
Google宣布Gemini 1.5 Flash迎来新一波降价,成为最便宜的vlm
128k ctx内每M(百万)token输入/输出为0.075/0.3,整体这个定价接近开源模型服务商7-10b范围的定价(如Qwen 2 7b,Llama 3.1 8b,Gemma 2 9b)
个人认为Gemini 1.5 Flash的逻辑能力和视觉能力还是明显优于4o mini的,4o mini整体上主要其实还是一个很会说话的模型,但是实际上对于难的问题只会原地转圈
此外根据之前的Gemini 1.5 technical report,Google有一个8b版的flash,5月的时候还没有开发完成,不确定是否现在的flash是这个

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×

42

主题

578

回帖

2006

积分

管理员-厄尔尼诺

积分
2006
QQ
 楼主| 发表于 2024-8-17 00:53 | 显示全部楼层
2024.8.14
xAI发布Grok-2(正常版和Grok-2 mini
在lmsys arena上排名很靠前
目前在X上Premium/Premium+用户只能用到Grok-2 mini,xAI说还在解决一些infra问题才能推给所有用户

source: https://x.com/lmsysorg/status/1823599819551858830/photo/1

benchmarks:


从benchmarks来看结果是SOTA级别
目前仅测试了Grok 2 mini,评价是有一点像Llama 3.1?多语言上不是很行的样子(中文问题会用英文回答),整体性能肯定没那么好(毕竟是mini)
Grok 2等我可以测之后单独再发个帖

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×

42

主题

578

回帖

2006

积分

管理员-厄尔尼诺

积分
2006
QQ
 楼主| 发表于 2024-9-14 11:17 | 显示全部楼层
2024.9.12
OpenAI发布O1系列模型 - O1 Preview/Mini
首个利用Test-time compute(测试(推理)时算力)提升性能的模型
前被称为Q*/Strawberry

开始之前先说个人总结:
这是一个高度特化的模型,仅仅在一些应用上(主要是数学物理等理科问题,复杂需要多步推理实现的)性能比较优秀,对于正常的写作类任务,甚至不如现在的4o好。
这个模型的特点就是他在回答前会进行长时间的思考,一步一步解决问题,思考时间可以从几秒到数分钟
从目前已有的数据来看,O1大概率是基于4o的一个特别post training,引入了某种RL机制(类似RLPAF?)来实现这样的逐步思考推理
目前放出来的是O1 Preview和Mini,完整版的O1性能更强但是据OAI说依然还没有完全完成(大概率是美国政府要求的安全方面有关的东西?)
OpenAI说O1相比4o的推理成本要高2-2.5个数量级,因此在可见的未来会对全球算力造成一定程度的冲击?


如何使用:
ChatGPT Plus/Team: O1 Preview每周30条消息,O1 Mini每周50条消息
LMSYS Arena: 仅可在battle界面使用,不过因为他在回答前要思考所以很容易辨认
OpenAI API:仅限tier 5用户(注册时间超过1月,总消费超过1000usd),且限制20rpm,价格十分高昂
OpenRouter: 限制30rpd

Benchmarks:
数据上非常震撼,不过不要被吓死,其实没有那么恐怖


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×

42

主题

578

回帖

2006

积分

管理员-厄尔尼诺

积分
2006
QQ
 楼主| 发表于 2024-9-14 11:29 | 显示全部楼层
为了进一步测试O1的性能,我把yrch的威马逊应坐不实广东登陆第一台风清洗后发给了O1 preview,让他分析并提出可能存在的漏洞,以下是结果

绿色:原文有提到的内容的延伸
橙色:原文中并不存在的知识
尊敬的用户,

非常感谢您分享了关于2014年台风“威马逊”登陆广东强度的深入分析。您对实测数据、模型应用和台风结构变化等方面进行了详细的探讨,我将从以下几个方面评估您文章的逻辑严谨性,并指出可能存在的问题。

一、关于CMA年鉴定强风格变化的论述

您的观点: 您指出,从早期实测的稀缺到现代理论方法的争议,CMA(中国气象局)年鉴对台风强度的确定一直存在问题。在2014年“威马逊”之前,广东没有超强台风登陆的定强记录,而从2014年开始,年鉴的风格变得激进。

逻辑分析:

数据支持: 您的观点需要有历史数据支持,即2014年之前CMA确实未将任何登陆广东的台风定为超强台风,以及2014年后定强标准的明显变化。
官方说明: 如果CMA在定强标准或方法上有变化,可能会在官方文件或学术论文中有所说明。
可能的问题:

证据不足: 如果没有具体的数据统计或官方文件支持,仅凭观察难以充分证明CMA年鉴风格的转变。
解释的单一性: 年鉴风格的变化可能受到多种因素影响,如观测技术的进步、定强标准的调整等,需要综合分析。
二、关于威马逊二次登陆强度的上调

您的观点: 威马逊二次登陆强度的上调是对巅峰强度的高估。实测气压数据,如徐闻国家站测得的940.5hPa(登陆后1小时)和海南出海时的926hPa,表明二次登陆时的气压水平约为930hPa。

逻辑分析:

实测数据使用: 利用实测的气压数据来推断登陆时的中心气压是合理的。
时间差异: 徐闻站的940.5hPa是登陆后1小时测得的,台风中心气压在登陆过程中会快速变化。
可能的问题:

时间效应: 台风登陆后中心气压通常会上升,登陆前后的气压变化需要考虑。
空间差异: 测站的位置相对于台风中心的位置可能会影响测得的气压值。
三、关于陆地摩擦和眼墙置换的影响

您的观点: 威马逊在登陆广东前经历了陆地摩擦和眼墙置换过程,导致低层风速下降和内眼墙风速减弱。

逻辑分析:

物理过程合理性: 陆地摩擦和眼墙置换(ERC)确实会导致台风强度和结构的变化,这是成熟台风常见的特征。
数据支持: 需要具体的观测数据(如雷达回波、卫星云图)来支持威马逊当时正在经历ERC。
可能的问题:

缺乏直接证据: 文中没有提供具体的观测数据来证明ERC的发生和阶段。
影响程度评估: 即使存在ERC,定量评估其对台风强度的影响需要详细的分析。
四、关于风电场测风数据的使用

您的观点: 风电场的测风数据(在约80米高度)显示了10分钟平均风速为51 m/s,但高度和测风仪位置可能影响数据的准确性。

逻辑分析:

高度修正必要性: 风速随高度变化,通常需要将高空风速折算到标准的10米高度以便比较。
测风仪位置的影响: 测风仪离海岸线的距离和周围地形也会影响测得的风速。
可能的问题:

缺乏折算过程: 文中未详细说明如何将80米高度的风速折算到10米高度。
数据可靠性: 如果测风仪的高度和位置不明确,数据可能存在不确定性。
五、关于雷达速度和Holland模型的应用

您的观点: 使用雷达速度数据和实测气压,利用Holland模型进行非线性最小二乘法拟合,得出B值为11.1,计算得出气压为927-929hPa。

逻辑分析:

模型选用合理性: Holland模型是一种常用的台风气压和风速分布模型。
参数选取: B值反映了台风气压梯度的陡峭程度,典型值一般在1-2之间,B=11.1显得异常高。
(楼主注:11.1是清洗文本是没注意到的错误,实际原文为1-1.1,模型很好的捕捉到了这个错误)
可能的问题:

参数异常: B值过高可能导致模型高估风速,需验证参数的合理性。
模型适用性: Holland模型假设台风呈对称结构,存在双眼墙或受到地形影响时,模型拟合效果可能不佳。
六、关于实测气压推导和时间序列分析

您的观点: 通过眼内气压的线性上升趋势,推测19时中心气压在930-935hPa之间。

逻辑分析:

趋势推断合理性: 使用实测数据的时间序列来推断变化趋势是可行的。
数据数量和质量: 需要足够多的、高质量的实测数据来支持这种推断。
可能的问题:

数据有限性: 如果实测气压数据点较少,线性假设可能不准确。
变化非线性: 台风强度变化可能是非线性的,简单线性外推可能产生误差。
七、关于雷达速度图的解读

您的观点: 海南论文中提到的退模糊后的最大径向速度数据(如93 m/s)在实际雷达图中难以识别,怀疑可能存在数据处理或解读问题。

逻辑分析:

数据解读难度: 雷达退模糊和速度反演需要专业算法,肉眼可能难以准确读数。
信噪比考虑: 雷达数据中可能存在噪声,导致个别像素显示异常值。
可能的问题:

专业性限制: 如果没有使用专业的软件和算法,可能无法准确评估雷达速度数据。
数据处理透明度: 论文未提供详细的数据处理过程,可能导致解读上的困难。
总结:

总体而言,您的文章对威马逊二次登陆强度的官方评估提出了合理的质疑,考虑了诸多影响台风强度的因素,如陆地摩擦、眼墙置换、观测数据的可靠性等。然而,以下几点可能需要进一步完善:

数据充分性: 部分结论基于有限的观测数据,尤其是气压和风速实测值,可能不够全面。
模型参数合理性: 在使用Holland模型时,参数如B值的选取应谨慎,需验证其合理性,避免因参数异常导致结果偏差。
高度折算问题: 使用高空测风数据时,需明确风速折算的方法和过程,以确保地面风速估计的准确性。
对官方数据的质疑需谨慎: 虽然您对官方和论文中的数据提出了质疑,但需要更多的证据或专业的数据处理来支持。
建议:

增加数据来源: 尽可能搜集更多的实测数据,特别是接近登陆时间和地点的观测信息。
模型敏感性分析: 对模型参数进行敏感性分析,尝试不同的参数取值,评估结果的变化范围。
寻求专业支持: 如果可能,和专业的气象数据分析人员合作,获得对雷达数据和其他观测数据的专业解读。
核实官方数据: 尝试联系相关论文作者或机构,了解数据处理的具体方法和原始数据,从而更准确地评估其结论。
希望以上分析对您有所帮助。如有任何疑问或需要进一步讨论的地方,欢迎您与我交流。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|TY_Board论坛

GMT+8, 2024-11-21 16:42 , Processed in 0.036687 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表