这是一个AI相关新闻存档贴

xiaoqianWX · 发表于 2024-8-3 02:16

各种有意思的东西很多，但是发现发完之后几周有人找我要什么信息我自己先找不着了
干脆每次发什么都在这存一下好了

xiaoqianWX · 发表于 2024-8-6 00:16

2024.8.2
Black Forest Labs发布新文生图（t2i）模型FLUX.1

由前Stability AI（开发stable diffusion的）团队成员创始的公司公开了2个12B的t2i模型
FLUX.1系列包含3个模型，其中pro版本为底模，闭源，仅开放api
dev版本为开源但是nc协议，是guidance distilled版本
schnell版本是开源 apache2协议，guidance and step distilled
目前来看确实是达到了最强t2i模型的水平

个人认为这个操作其实是很心机的，最强和最有意义的pro版本不开源，留着自己开发，并且后面拓展到t2v等应用
dev版本是具备可训练能力的，schnell版本在步数蒸馏后应该几乎是不可能去训练的，所以只具有生成图片意义，因此采用apache2协议
另外就是12B的模型实在是过于巨大，对于几乎任何普通用户来讲都是不可能进行微调的，甚至在家用级显卡上推理都是奢望
链接：
https://huggingface.co/black-forest-labs/FLUX.1-dev
https://huggingface.co/black-forest-labs/FLUX.1-schnell

xiaoqianWX · 发表于 2024-8-6 00:19

2024.8.4
The Information披露google向nvidia预定了多达40万张GB200
从目前已知的信息来看，这个数比任何一个H100用户都要多
另外就是近期因为CoWoS-L产能相关问题导致了Blackwell系列推迟，我真的不太清楚什么时候才能交货完这么多片

xiaoqianWX · 发表于 2024-8-9 23:32

2024.8.7
OpenAI发布新版GPT-4o：gpt-4o-2024-08-06
性能上有小幅度提升，但是依然不如Sonnet 3.5
价格上由原先的每百万token输入5usd输出15usd调整为输入2.5usd输出10usd
这个降价幅度还是很明显的，个人认为意思大概就是Sonnet 3.5太强了，价格上现在连Gemini 1.5 pro都打不过了，还是要压价格
另外最大输出token改为和4o mini一样的16k

source: https://x.com/bindureddy/status/1820969342722568502

xiaoqianWX · 发表于 2024-8-9 23:34

2024.8.8
阿里云发布Qwen 2 Math：世界最强数学类LLM
MATH和GSM8K数据力压群雄，打败所有闭源LLM
共有1.5b 7b 72b 3个版本
并没有发布相关训练信息，此外目前似乎中文支持并不好

xiaoqianWX · 发表于 2024-8-9 23:39

2024.8.9
Google宣布Gemini 1.5 Flash迎来新一波降价，成为最便宜的vlm
128k ctx内每M（百万）token输入/输出为0.075/0.3，整体这个定价接近开源模型服务商7-10b范围的定价（如Qwen 2 7b，Llama 3.1 8b，Gemma 2 9b）
个人认为Gemini 1.5 Flash的逻辑能力和视觉能力还是明显优于4o mini的，4o mini整体上主要其实还是一个很会说话的模型，但是实际上对于难的问题只会原地转圈
此外根据之前的Gemini 1.5 technical report，Google有一个8b版的flash，5月的时候还没有开发完成，不确定是否现在的flash是这个

xiaoqianWX · 发表于 2024-8-17 00:53

2024.8.14
xAI发布Grok-2（正常版和Grok-2 mini
在lmsys arena上排名很靠前
目前在X上Premium/Premium+用户只能用到Grok-2 mini，xAI说还在解决一些infra问题才能推给所有用户

source: https://x.com/lmsysorg/status/1823599819551858830/photo/1

benchmarks:

从benchmarks来看结果是SOTA级别
目前仅测试了Grok 2 mini，评价是有一点像Llama 3.1？多语言上不是很行的样子（中文问题会用英文回答），整体性能肯定没那么好（毕竟是mini）
Grok 2等我可以测之后单独再发个帖

xiaoqianWX · 发表于 2024-9-14 11:17

2024.9.12
OpenAI发布O1系列模型 - O1 Preview/Mini
首个利用Test-time compute（测试（推理）时算力）提升性能的模型
前被称为Q*/Strawberry

开始之前先说个人总结：
这是一个高度特化的模型，仅仅在一些应用上（主要是数学物理等理科问题，复杂需要多步推理实现的）性能比较优秀，对于正常的写作类任务，甚至不如现在的4o好。
这个模型的特点就是他在回答前会进行长时间的思考，一步一步解决问题，思考时间可以从几秒到数分钟
从目前已有的数据来看，O1大概率是基于4o的一个特别post training，引入了某种RL机制（类似RLPAF?）来实现这样的逐步思考推理
目前放出来的是O1 Preview和Mini，完整版的O1性能更强但是据OAI说依然还没有完全完成（大概率是美国政府要求的安全方面有关的东西？）
OpenAI说O1相比4o的推理成本要高2-2.5个数量级，因此在可见的未来会对全球算力造成一定程度的冲击？

如何使用：
ChatGPT Plus/Team: O1 Preview每周30条消息，O1 Mini每周50条消息
LMSYS Arena: 仅可在battle界面使用，不过因为他在回答前要思考所以很容易辨认
OpenAI API：仅限tier 5用户（注册时间超过1月，总消费超过1000usd），且限制20rpm，价格十分高昂
OpenRouter: 限制30rpd

Benchmarks:
数据上非常震撼，不过不要被吓死，其实没有那么恐怖

xiaoqianWX · 发表于 2024-9-14 11:29

为了进一步测试O1的性能，我把yrch的威马逊应坐不实广东登陆第一台风清洗后发给了O1 preview，让他分析并提出可能存在的漏洞，以下是结果

绿色：原文有提到的内容的延伸
橙色：原文中并不存在的知识

尊敬的用户，

非常感谢您分享了关于2014年台风“威马逊”登陆广东强度的深入分析。您对实测数据、模型应用和台风结构变化等方面进行了详细的探讨，我将从以下几个方面评估您文章的逻辑严谨性，并指出可能存在的问题。

一、关于CMA年鉴定强风格变化的论述

您的观点：您指出，从早期实测的稀缺到现代理论方法的争议，CMA（中国气象局）年鉴对台风强度的确定一直存在问题。在2014年“威马逊”之前，广东没有超强台风登陆的定强记录，而从2014年开始，年鉴的风格变得激进。

逻辑分析：

数据支持：您的观点需要有历史数据支持，即2014年之前CMA确实未将任何登陆广东的台风定为超强台风，以及2014年后定强标准的明显变化。
官方说明：如果CMA在定强标准或方法上有变化，可能会在官方文件或学术论文中有所说明。
可能的问题：

证据不足：如果没有具体的数据统计或官方文件支持，仅凭观察难以充分证明CMA年鉴风格的转变。
解释的单一性：年鉴风格的变化可能受到多种因素影响，如观测技术的进步、定强标准的调整等，需要综合分析。
二、关于威马逊二次登陆强度的上调

您的观点：威马逊二次登陆强度的上调是对巅峰强度的高估。实测气压数据，如徐闻国家站测得的940.5hPa（登陆后1小时）和海南出海时的926hPa，表明二次登陆时的气压水平约为930hPa。

逻辑分析：

实测数据使用：利用实测的气压数据来推断登陆时的中心气压是合理的。
时间差异：徐闻站的940.5hPa是登陆后1小时测得的，台风中心气压在登陆过程中会快速变化。
可能的问题：

时间效应：台风登陆后中心气压通常会上升，登陆前后的气压变化需要考虑。
空间差异：测站的位置相对于台风中心的位置可能会影响测得的气压值。
三、关于陆地摩擦和眼墙置换的影响

您的观点：威马逊在登陆广东前经历了陆地摩擦和眼墙置换过程，导致低层风速下降和内眼墙风速减弱。

逻辑分析：

物理过程合理性：陆地摩擦和眼墙置换（ERC）确实会导致台风强度和结构的变化，这是成熟台风常见的特征。
数据支持：需要具体的观测数据（如雷达回波、卫星云图）来支持威马逊当时正在经历ERC。
可能的问题：

缺乏直接证据：文中没有提供具体的观测数据来证明ERC的发生和阶段。
影响程度评估：即使存在ERC，定量评估其对台风强度的影响需要详细的分析。
四、关于风电场测风数据的使用

您的观点：风电场的测风数据（在约80米高度）显示了10分钟平均风速为51 m/s，但高度和测风仪位置可能影响数据的准确性。

逻辑分析：

高度修正必要性：风速随高度变化，通常需要将高空风速折算到标准的10米高度以便比较。
测风仪位置的影响：测风仪离海岸线的距离和周围地形也会影响测得的风速。
可能的问题：

缺乏折算过程：文中未详细说明如何将80米高度的风速折算到10米高度。
数据可靠性：如果测风仪的高度和位置不明确，数据可能存在不确定性。
五、关于雷达速度和Holland模型的应用

您的观点：使用雷达速度数据和实测气压，利用Holland模型进行非线性最小二乘法拟合，得出B值为11.1，计算得出气压为927-929hPa。

逻辑分析：

模型选用合理性： Holland模型是一种常用的台风气压和风速分布模型。
参数选取： B值反映了台风气压梯度的陡峭程度，典型值一般在1-2之间，B=11.1显得异常高。
（楼主注：11.1是清洗文本是没注意到的错误，实际原文为1-1.1，模型很好的捕捉到了这个错误）
可能的问题：

参数异常： B值过高可能导致模型高估风速，需验证参数的合理性。
模型适用性： Holland模型假设台风呈对称结构，存在双眼墙或受到地形影响时，模型拟合效果可能不佳。
六、关于实测气压推导和时间序列分析

您的观点：通过眼内气压的线性上升趋势，推测19时中心气压在930-935hPa之间。

逻辑分析：

趋势推断合理性：使用实测数据的时间序列来推断变化趋势是可行的。
数据数量和质量：需要足够多的、高质量的实测数据来支持这种推断。
可能的问题：

数据有限性：如果实测气压数据点较少，线性假设可能不准确。
变化非线性：台风强度变化可能是非线性的，简单线性外推可能产生误差。
七、关于雷达速度图的解读

您的观点：海南论文中提到的退模糊后的最大径向速度数据（如93 m/s）在实际雷达图中难以识别，怀疑可能存在数据处理或解读问题。

逻辑分析：

数据解读难度：雷达退模糊和速度反演需要专业算法，肉眼可能难以准确读数。
信噪比考虑：雷达数据中可能存在噪声，导致个别像素显示异常值。
可能的问题：

专业性限制：如果没有使用专业的软件和算法，可能无法准确评估雷达速度数据。
数据处理透明度：论文未提供详细的数据处理过程，可能导致解读上的困难。
总结：

总体而言，您的文章对威马逊二次登陆强度的官方评估提出了合理的质疑，考虑了诸多影响台风强度的因素，如陆地摩擦、眼墙置换、观测数据的可靠性等。然而，以下几点可能需要进一步完善：

数据充分性：部分结论基于有限的观测数据，尤其是气压和风速实测值，可能不够全面。
模型参数合理性：在使用Holland模型时，参数如B值的选取应谨慎，需验证其合理性，避免因参数异常导致结果偏差。
高度折算问题：使用高空测风数据时，需明确风速折算的方法和过程，以确保地面风速估计的准确性。
对官方数据的质疑需谨慎：虽然您对官方和论文中的数据提出了质疑，但需要更多的证据或专业的数据处理来支持。
建议：

增加数据来源：尽可能搜集更多的实测数据，特别是接近登陆时间和地点的观测信息。
模型敏感性分析：对模型参数进行敏感性分析，尝试不同的参数取值，评估结果的变化范围。
寻求专业支持：如果可能，和专业的气象数据分析人员合作，获得对雷达数据和其他观测数据的专业解读。
核实官方数据：尝试联系相关论文作者或机构，了解数据处理的具体方法和原始数据，从而更准确地评估其结论。
希望以上分析对您有所帮助。如有任何疑问或需要进一步讨论的地方，欢迎您与我交流。

		自动登录	找回密码
密码			立即注册

[深度新闻] 这是一个AI相关新闻存档贴

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源