- 2 次围观
2025-01-28 Hacker News Top Stories #
- 裁员彻底改变了我对工作的看法,认识到公司不会因为员工的出色表现而不裁员,好的表现可以让员工在下一份工作中受益。
- DeepSeek 发布了 Janus Pro,一个文本到图像生成器,通过优化训练策略、扩展训练数据和扩大模型规模,显著提升了多模态理解和图文生成能力。
- Marginalia Search 是一个优先考虑非商业内容的搜索引擎,提供了搜索和发现工具,帮助用户找到旧的网站。
- OpenHaystack 是一个用于追踪个人蓝牙设备的框架,利用苹果的 Find My 网络,用户可以创建自己的追踪标签,并将其附加到物理对象上。
- Facebook 审查政策引发争议,导致一些无害内容被封禁,用户们认为言论自由应该基于理性、证据和科学思维,而不是公众舆论。
- 堪萨斯州正在经历历史上最大的结核病爆发,根据堪萨斯州卫生和环境部的报告,截至 1 月 17 日,堪萨斯城地区已经记录了 66 例活跃病例和 79 例潜伏性感染。
- 先锋公司表示,不会推出比特币 ETF 或其他加密货币相关产品,因为加密货币作为一种资产类别尚不成熟,缺乏内在的经济价值和现金流,且波动性极高。
- 作者对家庭旧照片的整理和扫描过程中,发现家庭照片可以分为两类:一类是活着时看的照片,另一类是用来纪念和怀念的照片。
- DeepSeek R1 是一个新型的模型和服务,它能够向用户展示思考过程,用户可以通过 chat.deepseek.com 免费使用该服务,也可以通过 platform.deepseek.com 的 API 进行访问。
- Qwen 2.5-1M 模型发布,支持最长 1M 令牌的上下文长度,该模型在长序列任务中表现出色,尤其是在超过 64K 令牌长度的序列中。
A layoff fundamentally changed how I perceive work #
https://mertbulan.com/2025/01/26/once-you-are-laid-off-you-will-never-be-the-same-again/
这篇文章讲述了作者在一家公司被裁员的经历。作者回忆了被裁员的那一天,收到公司 COO 的邮件,通知他被列入裁员名单。作者表示,当时感到非常震惊和难以接受,因为公司之前曾保证不会再进行裁员。
作者分析了被裁员之前出现的几个警示信号,包括团队活动的取消、意外的包裹通知、领导层缺乏明确的愿景、突然的模糊会议以及季度财报的发布时间。这些信号表明公司可能正在准备裁员。
作者还分享了自己在公司的工作经历,包括他如何承担额外的责任、独立完成项目、创建仪表盘和特性、参加黑客马拉松等。尽管他取得了良好的绩效和认可,但他仍然被裁员了。作者感叹,在裁员时,个人努力和贡献似乎并不重要,自己只是一个 Excel 表格中的一个数据。
作者反思了自己对工作和公司的看法,觉得自己曾经非常投入和忠诚,但最终还是被裁员了。文章表达了作者对裁员的感受和思考,希望读者能够从中吸取教训,更加注意自己的职业发展和人生规划。
HN 热度 866 points | 评论 807 comments | 作者:mertbio | 17 hours ago #
https://news.ycombinator.com/item?id=42838700
- 公司不会因为员工的出色表现而不裁员,但好的表现可以让员工在下一份工作中受益
- 为公司而不是个人努力工作是没有意义的,因为公司不会回报个人
- 只有为能帮助自己的人或事业付出努力才是值得的
- 智能地超越自己的职责可以带来晋升和更高的薪水
- 认识和人脉在职业发展中非常重要
- 不应将心完全交给公司,因为公司不会回报个人
- 为公司付出额外的努力可能会被视为理所当然,而不是被重视
- 晋升不一定带来显著的薪水增长,换工作可能是获得更高薪水的更好方式
- 创造业务价值和帮助公司增长是获得更高薪水的关键
- 不应将辛苦工作与创造价值混淆,创造价值才是最重要的
- 如果其他公司愿意付更高的薪水,那么就应该换工作
- 技术行业的价值增长了 10 倍,但员工的薪水并没有相应增长
- 自己创业可能是获得更高薪水和创造价值的途径
- 大公司的晋升制度可能并不公平,员工需要自己规划职业发展
DeepSeek releases Janus Pro, a text-to-image generator [pdf] #
https://github.com/deepseek-ai/Janus/blob/main/janus_pro_tech_report.pdf
**Janus 系列:统一的多模态理解与生成模型 **
《Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling》主要介绍了 Janus-Pro 这一多模态理解和生成模型的改进。
1. 模型背景与目标 #
Janus-Pro 是 Janus 模型的升级版,通过优化训练策略、扩展训练数据和扩大模型规模,显著提升了多模态理解和图文生成能力,同时提高了生成任务的稳定性。其目标是为多模态领域提供更强大的统一模型。
2. 主要改进 #
-
优化训练策略:
- 延长初始阶段的训练时间以增强图像建模能力。
- 将训练重点放在密集描述的图文数据上,减少对 ImageNet 数据的依赖,从而提高训练效率。
- 调整数据比例,提升多模态理解性能的同时保持强大的生成能力。
-
数据扩展:
- 扩充多模态理解数据,新增约 9000 万样本,包括图像描述、表格和文档理解数据。
- 增加 7200 万条合成数据,使生成数据的真实与合成比例达到 1:1,提升生成质量和稳定性。
-
模型扩展:
- 提供两个模型规模:1B 参数和 7B 参数。
- 大规模模型(7B)在理解和生成任务中的性能显著优于小规模模型。
3. 模型结构 #
Janus-Pro 的核心设计是解耦视觉编码,以分别处理多模态理解和生成任务。通过独立的编码器将原始输入转化为特征序列,再使用统一的自回归 Transformer 进行处理。
4. 实验结果 #
-
多模态理解:
- 在多个基准数据集(如 GQA、MMBench 等)上表现超越了当前最佳模型。
- 例如,在 MMBench 基准测试中,Janus-Pro-7B 得分 79.2,高于 Janus 的 69.4。
-
文本到图像生成:
- 在 GenEval 和 DPG-Bench 评测中,Janus-Pro-7B 的准确率达到 80%,优于 DALL-E 3 和 Stable Diffusion 3 等。
-
生成质量:
- Janus-Pro 生成的图像细节更丰富,短文本提示的响应更加稳定。
5. 局限性 #
尽管表现优异,Janus-Pro 仍存在以下问题:
- 图像输入分辨率受限于 384×384,影响细粒度任务(如 OCR)的表现。
- 图像生成的低分辨率使得小范围细节(如面部特征)欠缺。
6. 结论 #
Janus-Pro 通过优化策略、扩展数据和扩大模型规模,在多模态理解和生成领域取得显著突破,为统一多模态模型的发展提供了新的思路。
如需进一步信息或深度分析,请告知!
HN 热度 579 points | 评论 443 comments | 作者:reissbaker | 8 hours ago #
https://news.ycombinator.com/item?id=42843131
- DeepSeek 发布的论文和开源代码可能会让其他公司如 Facebook 和 OpenAI 跟进并实施相同的技术
- DeepSeek 的开放源代码和论文发布是为了推动整个生态系统的发展和创新,而不是为了短期利益
- 闭源不能成为长期的护城河,开放源代码和分享知识才是真正的价值
- DeepSeek 的做法可能会让他们在技术人才中获得更多的尊重和认可
- 有人认为 DeepSeek 的做法可能是为了削弱美国 AI 公司的竞争力
- 开放源代码和分享知识可以让更多的人受益和推动整个行业的发展
- 有人对 DeepSeek 的做法持怀疑态度,认为可能有其他的动机
- DeepSeek 的 CEO 表示,他们的目标是成为创新和研究的领头羊,而不是仅仅为了赚钱
- 有人认为开放源代码和分享知识是为了推动人类的进步和发展,而不是为了个人或公司的利益
Marginalia – A search engine that prioritizes non-commercial content #
https://marginalia-search.com/
Marginalia Search 网页是一个搜索引擎的主页,介绍了该搜索引擎的特点和功能。该搜索引擎优先考虑非商业内容,提供了搜索和发现工具,帮助用户找到旧的网站。同时,Marginalia Search 是开源的,使用自定义的索引和爬虫软件,采用简单的技术,不使用人工智能或云计算,遵循 AGPL 许可协议。
该搜索引擎注重用户隐私,遵循 GDPR 和 EU Cookie 指令,不收集用户个人信息,不使用 cookie 跟踪用户,不与第三方共享搜索数据或用户信息。同时,访问日志仅保留 24 小时,匿名化日志可能保留更长时间以帮助诊断错误。
网页还提供了联系方式,用户可以通过电子邮件联系搜索引擎的管理员。同时,搜索引擎的源代码可以在 Git 仓库中找到,使用 AGPL 许可协议。IP 地理位置数据来自 IP2Location LITE 数据,遵循 CC-BY-SA 4.0 协议。
HN 热度 539 points | 评论 68 comments | 作者:herbertl | 23 hours ago #
https://news.ycombinator.com/item?id=42836405
- Marginalia 是一个非常有用的搜索引擎,尤其是在某些领域,如 Linux 和开源软件、历史等,可以提供比 Google 或 DDG 更好的搜索结果。
- 该搜索引擎的创建者表示,不会为了竞争而与 Google 或 Bing/DDG 相比,而是专注于发现小众网站的有趣内容。
- 该搜索引擎的排名算法使用了 BM25 和个人化 PageRank,且创建者表示会继续改进和优化算法。
- 由于搜索引擎的爬虫机制,可能会导致某些网站的内容被重复爬取,但创建者表示会尽量减少这种情况的发生。
- 有些用户表示,Marginalia 的搜索结果更符合他们的需求,且不像 Google 或 DDG 那样经常出现错误的搜索结果。
- 该搜索引擎的创建者表示,目前的计划是通过公众捐款和补助金来维持运营,未来会继续改进和扩展搜索引擎的功能。
- 有些用户对 Marginalia 的搜索结果表示赞赏,认为它能够提供更有价值和更准确的搜索结果。
Openhaystack: Build ‘AirTags’ – track Bluetooth devices via Apple’s network #
https://github.com/seemoo-lab/openhaystack
OpenHaystack 是一个用于追踪个人蓝牙设备的框架,利用苹果的 Find My 网络。用户可以创建自己的追踪标签,并将其附加到物理对象上(如钥匙链、背包等),或将其集成到其他蓝牙设备中,如笔记本电脑。
OpenHaystack 的历史始于 2019 年 6 月,安全移动网络实验室(Secure Mobile Networking Lab)对苹果的 Find My 网络进行了逆向工程和安全分析。他们发现了苹果设备如何被 iPhone 设备发现,即使设备处于离线状态。整个系统是一个巧妙的组合,包括蓝牙广播、公钥加密和中央数据库的加密位置报告。他们还发现了两个不同的漏洞,其中最严重的一个允许恶意应用程序访问位置数据,后来被苹果公司修复(CVE-2020-9986)。
使用 OpenHaystack 需要两个组件:macOS 应用程序和固件图像。macOS 应用程序可以显示个人蓝牙设备的最后报告位置,而固件图像使蓝牙设备能够广播信标,使其可被 iPhone 设备发现。系统要求包括 macOS 11(Big Sur),安装过程需要禁用 Gatekeeper 并安装自定义插件。
OpenHaystack 的工作原理是利用苹果的 Find My 网络,附近的 iPhone 设备会发现附有 OpenHaystack 标签的设备,并将其位置上传到苹果服务器。当设备丢失时,用户可以使用 OpenHaystack 应用程序找到其最后报告的位置。OpenHaystack 还提供了一个移动应用程序,允许用户在移动设备上追踪其设备。
总的来说,OpenHaystack 是一个用于追踪个人蓝牙设备的框架,利用苹果的 Find My 网络。它提供了一个 macOS 应用程序和固件图像,允许用户创建自己的追踪标签,并将其附加到物理对象上或集成到其他蓝牙设备中。OpenHaystack 的工作原理是利用苹果的 Find My 网络,附近的 iPhone 设备会发现附有 OpenHaystack 标签的设备,并将其位置上传到苹果服务器。
HN 热度 418 points | 评论 104 comments | 作者:thunderbong | 1 day ago #
https://news.ycombinator.com/item?id=42835772
- Google 的查找网络功能做得很差,限制了查找自己的标签的频率和位置共享,导致其功能不如 Apple 的 AirTag。
- 优先考虑隐私可能是 Google 查找网络功能不佳的原因,但这也导致了其在该领域无法与 Apple 竞争。
- 有些人认为,Google 的查找网络功能虽然有所限制,但仍然可以提供一定的隐私保护,这是值得肯定的。
- 使用 AirTag 或类似的设备可以帮助人们追踪和找回丢失的物品,但也存在潜在的安全风险。
- 有些人建议使用 GPS 终端或其他类型的追踪设备来代替 AirTag 或 Google 的查找网络功能。
- Apple 的 AirTag 功能在某些地区可能不如 Android 设备的覆盖范围广泛,但仍然可以提供良好的追踪和找回服务。
- 个人隐私和安全是使用追踪设备或网络功能时需要考虑的重要问题。
Facebook ban on discussing Linux? #
https://distrowatch.com/weekly-mobile.php?issue=20250127#sitenews
DistroWatch 网站发布了第 1106 期的周刊,讨论了多个 Linux 发行版的最新动态。首先,文章讨论了如何检测是否正在虚拟机环境中运行程序。然后,文章介绍了 NetBSD 终端中的图形绘制和 Nix 包管理器在 FreeBSD 内核上的移植。另外,GhostBSD 将举办一个在线会议,讨论和推广 BSD 系列操作系统的桌面计算。
文章还讨论了 Adelie Linux 和 Pop!_OS 两个发行版的最新开发动态。Adelie Linux 发布了 1.0 Beta 6 版本,提供了多种桌面环境和自定义选项。Pop!_OS 也发布了 24.04 Alpha 5 版本,引入了新的 COSMIC 桌面环境。文章还征求读者对 Pop!_OS 未来版本的意见。
此外,文章介绍了最近发布的 BSD Router Project 1.994 和 Solus 4.7 版本。同时,DistroWatch 网站也提供了相关的 Torrent 下载链接。最后,文章提到了 Facebook 对 Linux 的禁令,以及 DistroWatch 网站的捐赠和赞助情况。
在发行版动态方面,Adelie Linux 1.0 Beta 6 版本提供了多种桌面环境,包括 Plasma、LXQt、MATE 和 Xfce。安装过程中,可以选择自定义软件包,包括桌面环境、游戏、办公应用和网络服务。然而,安装过程中的一些选项没有明确的解释,需要用户自己研究。
Pop!_OS 24.04 Alpha 5 版本引入了新的 COSMIC 桌面环境,提供了更现代化的用户界面。然而,文章没有提供太多关于这个版本的详细信息。文章还提到了其他几个发行版的动态,包括 Solus 4.7 和 BSD Router Project 1.994。
总的来说,这篇文章提供了 Linux 发行版社区的最新动态,包括新版本的发布、开发动态和用户体验。同时,文章也征求读者对某些问题的意见,提供了一个交流的平台。
HN 热度 410 points | 评论 178 comments | 作者:rogerthis | 14 hours ago #
https://news.ycombinator.com/item?id=42839502
- Facebook 的审查政策过于严格,导致一些无害内容也被封禁
- 言论自由应该基于理性、证据和科学思维,而不是公众舆论
- 科学和理性在决定言论标准时应该发挥重要作用
- Facebook 的社区标准应该更加透明和合理
- 审查政策可能会被滥用,导致某些群体或观点被压制
- 言论自由的原则应该优先于公众舆论和政治压力
- Facebook 的审查行为可能会对某些群体或个人造成不公平的伤害
- 社交媒体平台应该在言论自由和内容监管之间找到平衡点
Kansas tuberculosis outbreak is America’s largest recorded since the 1950s #
美国堪萨斯州正在经历历史上最大的结核病爆发。根据堪萨斯州卫生和环境部的报告,截至 1 月 17 日,堪萨斯城地区已经记录了 66 例活跃病例和 79 例潜伏性感染。这些病例大多数发生在怀恩多特县,少数发生在约翰逊县。
结核病是由一种通常影响肺部的细菌引起的。感染活跃病毒的人会感到不适,并可以将其传染给他人,而潜伏性感染者不会感到不适,也不能将其传染给他人。结核病通过空气传播,当感染活跃病毒的人咳嗽、说话或唱歌时就会传播。这种疾病可以通过抗生素治疗。
堪萨斯州公共卫生官员表示,普通公众面临的风险“非常低”。据堪萨斯州卫生和环境部的可报告传染病统计数据显示,2023 年全州有 51 例活跃病例,2024 年增加到 109 例,2025 年目前为 1 例。
堪萨斯州卫生和环境部副秘书长阿什利·戈斯表示,自从他们去年夏天开始介入堪萨斯城爆发时,活跃病例已经从 65 例减少到大约 32 例。戈斯表示,活跃病例患者在服用药物 10 天并进行三次痰液检测后,通常不会再传播结核病。
治疗结核病需要几个月的时间,对于活跃病例和潜伏性感染者都是如此。戈斯表示,他们仍在与几家大型雇主合作,以控制爆发,并希望找到更多潜伏性感染者,而不是活跃病例,以减少对人们生活的影响。疾病控制和预防中心正在与堪萨斯州卫生和环境部合作,监测和控制结核病爆发。
HN 热度 406 points | 评论 359 comments | 作者:toastedwedge | 1 day ago #
https://news.ycombinator.com/item?id=42835183
- 美国的结核病疫苗接种并不普遍,甚至在 20 世纪后半叶也没有广泛使用。
- 结核病疫苗 BCG 存在一些问题,如效果不佳、副作用较大,尤其是在免疫系统受损的人群中。
- 现代社会中,人们容易忘记历史上的疾病和疫苗的重要性,导致一些人忽视疫苗的必要性。
- 许多人认为,疫苗的副作用和安全性问题被夸大了,尤其是在社交媒体上。
- 不同国家和地区对疫苗的态度和接种情况存在差异,例如英国和波兰的 BCG 疫苗接种情况。
- 有些研究正在探索 BCG 疫苗对其他疾病的潜在益处,例如减少食物过敏、湿疹和哮喘的发病率。
No Bitcoin ETFs at Vanguard (2024) #
Vanguard 公司近期表示,不会推出比特币 ETF 或其他加密货币相关产品。该公司的全球 ETF 资本市场和经纪商及指数关系负责人 Janel Jackson 和投资业务负责人 Andrew Kadjeski 解释了这一决定。他们认为,目前加密货币作为一种资产类别尚不成熟,缺乏内在的经济价值和现金流,且波动性极高,可能会对投资者造成损害。
Vanguard 公司的产品和服务旨在帮助投资者长期投资,而不是短期投机。他们认为,加密货币更像是投机而不是投资,缺乏传统资产如股票、债券和大宗商品的基本价值。即使是小额的加密货币投资,也可能会显著增加投资组合的风险。例如,仅仅 5% 的比特币投资就可能使传统的平衡投资组合的风险显著增加。
Vanguard 公司的决定是基于他们对投资者长期利益的考虑。他们希望投资者能够避免高风险的投资,保持长期的投资视角,而不是追逐短期的市场趋势。该公司过去也曾做出过类似的决定,例如在 2019 年停止提供杠杆和反向基金和 ETF,以及在 2022 年停止提供大部分场外股票交易。
尽管这一决定可能不受一些投资者的欢迎,但 Vanguard 公司认为这是符合他们的投资理念和过去的做法。他们的使命是为投资者提供最好的投资成功机会,而不是追逐短期的市场趋势或提供高风险的投资产品。因此,Vanguard 公司的投资者可以继续相信该公司会为他们提供长期的投资建议和服务。
HN 热度 387 points | 评论 517 comments | 作者:mooreds | 1 day ago #
https://news.ycombinator.com/item?id=42832026
- 加密货币是一种投机行为,而不是投资行为
- 加密货币没有内在的经济价值,不能产生现金流
- 加密货币的价值取决于人们的信仰和投机行为
- 加密货币是一种负和游戏,创造它需要投入真正的价值,但输出的是投机资产
- 加密货币的价值可能会归零,因为它不被广泛接受
- 加密货币与传统的波西方案不同,它没有中心化的运作者,但仍然具有波西方案的特征
- 加密货币的价值取决于新的人加入并购买它,而不是它的实际使用价值
- 加密货币可能被视为一种自组织的波西方案,但它没有中心化的意图
- 加密货币的创造者可能拥有大量的币,并通过出售获得利益,而其他人则面临价值归零的风险
Lessons in creating family photos that people want to keep (2018) #
这篇文章讲述了作者对家庭旧照片的整理和扫描过程。作者的父亲是一位热爱摄影的业余爱好者,他在退休后不久去世,留下了大量的幻灯片。作者的母亲在去世后,将这些幻灯片交给了作者的姐姐,后来作者接手了这个项目,决定将这些幻灯片扫描成数字照片。
作者使用了一台 Canon CanoScan 9000F 扫描仪来处理这些幻灯片,每天早晨在阅读邮件的同时扫描几盒幻灯片。作者会先预览幻灯片,如果觉得有趣就会进行快速扫描,选择最好的照片,然后使用 iPhoto 软件进行编辑和整理。作者还会添加日期和地点信息到照片的元数据中,以便于搜索和分类。
在整理过程中,作者发现了很多有趣的照片,包括父母的订婚派对、蜜月旅行、家庭度假和特殊场合的照片。作者还发现了很多日常生活的照片,例如家庭成员的互动、孩子们的成长和家庭活动的场景。作者认为这些照片不仅仅是记录了家庭的历史,还记录了父母的梦想、自豪和美好的瞬间。
作者还分享了一些关于拍摄家庭照片的经验,例如拍摄标题照片可以帮助记录地点和日期,添加标签可以帮助搜索和分类照片。作者还建议拍摄家庭成员的互动和日常生活的场景,因为这些照片可以记录下家庭的历史和美好的瞬间。
最后,作者提到这个项目不仅仅是扫描照片,还包括了与家人分享和交流的过程。作者使用 Flickr 和 Facebook 等社交媒体平台来分享照片,并创建了私人群组来与家人讨论和分享照片。作者认为这个项目帮助了家人之间的交流和了解,也记录下了家庭的历史和美好的瞬间。
HN 热度 364 points | 评论 143 comments | 作者:mooreds | 1 day ago #
https://news.ycombinator.com/item?id=42835282
- 家庭照片可以分为两类:一类是活着时看的照片,另一类是用来纪念和怀念的照片。
- 真实的瞬间照片比摆拍的照片更有价值和意义。
- 使用自然光和捕捉真实瞬间比遵循传统的摄影规则更重要。
- 即使技术上不完美的照片,也可以因为捕捉了真实的瞬间而变得珍贵。
- 专业的摄影师可以在不需要复杂设置的情况下拍出好照片,但即使是非专业人士,也可以通过捕捉真实的瞬间拍出有意义的照片。
- 拍摄家庭成员日常生活中的瞬间,可以更好地捕捉他们的本质和精神。
- 技术上的缺陷并不会影响照片的价值和意义,真实的瞬间和情感才是最重要的。
Show HN: DeepSeek My User Agent #
https://www.jasonthorsness.com/20
DeepSeek R1 是一个新型的模型和服务,它能够向用户展示思考过程。用户可以通过 chat.deepseek.com 免费使用该服务,也可以通过 platform.deepseek.com 的 API 进行访问,目前该 API 的价格比 OpenAI 的 o1 模型要低。用户还可以点击 “Judge Me” 按钮来查看模型对其用户代理、浏览器能力和 IP 地理位置头部的评判。
然而,在这篇文章发布后不久,DeepSeek API 开始出现问题。根据时间线显示,自文章发布以来,用户可以看到评判结果,但随后 API 开始出现故障,platform.deepseek.com 返回 404 错误,status.deepseek.com 显示红色横幅,表明 DeepSeek 服务已经宕机。
在 Hacker News 上,有一些用户对 DeepSeek 的评判结果进行了讨论和分享。由于 DeepSeek 优先考虑聊天功能,因此用户可以将 “Judge Me” 的提示复制并粘贴到 chat.deepseek.com 中,进行 DIY 风格的评判。
HN 热度 341 points | 评论 133 comments | 作者:jasonthorsness | 1 day ago #
https://news.ycombinator.com/item?id=42834648
- 人们期待 AI 技术能够革新互联网广告模式,创造一个无广告的网络环境
- 有人正在开发一个项目,旨在创建一个个人化的网络体验,过滤掉无关内容和广告
- 网络广告模式的改变可能会对现有的商业模式产生影响,尤其是那些依赖广告收入的公司
- AI 技术有可能成为互联网广告的终结者,人们对此持积极态度
- 有人认为苹果公司的 User Agent 字符串设计不佳,导致了某些问题的出现
- User Agent 字符串的设计问题可能会导致某些设备被误判为其他类型的设备
- 有人正在寻找一种方法来正确地识别设备类型,以避免由于 User Agent 字符串设计问题引起的错误
- 个人化的网络体验和内容过滤是未来网络发展的重要方向
- AI 技术可以帮助人们更好地管理网络内容,过滤掉无关信息,提高网络使用效率
Qwen2.5-1M: Deploy your own Qwen with context length up to 1M tokens #
https://qwenlm.github.io/blog/qwen2.5-1m/
Qwen 2.5-1M 模型发布,支持最长 1M 令牌的上下文长度。该模型在长序列任务中表现出色,尤其是在超过 64K 令牌长度的序列中。Qwen 2.5-14B-Instruct-1M 模型不仅优于 Qwen 2.5-Turbo,还在多个数据集上持续优于 GPT-4o-mini,提供了一个强大的开源替代方案。
Qwen 2.5-1M 模型在短序列任务中保持了与 128K 版本相似的性能,确保了基本能力没有被长序列处理能力所损害。与 GPT-4o-mini 相比,Qwen 2.5-14B-Instruct-1M 和 Qwen 2.5-Turbo 在短序列任务中实现了相似的性能,同时支持最长 8 倍的上下文长度。
Qwen 2.5-1M 模型的构建采用了渐进式方法,通过多个阶段扩展上下文长度。首先,使用预训练的 Qwen 2.5 中间检查点,具有 4K 令牌的上下文长度。然后,通过预训练和监督微调,逐渐增加上下文长度到 256K 令牌。最后,使用强化学习训练模型,支持最长 1M 令牌的上下文长度。
为了提高长序列任务的性能,Qwen 2.5-1M 模型采用了双块注意力(DCA)技术,解决了相对位置编码(RoPE)在长序列任务中带来的问题。实验结果表明,即使在仅训练了 32K 令牌的模型中,DCA 也可以将上下文长度扩展到 1M 令牌,几乎不损害准确率。
为了提高推理速度,Qwen 2.5-1M 模型采用了稀疏注意力机制,通过将注意力权重稀疏化来减少计算量。同时,模型还采用了块预填和长度外插值技术,进一步提高了推理速度。实验结果表明,Qwen 2.5-1M 模型在 1M 令牌长度的序列上实现了 3.2 倍到 6.7 倍的加速。
用户可以通过克隆 vLLM 仓库和安装依赖项来部署 Qwen 2.5-1M 模型。需要注意的是,部署 Qwen 2.5-1M 模型需要满足一定的系统要求,包括 CUDA 版本、Python 版本和 VRAM 要求。
HN 热度 292 points | 评论 101 comments | 作者:meetpateltech | 1 day ago #
https://news.ycombinator.com/item?id=42831769
- 大型上下文窗口在实践中并不有用,模型会在处理超过 25-30k 个令牌时变得混乱
- 过大的上下文窗口可能会导致模型失去对系统提示的遵守,无法正确找到或转录代码片段
- 代码补全不是一个文本补全问题,而是一个图形补全问题
- 当上下文过大时,模型的召回率会降低,导致结果不准确
- 提供两个字段,一个是上下文,一个是提示,提示应该具有更高的优先级
- 大型上下文窗口的实现可能是通过稀疏注意力等机制,导致模型跳过某些令牌
- 代码补全需要精确的模型输出,而过大的上下文窗口会导致模型输出不精确
- 使用多个模型,例如架构师模型和编辑模型,来处理代码补全任务
- 上下文的连贯性和概念的统一性对模型的性能有重要影响
- 过大的上下文窗口可能会导致模型出现“迷失在中间”的问题
- 使用辅助工具来加载和管理大型代码库,可以帮助模型更好地处理代码补全任务