跳到主要内容

无人值守的AI编程:使用GitHub Copilot Agent进行内容迁移的体验

· 阅读需 7 分钟
Marvin Zhang
软件工程师 & 开源爱好者

引言

最近,我使用 GitHub Copilot Agent 成功将所有存档的markdown文章迁移到这个基于Docusaurus的博客,这个体验出乎意料地顺畅高效。最让我印象深刻的不仅是AI处理重复任务的能力,还有我能够引导它自主工作,而我可以专注于更高层次的决策。更令人着迷的是,我甚至可以在通勤或休息时用手机来审查和引导AI代理的工作。这次体验从根本上改变了我对AI辅助开发工作流的看法。

以下是迁移完成后的中英文博客展示:

图1:迁移效果一览(中文)

图2:迁移效果一览(英文)

Vercel AI SDK:加速 AI 应用构建的完整解决方案

· 阅读需 18 分钟
Marvin Zhang
软件工程师 & 开源爱好者

作为一名开发者,如果你想快速构建 AI 驱动的应用,Vercel AI SDK 是一个理想的选择。它是一个开源的 TypeScript 工具包,由 Next.js 的创建者开发而成,旨在简化 AI 集成过程,让你专注于业务逻辑而非底层复杂性。 通过统一的 API、多提供商支持和流式响应等特性,它显著降低了开发门槛,帮助开发者在短时间内从概念到上线。 在这篇技术博客中,我将从概述、核心优势、实际示例、与其他工具的比较、真实世界应用案例、社区反馈、潜在挑战等方面主张:我们应该利用 Vercel AI SDK 来加速 AI 应用的构建。特别值得一提的是,其新推出的 AI Elements 组件库,作为开箱即用的 AI 应用 UI 框架,与 AI SDK 深度集成,提供极高的扩展性和自定义能力,进一步提升了开发效率。

POML:结构化提示工程的兴起与AI应用架构的“新三驾马车”展望

· 阅读需 12 分钟
Marvin Zhang
软件工程师 & 开源爱好者

引言

在人工智能(AI)飞速发展的今天,提示工程(Prompt Engineering)正从一门依赖直觉的“艺术”转型为系统化的“工程”实践。微软于2025年推出的POML(Prompt Orchestration Markup Language)作为一种结构化标记语言,为这一变革注入了新动力。POML不仅解决了传统提示工程的混乱与低效,还预示着AI应用架构可能迎来类似Web开发的“HTML/CSS/JS三驾马车”范式。本文基于一份深入研究报告,详细剖析POML的核心技术、与Web架构的类比、实际应用场景以及未来潜力,为开发者与企业提供可操作的洞见。

POML开启提示工程新纪元

POML由微软研究院推出,其设计灵感源自HTML和XML,旨在通过模块化、语义化的标签(如<role>、<task>)将复杂的提示分解为清晰的组件,解决传统“提示意面”(Prompt Spaghetti)的痛点。它通过以下特性重塑提示工程:

  • 语义化标签:提升提示的可读性、可维护性和可重用性。
  • 多模态支持:无缝整合文本、表格、图像等数据。
  • 样式系统:受CSS启发,分离内容与呈现,简化A/B测试。
  • 动态模板:支持变量、循环和条件,实现自动化和个性化。

POML不仅是一门语言,更是AI应用架构的结构层,与优化工具(如PromptPerfect)和编排框架(如LangChain)共同构成“新三驾马车”。这一架构与学术界提出的“提示分层架构”(Prompt-Layered Architecture, PLA)理论高度契合,将提示管理提升为与传统软件开发同等重要的“第一公民”。

未来,POML有望成为多智能体系统(Multi-Agent Systems)的“通信协议”和“配置语言”,为构建可扩展、可审计的AI应用奠定基础。尽管社区对其复杂性存在争议,但其潜力不可忽视。本文将为开发者提供实用建议,助力企业拥抱这一变革。

斯坦福大学研究揭示AI对开发者生产力的真实影响:并非万能灵丹

· 阅读需 10 分钟
Marvin Zhang
软件工程师 & 开源爱好者

本文内容基于斯坦福大学研究员 Yegor Denisov-Blanch 在 AIEWF 2025 大会上的演讲,该研究分析了来自数百家公司的近10万名开发者的真实数据。感兴趣并有条件的可以去 YouTube 观看全部演讲内容。

最近,“AI将取代软件工程师”的论调甚嚣尘上。Meta的马克·扎克伯格(Mark Zuckerberg)甚至在今年年初表示,他计划在年底前用AI取代公司所有中级工程师。这种愿景无疑能鼓舞人心,但也给全球的技术决策者带来了压力:“我们离用AI取代所有开发者还有多远?”

斯坦福大学软件工程生产力研究团队的最新发现,为这个问题提供了一个更现实、更细致的答案。经过对近10万名软件工程师、600多家公司、数千万次提交以及数十亿行私有代码库数据的深入分析,这项大规模研究表明:人工智能确实可以提升开发者生产力,但它绝非一个“一劳永逸”的万能解决方案,其影响是高度情境化且充满细微差别的。虽然平均生产力提升了约20%,但在某些情况下,AI甚至可能适得其反,降低生产力。

DeepSeek:技术民主化的先锋,还是搅局者?

· 阅读需 10 分钟
Marvin Zhang
软件工程师 & 开源爱好者

引言

"预测未来的最好方式,就是去创造未来。" —— 彼得·德鲁克 (Peter Drucker)

2022年,OpenAI 的 ChatGPT 横空出世,以其前所未有的智能水平,瞬间点燃了全球对人工智能技术的狂热。这场由大型语言模型(LLM)引发的技术浪潮,犹如一场"技术爆炸",不仅让大众惊叹于 AI 的潜力,更深刻地改变了我们对未来科技发展方向的认知。从那时起,科技巨头们纷纷加入战局,竞相推出更强大、更经济的 AI 模型,试图在这场竞赛中占据领先地位。成本的持续降低和性能的不断提升,似乎预示着一个触手可及的 AI 普惠时代。

然而,当我们将目光聚焦于这场技术盛宴的核心——大语言模型本身时,却发现一个有趣的现象:尽管参与者众多,但真正能被称为"现象级"的,似乎只有 DeepSeek 一家。 这家被誉为 "AI界拼多多" 的公司,以其惊人的低成本和开源策略,迅速在全球范围内引发热议,甚至被一些人视为"技术民主化"的先锋。那么,DeepSeek 的爆红仅仅是因为价格优势吗?它真的能撼动现有 AI 格局,成为颠覆性创新的代表吗?还是说,它仅仅是技术巨头竞争格局中的一个搅局者?本文将深入探讨 DeepSeek 现象背后的深层原因,剖析其在全球 AI 领域迅速崛起的真正动因,以及它为整个行业带来的启示。

基于大语言模型(LLM)的人工智能能否引领新的工业革命?

· 阅读需 16 分钟
Marvin Zhang
软件工程师 & 开源爱好者

前言

“如果我们的时代是下一个工业革命,正如许多人所声称的那样,人工智能无疑是其驱动力之一。” -- 李飞飞《纽约时代周刊》专栏文章

距离 OpenAI 开发的划时代人工智能产品 ChatGPT 于 2022 年末面世,已经过去接近 2 年。这款强大的语言模型不仅激发了公众对人工智能的广泛关注,更点燃了业界对人工智能在各行各业应用潜力的无限想象。从那时起,大语言模型(LLM)以其强大的文本生成、理解和推理能力,迅速成为人工智能领域的焦点,并被视为引领新一轮工业革命的关键技术之一。风险投资数据平台 PitchBook 公布的数据显示,在今年 4-6 月,美国 AI 初创企业获得了 270 多亿融资,占总融资额的一半。

然而,随着人们不断惊讶于人工智能神奇能力的同时,也逐渐意识到 AI 当前存在的一些问题:幻觉(Hallucination)、效率、成本问题等。笔者在过去一段时间在工作和项目中或多或少实践过基于 LLM 的人工智能技术,对其原理及应用场景有一定理解,希望借助本文将目前 LLM 的心得所感分享给读者。

LLM 原理

Crawlab AI: 借助大语言模型 (LLM) 打造智能爬虫

· 阅读需 6 分钟
Marvin Zhang
软件工程师 & 开源爱好者

“如果我当年去问顾客他们想要什么,他们肯定会告诉我:一匹更快的马” -- 亨利•福特

前言

当我初入职场时,作为数据分析师的我,偶然体验到了网络爬虫(Web Crawler)自动化提取网页数据的能力,自此我一直对这个神奇的技术充满好奇。随着后来我不断钻研爬虫技术,逐渐了解到网络爬虫的核心技术,其中就包括网页解析(Parsing),即通过分析网页 HTML 结构而构建基于 XPath 或 CSS Selector 数据提取规则的过程。这个过程长期以来都需要人工介入,虽然对于爬虫工程师来说相对简单,但如果需要大规模抓取,这个过程是非常消耗时间的,而且随着网页结构变化会增加爬虫维护成本。本篇文章将介绍我开发的基于**大语言模型(LLM)**的智能爬虫产品:Crawlab AI。虽然它还处于早期开发阶段,但已经展现出强大的潜力,有望让数据从业者轻松获取数据。

相关工作

作为爬虫管理平台 Crawlab 的创始人,一直都热衷于让数据获取变得简单和轻松。跟数据从业者不断交流,我意识到智能爬虫(或通用爬虫)的大量需求,即不用人工编写解析规则就可以抓取任何网站的目标数据。当然,也不止我一个人在研究和试图解决这个问题:2020年1月,青南大佬发布了基于标点密度的通用文章解析库 GeneralNewsExtractor,可以 4行代码实现通用新闻爬虫;2020年7月,崔庆才大佬发布了 GerapyAutoExtractor,基于 SVM 算法实现了列表页数据抓取;2023年4月,我通过高维度向量聚类算法,开发了 Webspot,同样可以自动提取列表页。这些开源软件的主要问题在于,识别的精准度与人工编写的爬虫规则有一定差距。

此外,商业爬虫软件 Diffbot八爪鱼 通过自研的机器学习算法,也实现了部分通用数据抓取的功能。但可惜的是它们的使用成本相对较高。例如,Diffbot 的最低套餐就需要每月支付 299 美元的订阅费。

SRead Chrome Extension Released!

· 阅读需 3 分钟
Marvin Zhang
软件工程师 & 开源爱好者

Introduction to SRead

SRead is a smart reading assistant, whether you enjoy reading articles or viewing electronic papers, you can utilize SRead for assisted reading. SRead supports intelligent summarization, capable of extracting key information from the reading material and summarizing it; additionally, it can perform intelligent Q&A, answering any relevant information within the article. Moreover, SRead's mind map feature can help readers quickly grasp the outline of the entire piece.

Chrome Extension

The new Chrome extension of SRead brings a major upgrade to the browser reading experience. Once this extension is installed, users can directly enjoy all the features of SRead on Chrome browser without the need to download any additional applications. This extension includes a simplified toolbar, making it easy for users to quickly access the intelligent summarization, intelligent Q&A, and mind-mapping features while reading. Another important feature of this extension is that it can automatically recognize web page content, providing real-time intelligent assistance to users, making the reading experience smoother and more efficient.

Installation and Usage

Installing the SRead Chrome extension is very straightforward. Users first need to log on to the SRead website (https://sread.ai), and register/login with Gmail or WeChat. Then visit the Chrome Web Store, search for "SRead", and click the "Add to Chrome" button. Once the installation is complete, the SRead icon will appear on the toolbar, clicking the icon activates the extension and users can start using it.

Chrome Web Store

实战 AI: Langchain 库中的 OpenAI 函数调用 API

· 阅读需 4 分钟
Marvin Zhang
软件工程师 & 开源爱好者

引言

在探索人工智能领域时,我们常常需要利用现有的 API 来实现特定的功能。近日,在研究 Langchain 库时,我发现了一个很有趣的功能:利用 OpenAI 的函数调用 API 在一个链中执行特定操作。这不仅展示了如何从 ChatOpenAI 获取结构化输出,还展示了如何创建和执行函数链。这个功能为我们提供了一种新的可能性,使得在一个链中执行多个函数成为可能。通过这种方式,我们能够根据特定的输入,获得结构化的输出,从而为后续的操作提供更准确的数据。

LangChain OpenAI 函数

首先,我们需要了解如何从 ChatOpenAI 获取结构化的输出。在 Langchain 库中,有一个 create_structured_output_chain 函数,它可以接受一个 Pydantic 类或 JsonSchema 作为结构化输出的格式。通过这种方式,我们可以强制模型返回特定结构的输出,从而方便后续的处理。

例如,我们可以创建一个 Person 类,用于描述一个人的基本信息:

from langchain.pydantic_v1 import BaseModel, Field   

实战 AI:使用Langchain构建高效的知识问答系统

· 阅读需 3 分钟
Marvin Zhang
软件工程师 & 开源爱好者

引言

知识问答系统(KQA)是自然语言处理领域的核心技术之一,它能够帮助用户从大量数据中快速准确地检索到所需信息。知识问答系统成为了帮助个人和企业快速获取、筛选和处理信息的重要工具。它们在很多领域都发挥着重要作用,例如在线客服、智能助手、数据分析和决策支持等。

Langchain不仅提供了构建基本问答系统的必要模块,还支持更为复杂和高级的问答场景。例如,它可以处理结构化数据和代码,使得我们能够针对数据库或代码库进行问答。这极大地扩展了知识问答系统的应用范围,使其能够适应更多复杂的实际需求。本篇文章将通过一个简单的实战例子,介绍如何使用Langchain构建基本的知识问答系统。

flow.jpeg

实战

下面,我们将通过实战例子手把手介绍如何使用Langchain搭建知识问答系统。

1. 文档加载和预处理

构建知识问答系统的第一步是加载和预处理文档。Langchain提供了WebBaseLoader模块,可以帮助我们轻松加载文档: