一、概述

SRT（SubRip Subtitle）文件作为最常见的字幕格式，其结构遵循严格的时序标记规范。本文详细介绍如何使用C#实现SRT文件的解析与格式验证，构建可复用的解析组件。该方案不仅完成文本到对象的转换，同时执行关键格式校验，确保数据完整性与业务逻辑合规性。

二、核心实现原理

2.1 数据结构定义

解析过程首先需要建立与SRT结构对应的领域模型。定义SubtitleItem类承载单个字幕条目，包含四个核心属性：

public class SubtitleItem
{
    public int Number { get; set; }     // 字幕序号
    public TimeSpan StartTime { get; set; } // 开始时间
    public TimeSpan EndTime { get; set; }   // 结束时间
    public string Text { get; set; }        // 字幕文本
}

该模型精确映射SRT文件的四要素：序号标识、时间区间和文本内容，为后续处理奠定基础。

2.2 文件解析流程

解析器的核心方法Parse遵循分块处理原则：

public static List Parse(string content)
{
    var items = new List();
    var blocks = content.Split(new[] { "\r\n\r\n", "\n\n" }, 
                     StringSplitOptions.RemoveEmptyEntries);
    // 处理每个字幕块...
}

该方法首先通过空行分割获取独立字幕块，符合SRT规范中条目以空行分隔的要求。考虑不同系统换行符差异，同时处理\r\n和\n两种换行形式。

2.3 块级处理机制

每个字幕块按行级进行解析：

foreach (var block in blocks)
{
    var lines = block.Split(new[] { '\r', '\n' }, 
                  StringSplitOptions.RemoveEmptyEntries);
    if (lines.Length < 3)
        throw new FormatException($"无效的字幕块：\n{block}");
    
    // 解析序号、时间轴、文本内容...
}

此阶段完成三个关键操作：行拆分、基础格式验证和元素提取。强制要求每个块至少包含序号行、时间轴行和文本内容行，排除不完整数据。

三、关键格式验证点

3.1 序号连续性校验

采用预期值匹配机制确保序号严格递增：

int expectedNumber = 1;
// 在循环内部：
if (!int.TryParse(lines[0], out int number) || number != expectedNumber)
    throw new FormatException($"序号错误，期望 {expectedNumber} 实际 {number}");
expectedNumber++;

该设计有效防止序号跳跃、重复等异常情况，维护时间轴的逻辑顺序。

3.2 时间轴格式验证

通过正则表达式强化时间格式检查：

private static readonly Regex TimeRegex = new Regex(
    @"(\d{2}:\d{2}:\d{2},\d{3})\s*-->\s*(\d{2}:\d{2}:\d{2},\d{3})",
    RegexOptions.Compiled);

// 匹配验证：
var match = TimeRegex.Match(lines[1]);
if (!match.Success)
    throw new FormatException($"时间格式错误: {lines[1]}");

该正则表达式严格限定时间格式为HH:MM:SS,mmm，强制包含毫秒级精度，同时验证时间分隔符-->的正确使用。

3.3 时间逻辑验证

在成功解析时间后执行逻辑校验：

if (startTime >= endTime)
    throw new FormatException($"时间顺序错误: {lines[1]}");

此验证确保每个字幕条目的开始时间严格早于结束时间，避免出现时间倒流等逻辑矛盾。

四、时间解析实现

时间字符串转换采用精确解析策略：

private static TimeSpan ParseTime(string timeString)
{
    return TimeSpan.ParseExact(timeString, 
        "hh\\:mm\\:ss\\,fff", 
        CultureInfo.InvariantCulture);
}

ParseExact方法配合格式字符串确保时间解析的准确性，明确处理小时、分钟、秒和毫秒的对应关系。特殊字符转义处理保证格式字符串的正确性。

五、应用实践示例

5.1 基础使用

try
{
    var subtitles = SrtParser.ParseFile("sample.srt");
    foreach (var sub in subtitles)
    {
        Console.WriteLine($"#{sub.Number} {sub.StartTime} --> {sub.EndTime}");
        Console.WriteLine(sub.Text);
    }
}
catch (FormatException ex)
{
    Console.WriteLine($"格式错误: {ex.Message}");
}

此示例演示完整的文件解析流程，包含成功路径与异常处理。输出结果保持原始时间精度和文本格式。

5.2 异常场景处理

当遇到非法文件时，解析器抛出具有明确错误描述的异常：

示例无效内容：

2
00:00:05,000 --> 00:00:03,000
时间顺序错误

输出错误信息：

格式错误: 时间顺序错误: 00:00:05,000 --> 00:00:03,000

精确的错误定位能力极大简化调试过程，每个异常包含具体出错位置的上下文信息。

六、扩展性设计

6.1 编码处理增强

当前实现默认使用UTF-8编码：

using (var reader = new StreamReader(filePath, Encoding.UTF8))

可通过扩展方法支持自动编码检测：

public static List ParseFile(string filePath, Encoding encoding = null)
{
    using (var reader = new StreamReader(filePath, 
        encoding ?? Encoding.GetEncoding("iso-8859-1")))
    // ...
}

此改进可更好兼容使用其他编码（如ANSI）保存的SRT文件。

6.2 格式容错处理

对于部分非标准文件，可增加可选宽松模式：

public static List Parse(string content, bool strictMode = true)
{
    // 在序号校验处：
    if (strictMode && (number != expectedNumber))
    {
        throw new FormatException(...);
    }
    // 其他校验同理...
}

该设计允许在需要时跳过某些验证，提高解析器的适应性。

七、性能优化建议

对于大型SRT文件（如超过10,000条目的字幕），建议采用流式处理：

public static IEnumerable ParseStream(TextReader reader)
{
    string block = "";
    while ((line = reader.ReadLine()) != null)
    {
        if (string.IsNullOrWhiteSpace(line))
        {
            yield return ParseBlock(block);
            block = "";
        }
        else
        {
            block += line + "\n";
        }
    }
}

此方法实现按需加载，避免一次性加载全部内容的内存消耗，特别适用于移动设备等资源受限环境。

八、结语

本文实现的SRT解析器在精确性、健壮性和可扩展性之间取得平衡，主要特点包括：

严格的格式验证体系，覆盖序号、时间格式、时间顺序等关键校验点
精确的时间解析机制，支持毫秒级精度处理
灵活的异常处理设计，提供清晰的错误定位信息
可扩展的架构设计，便于添加新的格式规则或优化策略

该方案可直接应用于视频处理系统、字幕编辑工具等场景，开发者可根据具体需求调整验证严格度或扩展功能模块。通过遵循本文的技术路径，可快速构建出符合工业级要求的字幕处理组件。

基于C#的SRT文件解析与格式验证技术实现