Giải pháp tăng hiệu suất cho phân tích cú pháp tiếng Việt thành phần bằng phương pháp thứ tự giữa
Cả hai chiến lược phân tích cú pháp thành phần (consituent parsing) từ dưới lên (bottom-up) và từ trên xuống (top-down) thường được sử dụng cho các bộ phân tích cú pháp dựa trên biến đổi với mạng nơ ron. Các chiến lược này khác nhau về thứ tự sinh ra các thành tố cú pháp trong cây dẫn xuất hoặc là thứ tự sau (post-order) với phương pháp từ dưới lên; hoặc là thứ tự trước (pre-order) với phương pháp từ trên xuống. Phương pháp từ dưới lên có thuận lợi là luôn được bổ sung các thông tin khi xây dựng các thành tố mới từ cây cú pháp đã được xây dựng một phần, nhưng lại thiếu hướng dẫn bao quát trong quá trình phân tích cú pháp; phương pháp từ trên xuống có thuận lợi là có các thông tin rộng hơn để ra các quyết định cục bộ, nhưng phải dựa vào encoder phức tạp cho câu đầu vào để dự đoán cấu trúc phân cấp thành phần. Để giảm thiểu các điểm yếu của cả hai phương pháp trên, chúng tôi đề xuất một hệ thống phân tích cú pháp mới dựa trên thứ tự giữa (in-order) đi ngang qua cây cú pháp, thiết kế một tập hợp của các hành động chuyển tiếp để tìm sự thỏa hiệp giữa thông tin thành phần từ dưới lên và thông tin bao quát từ trên xuống. Dựa trên stack-LSTM, hệ thống phân tích cú pháp mới của chúng tôi đạt được 78,26%8 F1 trên bộ ngữ liệu Việt Treebank (VTB). Đây là kết quả tốt nhất trên bộ ngữ liệu này từ trước đến nay.
Từ khóa: phương pháp, quyết định, xây dựng, sử dụng, thành phần, chiến lược, hành động, quá trình, thông tin, hệ thống, hướng dẫn, bổ sung, tập hợp, phức tạp, thiết kế, phân tích, cú pháp, phân cấp, thuận lợi, chuyển tiếp, thứ tự
Ý kiến bạn đọc
Những tin mới hơn
Những tin cũ hơn