`


آموزش تنظیم دقیق مدل زبانی gpt2

در دنیای پردازش زبان طبیعی، مدل‌های زبانی مانند GPT-2 از پیشرفت‌های شگرفی برخوردار شده‌اند و در طیف وسیعی از کاربردها از تولید متن گرفته تا تعاملات هوش مصنوعی استفاده می‌شوند. با این حال، مدل‌های پیش‌آموزش‌دیده شده نمی‌توانند به‌طور خاص برای نیازهای فردی شما تنظیم شده باشند. اینجاست که تنظیم دقیق (فاین‌تیونینگ) مدل‌ها وارد می‌شود.

در این بلاگ، ما به بررسی دقیق فرآیند فاین‌تیونینگ مدل GPT-2 خواهیم پرداخت. هدف ما این است که شما را با روش‌هایی آشنا کنیم که با استفاده از کد پایتون، می‌توانید مدل GPT-2 را بر اساس داده‌های خاص خود آموزش دهید و آن را برای نیازهای خاص خود سفارشی کنید. ما به شما نشان خواهیم داد که چگونه می‌توانید با استفاده از کد پایتون، مجموعه داده‌های خود را آماده کنید، مدل را آموزش دهید و نهایتاً از مدل فاین‌تیون شده برای کاربردهای متنوع استفاده کنید.

در این پست، با تحلیل گام به گام کد ارائه‌شده، توضیحات مفصلی درباره هر بخش و نحوه کارکرد آن‌ها ارائه خواهیم داد. این راهنما به شما کمک خواهد کرد تا به‌راحتی فرآیند فاین‌تیونینگ را درک کنید و از آن در پروژه‌های خود بهره‌برداری کنید. آماده‌اید تا مهارت‌های خود را در زمینه پردازش زبان طبیعی ارتقا دهید؟ بیایید با هم این سفر را آغاز کنیم.

پیش‌نیازها

قبل از شروع، اطمینان حاصل کنید که موارد زیر را نصب کرده‌اید:

  • Python 3.6 یا نسخه های بالاتر
  •  کتابخانه‌های مورد نیاز : `transformers`

برای نصب این کتابخانه‌ها، از دستورات زیر استفاده کنید:


pip install transformers 

آماده‌سازی مدل و داده‌ها (ورود کتابخانه‌ها)


from transformers import GPT2LMHeadModel, GPT2Config
from transformers import PreTrainedTokenizerFast
from transformers import TextDataset, DataCollatorForLanguageModeling
from transformers import Trainer, TrainingArguments

در این بخش، کتابخانه‌های مورد نیاز برای تنظیم دقیق مدل GPT-2 را وارد می‌کنیم. این کتابخانه‌ها شامل ابزارهای لازم برای کار با مدل GPT-2، آماده‌سازی داده‌ها و اجرای فرآیند آموزش مدل هستند.

تنظیم توکنایزر (Tokenizer)


wrapped_tokenizer = PreTrainedTokenizerFast(
	tokenizer_file="tokenizer_BPE3.json",
	bos_token="",
	eos_token="",
)
tokenizer = wrapped_tokenizer

در این بخش، از توکنایزر `PreTrainedTokenizerFast` استفاده می‌کنیم. این توکنایزر برای پردازش و تبدیل متن به توکن‌ها به کار می‌رود و داده‌های متنی را به فرمت مناسب برای مدل تبدیل می‌کند. پارامترهای `bos_token` و `eos_token` به ترتیب نمایانگر شروع و پایان یک جمله هستند که برای پردازش متون مهم هستند.

ایجاد مجموعه داده (Dataset)

بارگذاری مجموعه داده


def load_dataset(filepath, tokenizer, blocksize=128):
	dataset = TextDataset(
    	tokenizer=tokenizer,
    	file_path=filepath,
    	block_size=blocksize
	)
	return dataset

این تابع مجموعه داده‌ی آموزشی را از فایل مشخص شده بارگذاری می‌کند و با استفاده از توکنایزر، داده‌ها را به قالب مناسب برای مدل تبدیل می‌کند. پارامتر `block_size` اندازه بلاک‌های متنی را تعیین می‌کند که به عنوان ورودی به مدل داده می‌شوند. این کار به مدل کمک می‌کند تا داده‌ها را در بخش‌های کوچک‌تر پردازش کند.

ایجاد Data Collator


def load_data_collator(tokenizer, mlm=False):
	data_collator = DataCollatorForLanguageModeling(
    	tokenizer=tokenizer,
    	mlm=mlm
	)
	return data_collator

این تابع یک Data Collator ایجاد می‌کند که وظیفه آماده‌سازی داده‌ها برای مدل را بر عهده دارد. Data Collator داده‌ها را به فرمت مناسب برای مدل تبدیل کرده و در طول آموزش از آن‌ها استفاده می‌کند. پارامتر `mlm` مشخص می‌کند که آیا مدل باید برای یادگیری زبان به صورت Masked Language Model آموزش ببیند یا خیر.

آموزش مدل (Training Function)


def train(
	train_file_path,
	model_name,
	output_dir,
	overwrite_output_dir,
	num_train_epochs,
	per_device_train_batch_size,
	save_steps
):
	train_dataset = load_dataset(train_file_path, tokenizer)
	data_collator = load_data_collator(tokenizer)
	model = GPT2LMHeadModel.from_pretrained(model_name)
	model.save_pretrained(output_dir)

	training_args = TrainingArguments(
    	output_dir=output_dir,
    	overwrite_output_dir=overwrite_output_dir,
    	per_device_train_batch_size=per_device_train_batch_size,
    	num_train_epochs=num_train_epochs,
    	save_steps=save_steps
	)
	trainer = Trainer(
    	model=model,
    	args=training_args,
    	data_collator=data_collator,
    	train_dataset=train_dataset
	)
	trainer.train()
	trainer.save_model()

این تابع مسئول فرآیند آموزش مدل است و مراحل مختلف آن به شرح زیر است:

1. بارگذاری مجموعه داده مجموعه داده‌ی آموزشی با استفاده از تابع `load_dataset` بارگذاری می‌شود.

2. ایجاد Data Collator :Data Collator با استفاده از تابع `load_data_collator` ایجاد می‌شود.

3. بارگذاری مدل: مدل GPT-2 با استفاده از `from_pretrained` بارگذاری می‌شود. شما می‌توانید از مدل‌های پیش‌آموزش‌دیده شده استفاده کنید یا مدل سفارشی خودتان را بارگذاری کنید.

4. تنظیمات آموزش: تنظیمات مختلف آموزش مانند تعداد `epochs`، اندازه `batch` برای هر دستگاه و مراحل ذخیره مدل مشخص می‌شود.

5. ایجاد Trainer: یک Trainer ایجاد می‌شود که مسئول اجرای فرآیند آموزش مدل است.

6. اجرای آموزش و ذخیره مدل: فرآیند آموزش اجرا می‌شود و مدل فاین‌تیون شده ذخیره می‌شود.

فراخوانی تابع آموزش (Training Function)


train(
	train_file_path="enter the address of the training file",
	model_name="some gpt2 model name or address of the file if you have one",
	output_dir="make a dir and put the address here",
	overwrite_output_dir=True,
	per_device_train_batch_size=8,
	num_train_epochs=5,
	save_steps=500
)

در نهایت، این قسمت از کد تابع `train` را فراخوانی می‌کند و پارامترهای مورد نیاز برای آموزش مدل را به آن می‌دهد. شما باید مسیر فایل آموزشی، نام یا مسیر مدل GPT-2 و دیگر پارامترها را متناسب با نیازهای خود مشخص کنید.

پیشنهادات برای بهبود

ارزیابی مدل

برای بررسی عملکرد مدل فاین‌تیون شده از متریک‌های مختلف مانند Perplexity و Accuracy استفاده کنید.

بهینه‌سازی‌های بیشتر

برای بهبود عملکرد مدل می‌توانید از تکنیک‌های پیشرفته‌تری مانند Regularization و Dropout استفاده کنید.


منابع و لینک‌های مفید

[مستندات Hugging Face Transformers]


علیرضا داودی 10 اوت 2024
Share this post
برچسب‌ها
AI

 

`


جمع آوری دیتاست برای آموزش ماشین تصحیح گر نام و نام خانوادگی