AudioSpectrogram

পাবলিক ফাইনাল ক্লাস অডিও স্পেকট্রোগ্রাম

সময়ের সাথে সাথে অডিও ডেটার একটি ভিজ্যুয়ালাইজেশন তৈরি করে।

স্পেকট্রোগ্রাম হল অডিও তথ্য উপস্থাপনের একটি প্রমিত উপায় যেটি ফ্রিকোয়েন্সি তথ্যের স্লাইসগুলির একটি সিরিজ হিসাবে, সময়ের প্রতিটি উইন্ডোর জন্য একটি স্লাইস। এগুলিকে একটি ক্রম হিসাবে একত্রিত করে, তারা সময়ের সাথে সাথে শব্দের একটি স্বতন্ত্র আঙ্গুলের ছাপ তৈরি করে।

এই অপটি একটি ইনপুট হিসাবে অডিও ডেটা পাওয়ার আশা করে, যা -1 থেকে 1 রেঞ্জে ফ্লোট হিসাবে সংরক্ষিত, নমুনাগুলিতে একটি উইন্ডোর প্রস্থ সহ, এবং স্লাইসের মধ্যে উইন্ডোটিকে কতদূর সরাতে হবে তা নির্দিষ্ট করে। এটি থেকে এটি একটি ত্রিমাত্রিক আউটপুট তৈরি করে। প্রথম মাত্রাটি ইনপুটের চ্যানেলগুলির জন্য, তাই একটি স্টেরিও অডিও ইনপুট এখানে দুটি উদাহরণ স্বরূপ। দ্বিতীয় মাত্রা হল সময়, ধারাবাহিক ফ্রিকোয়েন্সি স্লাইস সহ। সেই সময় স্লাইস চলাকালীন প্রতিটি ফ্রিকোয়েন্সির জন্য তৃতীয় মাত্রার একটি প্রশস্ততা মান রয়েছে।

এর অর্থ হল লেআউটটি যখন রূপান্তরিত এবং একটি চিত্র হিসাবে সংরক্ষণ করা হয় তখন একটি সাধারণ বর্ণালীগ্রাম থেকে ঘড়ির কাঁটার দিকে 90 ডিগ্রি ঘোরানো হয়। সময় Y অক্ষের নিচে নামছে এবং ফ্রিকোয়েন্সি বাম থেকে ডানে কমছে।

ফলাফলের প্রতিটি মান নমুনার বর্তমান উইন্ডোতে একটি FFT এর বাস্তব এবং কাল্পনিক অংশের যোগফলের বর্গমূলকে উপস্থাপন করে। এইভাবে, সর্বনিম্ন মাত্রা বর্তমান উইন্ডোতে প্রতিটি কম্পাঙ্কের শক্তিকে প্রতিনিধিত্ব করে, এবং পার্শ্ববর্তী উইন্ডোগুলি পরবর্তী মাত্রায় সংযুক্ত করা হয়।

এই অপারেশনটি কী করে তা আরও স্বজ্ঞাত এবং চাক্ষুষ রূপ পেতে, আপনি একটি অডিও ফাইলে পড়ার জন্য tensorflow/examples/wav_to_spectrogram চালাতে পারেন এবং ফলস্বরূপ স্পেকট্রোগ্রামটিকে একটি PNG চিত্র হিসাবে সংরক্ষণ করতে পারেন।

নেস্টেড ক্লাস

ক্লাস অডিও স্পেকট্রোগ্রাম। অপশন AudioSpectrogram জন্য ঐচ্ছিক বৈশিষ্ট্য

ধ্রুবক

স্ট্রিং OP_NAME এই অপের নাম, টেনসরফ্লো কোর ইঞ্জিন দ্বারা পরিচিত

পাবলিক পদ্ধতি

আউটপুট < TFloat32 >
আউটপুট হিসাবে ()
টেনসরের প্রতীকী হ্যান্ডেল ফেরত দেয়।
স্ট্যাটিক অডিও স্পেকট্রোগ্রাম
তৈরি করুন ( স্কোপ স্কোপ, অপারেন্ড < TFloat32 > ইনপুট, লং উইন্ডো সাইজ, লং স্ট্রাইড, অপশন... অপশন)
একটি নতুন AudioSpectrogram অপারেশন মোড়ানো একটি ক্লাস তৈরি করার কারখানা পদ্ধতি।
স্ট্যাটিক অডিও স্পেকট্রোগ্রাম। অপশন
magnitudeSquared (বুলিয়ান ম্যাগনিচুডস্কোয়ার্ড)
আউটপুট < TFloat32 >
বর্ণালীগ্রাম ()
একটি চিত্র হিসাবে অডিও ফ্রিকোয়েন্সিগুলির 3D উপস্থাপনা৷

উত্তরাধিকারসূত্রে প্রাপ্ত পদ্ধতি

ধ্রুবক

সর্বজনীন স্ট্যাটিক চূড়ান্ত স্ট্রিং OP_NAME

এই অপের নাম, টেনসরফ্লো কোর ইঞ্জিন দ্বারা পরিচিত

ধ্রুবক মান: "অডিও স্পেকট্রোগ্রাম"

পাবলিক পদ্ধতি

সর্বজনীন আউটপুট < TFloat32 > asOutput ()

টেনসরের প্রতীকী হ্যান্ডেল ফেরত দেয়।

TensorFlow অপারেশনের ইনপুট হল অন্য TensorFlow অপারেশনের আউটপুট। এই পদ্ধতিটি একটি প্রতীকী হ্যান্ডেল পেতে ব্যবহৃত হয় যা ইনপুটের গণনাকে প্রতিনিধিত্ব করে।

পাবলিক স্ট্যাটিক অডিও স্পেকট্রোগ্রাম তৈরি করুন ( স্কোপ স্কোপ, অপারেন্ড < TFloat32 > ইনপুট, লং উইন্ডো সাইজ, লং স্ট্রাইড, অপশন... অপশন)

একটি নতুন AudioSpectrogram অপারেশন মোড়ানো একটি ক্লাস তৈরি করার কারখানা পদ্ধতি।

পরামিতি
সুযোগ বর্তমান সুযোগ
ইনপুট অডিও ডেটার ফ্লোট উপস্থাপনা।
উইন্ডো সাইজ নমুনাগুলিতে ইনপুট উইন্ডোটি কতটা প্রশস্ত। সর্বোচ্চ দক্ষতার জন্য এটি দুটির শক্তি হওয়া উচিত, তবে অন্যান্য মানগুলি গ্রহণ করা হয়।
অগ্রসর সংলগ্ন নমুনা জানালার কেন্দ্রটি কতটা বিস্তৃতভাবে আলাদা হওয়া উচিত।
বিকল্প ঐচ্ছিক বৈশিষ্ট্য মান বহন করে
রিটার্নস
  • অডিওস্পেকট্রোগ্রামের একটি নতুন উদাহরণ

পাবলিক স্ট্যাটিক অডিও স্পেকট্রোগ্রাম। অপশন ম্যাগনিটিউডস্কোয়ার্ড (বুলিয়ান ম্যাগনিচুডস্কোয়ার)

পরামিতি
স্কয়ার বর্গক্ষেত্রের মাত্রা ফেরত দিতে হবে নাকি শুধু মাত্রা। বর্গাকার মাত্রা ব্যবহার করে অতিরিক্ত গণনা এড়াতে পারে।

সর্বজনীন আউটপুট < TFloat32 > বর্ণালীগ্রাম ()

একটি চিত্র হিসাবে অডিও ফ্রিকোয়েন্সিগুলির 3D উপস্থাপনা৷